Trabalho de Conclusão de Curso
Documento
Autoria
Unidade da USP
Data de Apresentação
Orientador
Banca
Lee, Jen John
Endo, Wagner
Título em Português
Cálculo da função densidade de probabilidade em dados contínuos em paralelo
Palavras-chave em Português
Histograma
Função densidade de probabilidade
Python
Numpy
IPython
Paralelo
Probabilidade
Resumo em Português
Dado uma grande amostra de dados, construir um histograma representando a função densi-dade de probabilidade (FDP) que permita extrair o máximo de informação possível não é uma tarefa trivial. Fazê-lo de forma empírica pode ser muito trabalhoso, principalmente para mais de um experimento. É interessante, então, utilizar um algoritmo já pronto que calcula o histograma com uma quantidade de intervalos ótima. Para o caso de dados que obedecem a distribuição de Poisson, o algoritmo “A method for bin size selection” (SHIMAZAKI; SHINOMOTO, 2007) já permite fazer esse cálculo automático. O resultado desse algoritmo é a seleção de um intervalo de classe ótimo, mas a implementação deste de maneira eficiente é crucial para processamento cientifico que utiliza enormes quanti-dades de dados. A linguagem Python, utilizada em conjunto com as bibliotecas Numpy e Scipy, possui um bom desempenho. A utilização da ferramenta para paralelização IPython melhorou ainda mais a performance do processamento do algoritmo. Foram feitos testes em serial e em paralelo. A execução em paralelo apresentou um ganho em torno de 50% sobre a execução serial. Concluído os testes de funcionalidade e desempenho, o programa foi utilizado para estimar a FDP de dados experimentais e como resultado foi obtido uma FDP próxima de uma gaussiana, como esperado. A disponibilização deste programa mostra-se uma promissora forma de facilitar a construção de histogramas nos mais diversos campos de pesquisa devido à linguagem Python ser uma fer-ramenta padrão dos sistemas derivados Unix e a ferramenta IPython estar disponível, gratuita-mente, para instalação nestas.
Palavras-chave em Inglês
Histogram
Probability density function
Python
Numpy
IPython
Parallel
Resumo em Inglês
Given an amount of data, generate a histogram representing the probability density function (PDF) that allows extract as much information as possible is not an easy task. Doing it empiri-cally may be very painful, especially if there is more than one experimentation. So, it’s interest-ing to use an already made algorithm that calculates the histogram with an optimal number of bins. For the case of data that obeys the Poisson distribution, the algorithm "A method for bin size selection" (SHIMAZAKI; SHINOMOTO, 2007) already allows this automatic calculation. The result of this algorithm is the selection of a range of great class, but implementing this efficiently is crucial for scientific processing which uses huge amounts of data. The Python language, used in conjunction with libraries Numpy and Scipy, has a good perfor-mance. The use of the IPython tool for parallelization further improved the performance of the processing algorithm. Tests were made in serial and in parallel. Running in parallel showed a gain around 50% over the serial execution. Completed the tests of functionality and performance, the program was used to estimate the PDF of experimental data and was obtained a PDF next to a Gaussian distribution as expected. The deployment of this software shows a promising way to ease the construction of histograms in various fields of research due to the fact that the Python language is a standard for Unix-derived systems and the IPython tool is available, free of charge, to install.
Arquivos
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome(s) do(s) autor(es) do trabalho.
 
Data de Publicação
2013-04-30
Número de visitas
3405
Número de downloads
4125
Copyright © 2010 Biblioteca Digital de Trabalhos Acadêmicos da USP. Todos os direitos reservados.