Análise da influência de descritores de textura LMP na entrada de redes neurais convolucionais...

O problema de classificação de imagens, tarefa na qual rotula-se uma imagem de entrada dentre um conjunto de categorias preestabelecidas, é recorrente e um dos mais importantes no campo de visão computacional. Nos últimos anos, os melhores resultados para esse problema têm sido obtidos com o uso de redes neurais convolucionais (convolutional neural networks - CNNs). Neste trabalho, avaliou-se o efeito do uso de descritores LMP (Local Mapped Pattern) aplicados na imagem de entrada. Primeiramente projetou-se uma arquitetura CNN que foi treinada utilizando-se o conjunto de imagens CIFAR-10, composto de 60.000 imagens de tamanho 32x32 pixels e 3 canais (RGB), sendo 50.000 imagens de treino e 10.000 imagens de teste divididas em 10 categorias. Após aferida a acurácia da arquitetura, verificou-se a variação dessa acurácia quando as imagens de entrada, tanto de treino quanto de teste, eram submetidas aos descritores LMP. Foram utilizados dois descritores LMP, o LMP sigmoidal e o LMP triangular, e foram testadas diferentes combinações entre a matriz de texturas obtidas por cada descritor e a imagem original. Após os testes, constatou-se que no caso da matriz de texturas ser calculada sobre cada canal a acurácia se manteve praticamente inalterada, mas quando a matriz de texturas era calculada sobre a matriz de intensidades da imagem há uma pequena melhora na acurácia da arquitetura somente devido a esse pré-processamento, já que a arquitetura se manteve inalterada. Em um campo de estudo relativamente novo como o de CNNs, em que ainda não se tem o controle total sobre quais parâmetros podem aumentar a eficiência da sua arquitetura, o uso de descritores LMP nas imagens de entrada de uma CNN se mostra como uma boa opção, ainda mais pelo fato de que não se necessita fazer alterações na arquitetura em si.

Título em Inglês

Analysis of the influence of LMP texture descriptors in the input of convolutional neural networks

Palavras-chave em Inglês

Convolutional neural networks
Texture descriptors
Image classification

Resumo em Inglês

The image classification problem, task in which is assigned to an input image a label from a pre-established set of categories, is recurrent and one of the core problems in computer vision. In the latest years, the best results for this problem have come from the use of convolutional neural networks (CNNs). In this study, the effect of using LMP (Local Mapped Pattern) texture descriptors in the input image was evaluated. In the first place a CNN architecture was designed and trained using the images dataset CIFAR-10, which consists of 60,000 images of size 32x32 pixels and 3 channels (RGB), being 50,000 training images and 10,000 test images, divided in 10 categories. After the architecture accuracy was measured, the variation of the accuracy was verified in the cases in which the input images (training and test images as well) were put under the influence of the LMP descriptors. Two LMP descriptors were utilized, the sigmoidal LMP and the triangular LMP, and also different combinations of the textures matrix obtained from the descriptors and the original input image. After the tests, it was found that in the case of the textures matrix to be calculated from each different channel of the input image, the architecture accuracy remained practically unaltered, but, in the case of the textures matrix to be calculated from the intensity matrix of the input image, there is a little improvement in the architecture accuracy from this pre-processing alone, once the architecture remained unaltered. In a relatively new field of study such as CNNs, in which it is not completely known what can improve the efficiency of a certain architecture, the use of LMP in the input of a CNN reveals itself as a good option for this task, even more so due to the fact that it does not require any changes in the architecture itself.

Arquivos

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome(s) do(s) autor(es) do trabalho.

Pizzi_Daniel_Arruda_tcc.pdf (1.14 Mbytes)

Data de Publicação

2018-01-18

Número de visitas

431

Número de downloads

230