65ª Reunião Anual da SBPC

A. Ciências Exatas e da Terra - 2. Ciência da Computação - 6. Inteligência Artificial e Redes Neurais

Um estudo Preliminar no uso de PCA para reconhecimento de expressões faciais na Web

Felipe Bueno - UTFPR
Carina Cristina Rosa - UTFPR
Wellton Costa de Oliveira - Prof. Msc -Depto de Informática - UTFPR
Thalita Scharr Rodrigues - Prof. Msc -Depto de Informática - UTFPR

INTRODUÇÃO:

Segundo Alves (2008) ”Uma emoção é um estado mental e fisiológico associada a uma ampla variedade de sentimentos, pensamentos e comportamentos”. Juntamente com olhar a expressão facial é uma das formas que os seres humanos utilizam para expressar suas emoções, interagindo assim com as outras pessoas. (PESTANA, 2005). Para Picard (1997), computação afetiva é o estudo das emoções em diversos sistemas de informação.
Segundo Sandmann e Senaga (2002), os seres humanos utilizam o reconhecimento facial para identificar quais são os ânimos de uma pessoa, definindo assim o tipo de interação apropriada. Tal tarefa é consideravelmente fácil para o cérebro humano, porém para um computador não. Uma solução para tal situação é utilizar modelos matemáticos que representem a tarefa cerebral de aprendizado.
Oliveira (2008) utilizou árvore de decisão em conjunto com a metodologia FACS (Sistema Psicológico de codificação Facial) (EKMAN; FRIESEN; HAGER,2002), na qual “..classifica todos os movimentos musculares faciais, denominados de Unidades de Ação (AU)..”(OLIVEIRA, 2008, pg 44) .
O presente trabalho tem como objetivo identificar expressões faciais a partir de imagens da internet por meio de webcam, utilizando a técnica de Análise de Componentes Principais.

OBJETIVO DO TRABALHO:

Identificar emoções em imagens capturas por meio de uma webcam em ambiente web;

MÉTODOS:

O sistema consiste das seguintes etapas: aquisição das imagens; pré-processamento; aplicação do modelo para comparação de emoções; e classificação e validação. O início ocorre a partir da interface de aquisição da imagem. A mesma foi desenvolvida utilizando JAVA/JSP e Flash para a captura da imagem da face usuário por meio de webcam. Após a aquisição desta, utiliza-se o algoritmo Viola-Jones para detecção de face. Em seguida, a imagem é normalizada e corrigida para aperfeiçoar o reconhecimento da emoção do usuário, aplicando-se um dos conjuntos de filtros utilizados: Equalização de Histograma e Filtro de Sobel, ou Correção Gama, Diferença de Gaussianas e Equalização de Histograma. Em seguida é feita a extração dos autovalores e autovetores da imagem submetida ao sistema, utilizando PCA (Análise de Componentes Principais). Os mesmos são comparados com os valores adquiridos durante a fase de treinamento. Foi realizado o treinamento a partir de três bases de faces apresentando emoções já classificadas, disponíveis na web: Machine Learning Repository (base FACES), JAFFE (Japanese Female Facial Expression Database), e CAFE (California Facial Expressions). Após classificar a emoção, a mesma é retornada ao usuário, e ele indica se foi corretamente identificada ou não, e baseado nisso é feito um novo treinamento, incorporando os valores da face. Durante a comparação das técnicas, a última funcionalidade citada foi desabilitada para padronização das bases de treinamento.

RESULTADOS E DISCUSSÃO:

Realizaram-se 5 testes, onde se alternou a base de treinamento e as técnicas de pré-processamento (Conjunto 1 - Equalização de Histograma e Filtro de Sobel; Conjunto 2 - Correção Gama, Diferença de Gaussianas e Equalização de Histograma). Para testes, utilizou-se uma base de autoria própria. Em seguida serão apresentados 2 testes mais relevantes.
Durante o 1º teste, utilizou-se o Conjunto 1, e as bases CAFE, FACES e JAFFE, separadamente. Obteve-se 100% de identificação de alegria com a base CAFE, porém 12% com as outras bases. Para a emoção neutra obteve-se 50% CAFE, 37% JAFFE e 50% FACES. A CAFE possui 40 imagens classificadas como alegria, contudo a base JAFFE possui apenas 23. Verifica-se que a diminuição da amostra teve impacto na diferença de desempenho. Acredita-se que a heterogeneidade étnica e de gênero na base CAFE eram maiores, possibilitando a criação de um padrão aprimorado para a identificação de alegria.
O 3º teste utilizou o Conjunto 2 e as bases FACES, JAFFE e CAFE, separadamente. Os resultados foram 87% CAFE, 62% JAFFE e 50% FACES para alegria. O nº de imagens também se mostrou decisivo na classificação. Verificou-se que as técnicas do Conjunto 2 impactaram no aumento do reconhecimento da emoção neutra na base JAFFE (62%), em comparação com as demais. O desempenho da base FACES foi baixo (alegria 50%, tristeza 37%, raiva 12% e neutro 37%), pois algumas características das imagens diminuíram o aprendizado (resolução ruim e pessoas com óculos e barba).

CONCLUSÕES:

Durante o desenvolvimento do projeto verificou-se que uma base padronizada aliada a um pré-processamento eficaz consistem em fatores decisivos na identificação de emoção com Análise de Componentes Principais (PCA). Este algoritmo é detalhista, de modo que qualquer padrão não relevante na imagem pode levá-lo ao erro. Isso ocorreu no caso da base de imagens FACES que disponibiliza imagens em menor resolução. Como indicação de trabalho futuro, recomenda-se o uso de outras normalizações e filtros na imagem. Além disso, cita-se a aplicação de segmentação da imagem, ou seja, ao invés de comparar todo o rosto, é possível separá-lo em olhos e boca, posteriormente aplicando as técnicas de pré-processamento e aprendizagem de máquina em paralelo. Outra opção é a utilização de rotação na imagem, dessa maneira padronizando o posicionamento das faces e normalizando a base de imagens. Para os trabalhos futuros, também se propõe a utilização de outras emoções como Nojo, Medo e Surpresa. Conclui-se também que o estudo da identificação da emoção deve considerar outros fatores além de somente a expressão facial, como por exemplo, a entonação da voz.

Palavras-chave: Análise de Componentes Principais, Processamento de Imagens, Reconhecimento de Padrões.