61ª Reunião Anual da SBPC
A. Ciências Exatas e da Terra - 5. Matemática - 5. Probabilidade e Estatística
UM ESTUDO SOBRE A INICIALIZAÇÃO DO ALGORITMO EM APLICADO A MISTURAS FINITAS DE NORMAIS ASSIMÉTRICAS
Leyne Abuim de Vasconcelos Marques 1
José Raimundo Gomes Pereira 1, 2
1. Universidade Federal do Amazonas - UFAM
2. Orientador , Dr. / Universidade Federal do Amazonas - UFAM
INTRODUÇÃO:
Tem sido comum o emprego de misturas finitas de densidades normais para modelar dados assimétricos, porém com estes modelos, às vezes torna-se necessário um grande número de componentes para descrever a assimetria dos dados. Para superar esta dificuldade, uma alternativa tem sido o emprego de misturas finitas de normais assimétricas, um modelo que une o potencial das misturas com a flexibilidade das normais assimétricas em lidar com dados assimétricos.  Neste trabalho empregamos o algoritmo EM para a estimação de máxima verossimilhança dos parâmetros de mistura de normais assimétricas, fixando o número de componentes. Este algoritmo apesar de suas excelentes propriedades teóricas e simplicidade de implementação, tem a desvantagem da convergência lenta, principalmente se a escolha dos valores iniciais não for adequada. Com o intuito de solucionar este problema, o estudo realizado neste trabalho compara por meio de simulação computacional, o desempenho de alguns métodos de inicialização do algoritmo EM cujo enfoque principal foi avaliar a estimação da densidade. Foram avaliados em cada método aspectos como qualidade das estimativas obtidas, log-verossimilhança estimada mais próxima daquela obtida com os parâmetros que geraram a amostra e número de iterações atingidas pelo algoritmo.
METODOLOGIA:

Foram simuladas amostras provenientes de uma mistura de duas densidades normais assimétricas. Cada amostra simulada foi submetida a cada um dos métodos de inicialização, assim todos os métodos trabalharam com as mesmas amostras e cada um deles forneceu valores iniciais para a inicialização do algoritmo EM. Esses valores iniciais foram submetidos ao algoritmo, que forneceu estimativas para os parâmetros da mistura finita de normais assimétricas segundo cada método de inicialização. Nessas simulações foram realizadas 500 repetições com amostras de tamanho 100, 300, 500, 1000 e 5000. Todas essas simulações foram realizadas em três experimentos diferentes com o objetivo de comparar o comportamento dos métodos de inicialização quando, as componentes da mistura estão “moderadamente separadas”, “bem separadas” e “bem superpostas”. Com os resultados, três análises foram realizadas no intuito de verificar a qualidade das estimativas obtidas por cada método via o algoritmo EM, são elas: 1. Análise dos valores obtidos para as estimativas dos parâmetros nas 500 repetições. 2. Análise da distância relativa em função da log-verossimilhança verdadeira. 3. Análise do número de iterações do algoritmo EM.  As simulações foram realizadas no software R Console.

RESULTADOS:

Foram considerados nesse estudo três métodos de inicialização que denominamos Método dos Valores Verdadeiros (MVV), Método dos Valores Iniciais Aleatórios (MVA), Método dos Momentos (MM). Em uma análise geral das estimativas obtidas para os parâmetros do modelo, verificou-se a necessidade de serem empregadas grandes amostras para a obtenção de boas estimativas, pois nas amostras pequenas as estimativas do parâmetro de assimetria apresentaram valores discrepantes, mesmo no método MVV que usa como valores iniciais os mesmos valores dos parâmetros usados na geração da amostra e que por isso serviu de comparação com os outros métodos. Nas amostras maiores, a partir de 500, os métodos MVV e MM apresentaram estimativas muito próximas dos parâmetros originais. Em relação à distância relativa média das estimativas, o MM apresentou resultados melhores que o MVA com distância relativa média muito próxima à do MVV e o número de iterações com o aumento da amostra tende a diminuir. Analisando a dispersão dos dados através do coeficiente de variação, verificamos que os métodos MVV e MM apresentaram dispersão equivalente sendo mais estáveis que o MVA em todas as amostras. Em uma modelagem com dados reais o MM mostrou ser bastante eficiente ficando bem ajustado aos dados analisados.

CONCLUSÃO:
Este trabalho teve como objetivo analisar a estimação da densidade da mistura de normais assimétricas através de um estudo de simulação, onde foram propostos alguns métodos de geração de valores iniciais para os parâmetros do modelo estudado necessários à inicialização do algoritmo EM. Visto que é de suma importância a escolha desses valores iniciais, pois eles influenciam na velocidade de convergência do algoritmo bem como na sua capacidade de localizar o máximo global. Observou-se que o tamanho da amostra influencia na qualidade das estimativas, indicando a necessidade de grandes amostras para a obtenção de boas estimativas. Entre os métodos analisados ficou evidente que o método de inicialização MM foi bastante eficiente, pois gerou valores iniciais de forma a permitir ao algoritmo EM fornecer estimativas muito próximas dos verdadeiros valores dos parâmetros. Na modelagem com dados reais, em uma análise visual dos gráficos gerados, observou-se que o MM forneceu boas estimativas para a densidade da mistura, proporcionando um bom ajuste da curva da densidade ao conjunto de dados. Outro aspecto verificado foi que, quando as componentes da mistura são muito próximas os resultados não são satisfatórios, para a obtenção de boas estimativas é preferível que as componentes estejam bem ou moderadamente separadas.
Palavras-chave: Misturas Finitas de Normais Assimétricas , Inicialização do Algoritmo EM, Simulação computacional.