61ª Reunião Anual da SBPC
A. Ciências Exatas e da Terra - 5. Matemática - 5. Probabilidade e Estatística
AVALIAÇÃO DE CRITÉRIOS DE INFORMAÇÃO PARA SELEÇÃO DO NÚMERO DE COMPONENTES EM MODELOS DE MISTURA FINITA DE DENSIDADES
José Mir Justino da Costa 1
José Raimundo Gomes Pereira 1
1. Universidade Federal do Amazonas
INTRODUÇÃO:
Em situações reais a suposição de normalidade nem sempre é satisfeita, isto induz o uso de modelos mais flexíveis, como o modelo normal assimétrico Azzalini (1985) para o caso univariado e Azzalini e Dalla Vale (1996) para o caso multivariado. No caso em que precisamos analisar dados que são heterogêneos e/ou apresentam multimodalidade e são provenientes de g populações distintas mas não sabemos discriminá-las, fazemos essa modelagem através de misturas finitas de distribuições. Embora McLachlan e Peel (2000) afirme qualquer distribuição pode ser aproximada por uma mistura de densidades normais é necessário checar as suposições distribucionais das componentes de mistura, pois além da heterogeneidade, os dados podem apresentar comportamento assimétrico. Lin et1al(2007) estendem essa modelagem usando mistura de distribuições normais assimétricas univariadas. Espera-se que esta modelagem apresente resultados superiores aos que usam misturas finitas de normais, por utilizar menor quantidade de componentes. A relevância deste trabalho está em avaliar o desempenho do Critério de Informação de Akaike, do Critério de Informação Bayesiano e do Critério de Determinação Eficiente(EDC) para seleção do número de componentes necessárias em misturas finitas de densidades normais assimétricas.
METODOLOGIA:
A metodologia utilizada neste trabalho se deu através de um estudo de simulação realizado no ambiente de programação R em sua versão 2.7.0, onde simulamos amostras de tamanhos 200, 300, 500 e 1000 sendo proveniente de uma mistura de três componentes normais assimétrica e com parâmetros fixados. A estimação dos parâmetros foi feita pelo método da máxima verossimilhança via algoritmo EM. Para inicialização do algoritmo EM foi utilizado o método dos momentos e a divisão das amostras em g componentes ocorreu através do método k-means. Após submetermos estes dados ao algoritmo EM, obtivemos as estimativas de máxima verossimilhança com as quais calculamos os critérios AIC, BIC e EDC, registrando seus resultados. Após quinhentas repetições deste experimento obtivemos o percentual de quantas vezes cada critério sinalizou corretamente para o número de componentes com as quais geramos as amostras.
RESULTADOS:
O resultado deste estudo mostra que embora os critérios não devam ser utilizado como regra de decisão, podem dar bons indícios de quantas componentes se deve usar em modelagem de dados através de mistura finita de densidades normais assimétricas.O AIC apresentou resultado inferior ao BIC e EDC em todos os tamanhos de amostras analisados, embora a sua performance também vá melhorando a medida que tomamos amostras maiores.
CONCLUSÃO:
A partir deste estudo realizado verificamos que assintoticamente os três critérios tendem a avaliar corretamente o número de componentes necessárias à ser utilizada em modelagem que envolva mistura finita de densidades normais assimétricas. Como o EDC no termo de penalização é flexível, torna-se fundamental uma escolha apropriada da função “c_n” para evitar resultados insatisfatórios.
Instituição de Fomento: FAPEAM
Palavras-chave: Critérios de informação, misturas finitas de densidade, algoritmo EM.