IMPRIMIR VOLTAR
A. Ciências Exatas e da Terra - 2. Ciência da Computação - 6. Inteligência Artificial e Redes Neurais
UTILIZAÇÃO DE REDE NEURAL SOM PARA VISUALIZAÇÃO E ANÁLISE DE DADOS CENSITÁRIOS
Alan Yves Corbiniano Martins Leite 1
Leonardo Nogueira Matos 1
Marcos Aurélio Santos da Silva 2
(1. Universidade Federal de Sergipe - Depto. de Ciência da Computação e Estatística; 2. Embrapa Tabuleiros Costeiros)
INTRODUÇÃO:

Atualmente o volume de dados produzidos é muito grande, o que tornou complexa a análise dos mesmos. Para viabilizar a análise exploratória destes dados são utilizados métodos estatísticos (análise de fator, k-médias, análise de componentes principais) e métodos de áreas emergentes como Inteligência Artificial, Redes Neurais Artificiais (RNA) etc.

O foco deste trabalho é apresentar como uma RNA, mais especificamente os Mapas Auto-Organizáveis de Kohonen (Kohonen’s Self-Organizing Map ou simplesmente SOM),  auxiliam na análise exploratória de dados complexos, como dados censitários. E que a utilização da matriz de distância unificada (U-matriz) e dos Planos de Componentes para a visualização de dados pode ser útil para a descoberta de conhecimento sobre um conjunto de dados.

Este trabalho teve como base de dados o censo agropecuário de 1995/1996 feito pelo IBGE nos municípios de Sergipe.

METODOLOGIA:

O SOM é uma RNA competitiva, com uma camada de entrada e outra de saída, onde cada neurônio da camada de saída é associado a um vetor da camada de entrada.

A principal aplicação da U-matriz é a visualização do mapa para separação manual dos agrupamentos. Os Planos de Componentes possibilitam visualizar as correlações entre os atributos de entrada do mapa. Para cada atributo é gerado um Plano de Componente, que é uma representação gráfica (codificação de cores) dos valores de cada variável no vetor de pesos.  Neurônios com cores similares representam características (índices) similares. Foi utilizada uma escala de cores do azul para o vermelho, onde quanto mais escuro o tom de azul significa índices mais baixos e quanto mais escuro o tom de vermelho  significa índices mais altos.

Os dados referentes aos municípios de Sergipe foram selecionados e padronizados gerando as entradas utilizadas nos SOM’s. Ao total foram 51 variáveis divididas em sete grupos. As variáveis foram analisadas por grupos, e também como um único conjunto para observar a existência não somente de correlações de variáveis de um mesmo grupo, mas também de grupos distintos.

Depois de iniciar e apresentar os dados às redes SOM, procedemos à fase de descoberta de conhecimento através da análise dos Planos de Componentes, visualizando a U-matriz e rotulando os neurônios com os nomes dos municípios, o que possibilitou identificar correlações entre os atributos de entrada.

RESULTADOS:

Foram usadas duas formas de representação visual para analisar os resultados, uma foi a U-matriz e a outra os Planos de Componentes.

Através da U-matriz foi possível reconhecer grupos de municípios que apresentam características similares em relação aos atributos de entrada. Já a partir dos Planos de Componentes foi possível extrair conhecimento importante acerca dos dados censitários, revelados pela existência de correlação entre as diversas variáveis envolvidas, o que não seria possível fazer pela inspeção dos dados em estado bruto. O uso de Planos de Componentes facilita a realização de cruzamento de informação, ainda que de modo subjetivo, por um analista humano. Os mapas gerados não quantificam o grau de similaridade entre atributos mas apresentam visualmente  as relações existentes entre eles.

Assim foi possível identificar a existência de relações tais como, o índice de trabalho infantil e o de homens trabalhando, em relação à economia é interessante ressaltar que os municípios com maiores investimentos apresentam também maiores receitas e despesas, mas os municípios com altos índices de financiamentos não se relacionam com nenhuma delas, o atributo energia elétrica não parece se correlacionar fortemente com nenhum outro atributo de tecnologia (irrigação, maquinaria, assistência técnica etc), estes foram alguns resultados encontrados a partir dos Planos de Componentes.

CONCLUSÕES:

Os aspectos positivos na utilização de mapas auto-organizáveis para análises de dados complexos são a facilidade de interpretar os Planos de Componentes e a U-matriz e obter informações a partir deles, estes mapas apresentam qualitativamente os relacionamentos entre as variáveis fornecendo para um analisador humano, provavelmente leigo em computação, suporte para descoberta de conhecimento na base de dados; e que apesar do empirismo envolvido na geração de uma rede SOM, como dimensão da rede e número de épocas não há grandes variações de resultados para pequenas variações dos parâmetros livres.

Outro fator que deve ser ressaltado é a importância da interação da computação com outras áreas, geografia, economia, entre outras, otimizando suas tarefas e melhorando a qualidade dos resultados, e dessa forma contribuindo para a sociedade, sendo assim é fundamental difundir novas tecnologias. No caso deste trabalho mostra que RNA’s podem ser utilizadas para auxiliar na tomada de decisões da administração pública para políticas de desenvolvimento dos municípios e dos estados.

Por fim podemos afirmar que é satisfatória a utilização do SOM para análise de dados censitários pois oferece métodos para a visualização dos dados, U-matriz e Plano de Componentes, que facilitam a descoberta de conhecimento e também porque profissionais que não estejam totalmente familiarizados com o SOM podem, rapidamente, compreender a lógica e usar o SOM sem grandes esforços.

Instituição de fomento: Embrapa Tabuleiros Costeiros
Trabalho de Iniciação Científica  
Palavras-chave: Mapas Auto-Organizáveis de Kohonen; Análise de Dados Censitários; Visualização de Dados.
Anais da 58ª Reunião Anual da SBPC - Florianópolis, SC - Julho/2006