60ª Reunião Anual da SBPC




B. Engenharias - 1. Engenharia - 8. Engenharia Elétrica

OTIMIZAÇÃO DA DIMENSÃO DE BANCO DE DADOS UTILIZANDO A TÉCNICA DE ANÁLISE DE COMPONENTES PRINCIPAIS (PCA)

Fábio Henrique Pinheiro Silva2
Lucas Martins Gonçalves Júnior2
Jéferson Meneguin Ortega2, 3

2. Universidade Federal de Mato Grosso do Sul / Departamento de Engenharia Elétrica
3. Prof. Dr. Departamento de Engenharia Elétrica - UFMS - Orientador


INTRODUÇÃO:
Em problemas, cujo objeto de trabalho é a obtenção de informações derivadas ou baseadas em um banco de dados, é justificável a aplicação de uma técnica de inteligência artificial denominada Redes Neurais Artificiais (RNA). Esta técnica tem como vantagens a derivação de um modelo, cujas suposições estão concentradas nas propriedades intrínsecas dos dados e na existência de um princípio físico ou correlação estatística que estabelece uma relação entre as variáveis de entrada e as de saída, processo este denominado aprendizado da RNA. Por vezes, a aplicação da técnica de RNA não apresenta resultados satisfatórios, devido à variância dos dados de entrada, que atrapalham a obtenção de um padrão pela RNA. Quando as variáveis de entrada apresentam tendências semelhantes, justifica-se um pré-tratamento dos dados de entrada, por meio de um processo de filtragem que, conseqüentemente, resulta numa diminuição do banco de dados. Tal técnica é denominada Análise de Componentes Principais (PCA). O objetivo do trabalho é apresentar tanto a metodologia de aplicação da PCA em um banco de dados como sua eficácia no processo de otimização. Este trabalho de iniciação científica está inserido dentro de um projeto de P&D desenvolvido pelo departamento de engenharia elétrica da UFMS.

METODOLOGIA:
Inicialmente, foi feita uma revisão bibliográfica para ampliar a compreensão teórica sobre a técnica PCA, averiguando as grandezas envolvidas para, em seguida, melhorar o suporte metodológico da análise e abordagem do problema. A aplicação desta técnica demanda a definição de uma matriz A, de ordem nxm, que seja responsável pelas informações originais de um banco de dados, entretanto, podem ocorrer erros no aprendizado da RNA. Uma maneira de solucionar tal problema é transformar um conjunto de dados originais, de modo que cada variável apresente média nula e variância igual a um (auto-escalonamento). Logo após, pode-se extrair, de uma matriz correlação, os autovetores (componentes principais) e autovalores, que relacionam a ordem de importância de cada componente principal. Assim, eliminam-se as componentes de menor importância e reduz a dimensão do problema. A seguir, realizou-se uma modelagem matemática, para avaliar a aplicabilidade da PCA no reconhecimento de padrões e compressão de dados. Este processo foi realizado através da implementação de um modelo computacional utilizando o software MATLAB® para estabelecer as relações de influência das variáveis de um banco de dados utilizado para avaliação das perdas elétricas do sistema Enersul.

RESULTADOS:
Este trabalho foi aplicado na avaliação de perdas utilizando dados coletados de históricos de energia consumida e perda total do sistema Enersul. Investigações preliminares demonstraram que o desempenho das RNAs utilizando os dados sem tratamento era muito pobre. O erro relativo de generalização obtido estava em torno de 50% com um desvio-padrão aproximado de 30%. O pobre desempenho das redes frente aos dados brutos é motivado pela existência de grande quantidade de redundância nos dados de entrada. Esta redundância traduz-se como uma espécie de ruído que dificulta o processo de aprendizagem das RNAs. Estes fatores motivaram a aplicação da técnica de PCA, a qual permitiu reduzir o erro relativo médio, no pior caso, para 3,6% com desvio-padrão de 2,8%. A eliminação da redundância dos dados através desta técnica de PCA reduz a dimensão do banco de dados necessário para a rede neural ser treinada. Pode-se notar que, com um número aproximado de 30% dos dados coletados, é possível obter em torno de 95% da informação contida nos dados originais. Todo o procedimento acima foi desenvolvido no software MATLAB® e testada com dados reais fornecidos pela concessionária. Todo o sistema foi validado nesta plataforma e está funcional.

CONCLUSÕES:
Com base nos resultados obtidos, a PCA mostrou-se como uma poderosa ferramenta estatística para detecção de padrões em banco de dados, como também, muito viável na redução de um conjunto de variáveis dependentes. Em outras palavras, por meio do método da covariância é possível mensurar o grau de relacionamento n-dimensional. Se a covariância apresentar valores negativos, positivo ou nulo, esta indicará que a relação entre as variáveis é, respectivamente, diretamente proporcional, inversamente proporcional ou nula. Desta maneira, os resultados demonstram o alto desempenho da aplicação da técnica de PCA no estudo de caso sobre a avaliação e determinação de perdas de energia, pois permite mapear as variáveis de entrada (condições de operação do sistema Enersul e o cenário de intercâmbio de energia entre os sistemas SE e S) e identificar o grau de interdependência do banco de dados. Este estudo fortalece a justificava de aplicação da PCA na pré-filtragem dos dados, e uma conseqüente redução da dimensão do problema, por meio de métodos estatísticos. Sua aplicação permitiu ainda aperfeiçoar a aprendizagem de uma RNA, extraindo as características de maior importância, diminuindo o tempo de aprendizagem e o custo computacional da RNA.

Instituição de fomento: CNPq - UFMS

Trabalho de Iniciação Científica

Palavras-chave:  Análise de Componentes Principais, Banco de Dados, Redes Neurais Artificiais

E-mail para contato: fabio_espelho@hotmail.com