63ª Reunião Anual da SBPC |
A. Ciências Exatas e da Terra - 2. Ciência da Computação - 17. Ciência da Computação |
INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA |
Mirela Teixeira Cazzolato 1 Marina Teresa Pires Vieira 2 |
1. Fac. de Ciências Exatas e da Natureza - UNIMEP 2. Profa. Dra./Orientadora - Fac. de Ciências Exatas e da Natureza - UNIMEP |
INTRODUÇÃO: |
Diariamente são gerados grandes volumes de dados nas grandes empresas. Analisar esses dados sem auxilio de ferramentas computacionais é cada vez mais inviável. A mineração de dados é uma maneira automatizada de auxiliar a exploração do conteúdo desses dados. Ela é a principal etapa do Processo de KDD (Knowledge Discovery in Databases) e tem sido utilizada como um mecanismo eficaz para lidar com esses dados, com o objetivo de transformá-los em conhecimentos úteis. A ferramenta Kira foi desenvolvida em um trabalho de mestrado da Universidade Metodista de Piracicaba, e tem como base um conjunto de guias para instruir o usuário a realizar o processo envolvido na mineração. Uma tarefa de mineração muito utilizada é a classificação, que é o processo de construção de um modelo (ou função) que descreve e distingue classes de dados ou conceitos. Para sua execução é utilizado o atributo classe, considerado o alvo da classificação. Uma forma de avaliar os resultados obtidos é a matriz de confusão, que informa a quantidade de acertos e erros cometidos pelo classificador. O resultado da classificação pode ser representado de várias formas, tais como regras de classificação SE-ENTÃO e árvores de decisão. Este trabalho objetivou incorporar o módulo de classificação na ferramenta Kira. |
METODOLOGIA: |
A metodologia adotada para a inclusão da tarefa de classificação na Kira tomou por base os passos que precisam ser realizados para executar a classificação. Para chegar aos resultados obtidos foram realizados estudos sobre o Processo de KDD e mineração de dados, focando na tarefa de classificação. Foram feitos, inicialmente, diversos experimentos utilizando diferentes algoritmos de classificação da ferramenta Weka, além do algoritmo DTree, de Christian Borgelt. Na segunda parte do projeto foi incorporado, na ferramenta Kira, o algoritmo DTree com base em um outro trabalho de mestrado da Universidade Metodista de Piracicaba, que implementou uma ferramenta para a tarefa de classificação, seguindo a mesma metodologia adotada na Kira. Por fim realizaram-se testes adotando diferentes conjuntos de dados e foram efetuados ajustes. Todo esse processo de incorporação da classificação foi realizado com o devido cuidado com o intuito de disponibilizar nas interfaces da ferramenta instruções que facilitassem a aprendizagem da classificação por parte do usuário. |
RESULTADOS: |
Foram desenvolvidas funcionalidades que dessem subsídios para a mineração de dados utilizando a tarefa de classificação. Na etapa de seleção dos dados a serem utilizados na mineração, foram incorporadas instruções que facilitassem a escolha das colunas das tabelas a serem mineradas e a escolha do atributo classe. Na visualização e análise dos resultados, também foram disponibilizadas instruções para ajudar a interpretar a matriz de confusão, as regras de classificação e a árvore de decisão geradas. Como formas de avaliação foram realizados testes com diferentes conjuntos de dados e experimentos com alunos. A partir disso, foi possível identificar e realizar uma série de refinamentos no módulo de classificação incorporado à ferramenta Kira, buscando a melhor forma de guiar o usuário na mineração de dados utilizando a classificação. |
CONCLUSÃO: |
O módulo de classificação incorporado à ferramenta Kira obteve uma boa aceitação por parte dos usuários, cumprindo com seu objetivo, que é de auxiliar a execução do processo envolvido na mineração de dados utilizando a tarefa de classificação. A forma com que as funcionalidades foram disponibilizadas contribuiu para a escolha dos dados a serem minerados, para a execução do algoritmo e para o entendimento dos resultados obtidos com a classificação (utilizando matriz de confusão, árvore de decisão e regras de classificação). Todos os objetivos propostos na pesquisa foram atingidos. |
Palavras-chave: Mineração de Dados, Classificação, Processo de KDD. |