63ª Reunião Anual da SBPC
A. Ciências Exatas e da Terra - 2. Ciência da Computação - 2. Banco de Dados
Aplicação de técnicas de Mineração de Dados para planejamento agrícola no estado de São Paulo
Miriam Takamoto 1
Maria das Graças Junqueira Machado Tomazela 1
1. Faculdade de Tecnologia de Indaiatuba
INTRODUÇÃO:
As técnicas de Mineração de Dados foram introduzidas como uma forma de solução para a análise e interpretação de bancos de dados, possibilitando assim, uma tomada de decisão eficiente, ou proporcionando um conhecimento novo. O objetivo deste trabalho é apresentar, utilizando técnicas de Mineração de Dados, um sistema de recomendação agrícola que viabilize informações sobre o produto agrícola que é mais vantajoso para se cultivar em determinada região, se é viável uma financiadora efetuar empréstimo a um produtor que deseja iniciar a produção de determinado produto, entre outras.
O presente trabalho se justifica pela importância das técnicas de Mineração de Dados na análise de enormes bases de dados, visto que, com a Tecnologia da Informação o armazenamento de dados tende a aumentar cada vez mais, o que torna imprescindível a utilização de metodologias, técnicas e ferramentas para a extração de conhecimento destas bases. O Banco de Dados escolhido justifica-se por ser a agricultura uma importante atividade no Brasil , segundo a Brasscom, Associação Brasileira de Empresas de Tecnologia de Informação e Comunicação, o PIB agrícola brasileiro em 2007 foi de US$ 611,8 bilhões de dólares que corresponde a 23,07% do PIB nacional. Dessa maneira, utilizar a mineração de dados para gerar informações que auxiliem no planejamento agrícola pode trazer grandes benefícios.
METODOLOGIA:
A primeira etapa deste trabalho constituiu-se por um levantamento de bibliografia relevante, no qual foram utilizados principalmente os conceitos de Goldschmidt e Passos (2005),, Amo (2004), Han e Kamber (2005), Côrtes (2002), Ochi (2004) e Navega (2002).A segunda etapa do trabalho foi o levantamento dos requisitos necessários para efetuamos o processo de Mineração de Dados. Os dados escolhidos são referentes à produção agrícola permanente do Estado de São Paulo, extraídos do site do Instituto Brasileiro de Geografia e Estatística – IBGE.Além disso, definimos a ferramenta WEKA para executar o processo de Mineração de Dados.
Antes da realização da Mineração de Dados propriamente dita, foi necessária a utilização de técnicas de preparação de dados de forma que fosse possível obter resultados efetivos para o processo de extração do conhecimento. Na execução dos processos de Mineração de Dados foram testadas as tarefas de Clusterização< e Classificação, para verificar quais procedimentos apresentariam resultado mais satisfatório.
A última etapa foi a análise dos resultados obtidos com a Mineração de Dados, na qual utilizamos recursos do Microsoft Office Excel para manipular os dados e criar gráficos que auxiliassem na interpretação dos resultados. Já para comprovar a veracidade dos resultados obtidos, utilizamos o recurso de zoneamento agroclimático.
RESULTADOS:
Utilizamos o algoritmo de clusterização EM que apresentou melhor precisão. Utilizamos técnicas de seleção de atributos, porém verificamos que o modelo apresentava maior acurácia sem a técnica de seleção de atributos. Em nossa base de dados temos 63 microrregiões, cada uma delas produz um ou vários produtos e um mesmo produto pode ser produzido por uma ou várias microrregiões, como o objetivo deste trabalho é auxiliar no planejamento agrícola por meio de técnicas de mineração de dados, decidimos que seria importante comparar a produtividade de uma microrregião para determinado produto com a produtividade média deste produto. A seguir alguns resultados relevantes: O produto borracha (látex coagulado e látex líquido) está predominantemente no cluster 1. Aproximadamente 77% das microrregiões que produzem látex coagulado e 76% dos produtores de látex liquido foram agrupados no cluster 1, e destes 65% e 56%, respectivamente, possuem produtividade acima da média.
Das microrregiões produtoras do café arábica, 96% foram agrupadas no cluster 8 e as duas microrregiões que ficaram fora deste agrupamento apresentam baixa produtividade, pois, de acordo com o mapa de zoneamento agroclimático do café, elas estão dentro da área considerada desfavorável para o cultivo desse produto. Percebemos que mais da metade do cluster 5 é composto por citros, além disso 74% das microrregiões produtoras de laranja e 94% das microrregiões produtoras de tangerina foram agrupadas neste cluster.
CONCLUSÃO:
Neste trabalho aplicamos técnicas de Mineração de Dados à base de dados da produção agrícola permanente do estado de São Paulo, com o objetivo de apresentar um sistema de recomendação para produtores agrícolas. Utilizamos técnicas de seleção de atributos e as tarefas de clusterização e classificação para a obtenção do objetivo proposto.
Ao realizamos a análise dos resultados obtidos, verificamos que o algoritmo de clusterização agrupou os dados por produto e, com o auxílio de gráficos, tabelas e mapas de zoneamento agroclimático, constatamos que é possível, a partir das informações geradas, dar suporte a um produtor que deseja saber se é viável produzir determinado produto, ou a uma financiadora que necessita saber se é viável efetuar empréstimo a um produtor que deseja iniciar uma produção agrícola, tarefa essa que seria muito difícil de conseguir se tivéssemos que analisar a base de dados inteira, portanto, atingimos o objetivo deste trabalho que visava a gerar recursos para auxiliar no planejamento agrícola.
Palavras-chave: mineração de dados, produção agrícola, investigação científica.