62ª Reunião Anual da SBPC
A. Ciências Exatas e da Terra - 2. Ciência da Computação - 17. Ciência da Computação
ATRUBUIÇÃO DE AUTORIA DE TEXTOS LITERÁRIOS UTILIZANDO PPM E SVM
Berg Élisson Sampaio Cavalcante 1
Francisco Dantas Nobre Neto 1
Leonardo Vidal Batista 1
Glauco de Sousa e Silva 1
Ana Paula Nunes Guimarães 1
Elenilson Vieira da Silva Filho 1
1. Departamento de Informática, Universidade Federal da Paraíba - UFPB
INTRODUÇÃO:
Atribuição de autoria é um problema de categorizar um documento desconhecido dentre classes de autores previamente conhecidas. Esta é uma questão que está relacionada com a área de reconhecimento de padrões, em que os objetos a serem categorizados são textos e as classes são autores. O desenvolvimento de métodos computacionais para categorização de textos pode auxiliar na detecção de plágio, na determinação de autoria de mensagens anônimas, na resolução de ações judiciais envolvendo autoria de textos questionados e na solução de questões históricas a respeito de importantes obras de autoria ainda desconhecida ou duvidosa. Os métodos utilizados neste trabalho para lidar com atribuição automática de autoria foram o Support Vector Machine (SVM) e o compressor de dados Prediction by Partial Matching (PPM). O método SVM tem sido largamente utilizado na literatura para lidar com questões de identificar autoria automaticamente e tem obtido resultados que o destacam nesta questão. Neste trabalho, a ferramenta WEKA (Waikato Environment for Knowledge Analysis) foi utilizada para auxiliar a realização dos testes com o SVM. Já o PPM, embora não seja um método convencional em problemas de classificação, tem apresentado também resultados comparáveis ao da literatura.
METODOLOGIA:
Neste trabalho foram selecionadas 12 classes de autores e quatro textos por classe para compor a base de dados. As classes de autores foram: Adolfo Caminha, Alcântara Machado, Aluisio de Azevedo, Bernardo Guimarães, Euclides da Cunha, Joaquim Manuel de Macedo, José de Alencar (Histórico), José de Alencar (Urbano), Lima Barreto, Machado de Assis (Realismo), Machado de Assis (Romance) e Visconde de Taunay. Após a seleção das obras literárias, houve pré-processamento nos textos com a finalidade de uniformização. Foram excluídas quebras de linha, números e citações que iniciavam os capítulos dos livros. Para realizar classificação utilizando o SVM, foram extraídos 19 atributos numéricos dos textos a serem classificados, de acordo com literatura especializada. Para normalizar os atributos, os textos foram divididos em blocos com 1000 palavras e processados à geração dos valores dos atributos. Caso o último bloco não obtivesse as 1000 palavras, ele seria descartado. Já com o PPM, não existe a etapa de extração de atributos, uma vez que não é necessário selecionar características dos textos para posterior classificação. Em ambos os métodos, os testes foram realizados utilizando validação cruzada e em cada rodada são classificados textos que não participaram da etapa de aprendizagem.
RESULTADOS:
Como a base de dados foi composta por 48 textos, quatro para cada uma das 12 classes de autores, teve-se um total de 48 classificações e gerou-se uma matriz de confusão. De acordo com a literatura, não há um conjunto ideal de atributos que obtenha um resultado ótimo na etapa de classificação e, para isso, testes devem ser realizados em busca de tais atributos. Com a utilização do método SVM, obteve-se uma taxa de acerto máxima de aproximadamente 60,42%, classificando corretamente 29 obras. Os atributos utilizados pelo SVM para obtenção de tal resultado foram: tamanho médio das palavras, quantidade de palavras que ocorre uma vez no bloco (HL) dividido pelo tamanho do bloco (TB), HL dividido pela quantidade de palavras distintas do bloco (PDB), quantidade de palavras que ocorre duas vezes no bloco (HD) dividido pelo TB, HD dividido por PDB, entropia de palavras, entropia de bigramas, entropia de trigramas e entropia de quadrigramas. Já com o PPM, o índice de acerto máximo foi de 77%. Analisando o resultado obtido com o SVM, nenhum autor teve todas as suas obras classificadas corretamente. Já com o PPM, os autores Alcântara Machado, José Alencar (Urbano), Euclides da Cunha, Lima Barreto e Machado de Assis (Realista) tiveram todos os seus livros identificados corretamente.
CONCLUSÃO:
O processo de atribuição de autoria não é simples. Autores apresentam variações de estilos que os levam a serem confundidos com outros escritores. A seleção cuidadosa de atributos é uma etapa fundamental para o desempenho do classificador. Comparando os resultados obtidos pelos dois métodos, percebe-se que o algoritmo PPM é eficiente para problemas de classificação, apresentando resultados compatíveis ao da literatura. O PPM classificou oito textos corretos a mais que o SVM. Sendo assim, diminuiu a quantidade de textos classificados incorretamente de 19 para 11, o que representa uma redução da taxa de erro em aproximadamente 42%. Para buscar uma maior taxa de acerto com o SVM, devem ser investigados outros atributos que podem ser extraídos dos textos. Os atributos extraídos neste trabalho não significam que devem ser descartados, mas que, neste contexto, eles não foram os mais adequados. Já com o PPM, possíveis formas de aumentar o índice de classificação correta é padronizar o tamanho dos textos e adicionar outros pré-processamentos nos textos. A vantagem das técnicas de extração de atributos é que os atributos extraídos podem lançar luz sobre o que caracteriza o estilo literário dos escritores, o que pode ser valioso para o profissional de Letras.
Instituição de Fomento: Sesu - Programa de Educação Tutorial - PET
Palavras-chave: Classificação, Atribuição de Autoria, PPM e SVM.