60ª Reunião Anual da SBPC

INTRODUÇÃO:

O sistema de correio eletrônico se tornou popular por ser um meio de comunicação rápido, barato e flexível. O surgimento de spam – mensagem não solicitada e indesejada que é enviada em massa por um remetente que não possui ligação com os destinatários – provocou incômodo a usuários e aumento de tráfego na Internet. Desde o início da proliferação do spam, usuários e provedores vêm empregando filtros para separar mensagens legítimas das indesejadas. Como a forma e o conteúdo do spam estão sempre mudando para burlar os filtros, a solução foi recorrer a métodos de Aprendizado de Máquina. Classificadores probabilísticos, como o naïve Bayes, são os mais utilizados na filtragem de spam, mas exibem desempenho inferior a outras abordagens, como, por exemplo, Support Vector Machines (SVM). Por outro lado, o classificador SVM têm se mostrado inviável a essa tarefa por causa de sua complexidade computacional. Essa pesquisa visa avaliar um esquema de filtragem de spam baseado no princípio Minimum Description Length (MDL). O bom desempenho da classificação por MDL e a sua rapidez inspiraram a criação do UnBeaten: um filtro com foco em usuários de correio eletrônico e integrado ao leitor de email Mozilla Thunderbird.

METODOLOGIA:

Primeiramente, foi realizada a revisão do estado da arte de filtros adaptativos de mensagens, incluindo técnicas como naïve Bayes multinomial (MNB), SVM, PPM e OSB. Foi detectado que as melhores técnicas – SVM e PPM – têm um elevado consumo de recursos computacionais. O esquema proposto, baseado no princípio MDL, aplica a idéia de compressão das mensagens com a ajuda de dois modelos, um de mensagens legítimas e outro de mensagens de spam. Os modelos são construídos a partir das palavras das mensagens já vistas, e uma nova mensagem é classificada na classe do modelo que melhor comprimi-la. Esse esquema, que pode ser estendido para trabalhar com mais de duas classes, foi implementado na linguagem Java 5 com o IDE IBM Eclipse 3.2. Logo depois, utilizou-se as bases de mensagens de email das conferências TREC 2005 e 2006 para a comparação do filtro MDL com os filtros SVM, PPM, MNB, OSB e Bogofilter, sendo o último um produto distribuído livremente. O principal método de avaliação foi a análise da área sobre a curva ROC (1-AUC) dos classificadores. Por último, o filtro desenvolvido em Java foi integrado ao Mozilla Thunderbird usando a linguagem JavaScript e o componente XMLHttpRequest.

RESULTADOS:

Os experimentos foram conduzidos com as bases públicas da TREC 2005 e 2006, cada uma contendo, respectivamente, 92189 e 37822 mensagens ordenadas temporalmente. Após a classificação de uma mensagem, a classe real a que ela pertence é informada ao filtro para que ele possa ser treinado. A definição de uma palavra é uma cadeia de caracteres que não contenha caracteres de espaço. Toda a mensagem foi utilizada, inclusive os cabeçalhos, mas cada palavra foi considerada somente uma vez em cada mensagem. O classificador MDL apresentou desempenho bem melhor que o Bogofilter e o MNB. Nas duas bases, o valor dos intervalos de confiança a 95% de (1-AUC) para os classificadores MDL, PPM e SVM se sobrepõem. A vantagem do esquema de classificação por MDL reside no fato dele não consumir tanto tempo de treinamento quanto SVM, e de não gastar tanta memória quanto PPM. Em relação a implementação do UnBeaten, esta foi feita com uma moderada dificuldade, dada a escassa documentação do Mozilla Thunderbird. Através da integração, o usuário do Thunderbird pode fazer o treinamento do filtro arrastando as mensagens para uma determinada pasta, que é previamente marcada para representar uma classe.

CONCLUSÕES:

O esquema de classificação proposto, baseado no princípio MDL, quando testada sobre os conjuntos de mensagens TREC 2005 e 2006, obteve resultados comparáveis aos classificadores no estado da arte na filtragem de spam, como SVM. Porém, a classificação por MDL tem a grande vantagem de ser bastante rápida, processando, em média 400 mensagens por segundo na base TREC 2005. O filtro adaptativo UnBeaten foi desenvolvido como uma extensão ao leitor de email Mozilla Thunderbird. O mecanismo de extensões do Thunderbird permitiu que a técnica de classificação, implementada em Java, fosse separada da interface com o usuário. Isso favorece trabalhos futuros que queiram modificar a técnica de classificação sem precisar modificar a interface. O UnBeaten também permite a criação de múltiplas classes, o que o torna uma interessante ferramenta organizadora de mensagens. Como trabalho futuro, seria interessante explorar técnicas de aprendizado ativo e semi-supervisionado para a filtragem de spam. Em uma outra frente, é necessário encontrar alternativas à extração de características usando palavras isoladas a fim de se modelar a interdependência das palavras dentro das mensagens de email.

Instituição de fomento: Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)

Trabalho de Iniciação Científica

Palavras-chave: Filtragem de Spam, Minimum Description Length, Mozilla Thunderbird

E-mail para contato: igorab@icmc.usp.br