IMPRIMIR VOLTAR
A. Ciências Exatas e da Terra - 2. Ciência da Computação - 6. Inteligência Artificial e Redes Neurais
REDES COMPLEXAS NO PROCESSAMENTO DE LÍNGUA NATURAL
Lucas Antiqueira 1
Maria das Graças Volpe Nunes 1
Osvaldo Novais de Oliveira Jr. 2
Luciano da Fontoura Costa 2
(1. Instituto de Ciências Matemáticas e de Computação / ICMC-USP; 2. Instituto de Física de São Carlos / IFSC-USP)
INTRODUÇÃO:
Este trabalho visa investigar um método automático de avaliação da qualidade textual, utilizando para tanto um modelo de rede complexa para textos. O conceito de qualidade textual é subjetivo, e carece de uma definição amplamente aceita. Vários critérios, como gramaticalidade, coesão e coerência, podem ser tomados como referência para a qualidade de textos. Contudo, é bastante difícil avaliar automaticamente alguns desses critérios devido, em alguns casos, à subjetividade e à necessidade de considerar o nível de representação semântica no processamento lingüístico. O objetivo deste trabalho é mensurar a qualidade textual sem analisar diretamente as diversas características que compõem os preceitos da boa escrita, e sim por meio da identificação de padrões em medidas estatísticas extraídas de um conjunto de textos representados como redes complexas. A área de redes complexas pode ser vista como fruto da interseção entre a teoria dos grafos e a mecânica estatística. É um campo de estudo em grande desenvolvimento, direcionado ao entendimento e à previsão do comportamento de sistemas modelados como grafos, mas que ainda foi pouco estudado em lingüística computacional. Três conceitos merecem destaque nas pesquisas em redes complexas, são eles: o efeito pequeno-mundo, a clusterização e as redes livres de escala. Os chamados hubs fazem parte das redes livres de escala, que são poucos nós altamente conectados que coexistem com um grande número de nós com um número bem menor de conexões. Exemplos de redes complexas são as redes sociais, a internet, o sistema de transporte aeroviário e as redes elétricas.
METODOLOGIA:
O modelo de rede complexa aqui utilizado codifica a co-ocorrência das palavras em um texto. Cada palavra distinta é representada por um nó na rede, e cada par de palavras (p1,p2) que aparecem em seqüência no texto define uma aresta direcionada que liga o nó p1 ao nó p2. Cada aresta tem um peso associado, o qual indica o número de vezes que a respectiva associação de palavras ocorre no texto. Procura-se por meio da representação por redes complexas codificar os relacionamentos entre os conceitos de um texto. Para tanto, as palavras funcionais (stopwords) são removidas dos textos, por carregarem pouco significado, e as palavras restantes são lematizadas, a fim de agrupar em um único nó as diversas flexões de uma dada palavra. Nesta pesquisa, realizou-se um experimento com textos divididos em dois grupos, de boa e de má qualidade, sendo que cada texto foi modelado como uma rede complexa de acordo com o modelo citado acima. O primeiro grupo de textos (chamados aqui de "bons") é formado por 10 textos do gênero informativo, produzidos por universitários experientes. O outro grupo de textos (chamados de "ruins") é composto por 10 redações pré-selecionadas por estarem entre as piores em um conjunto de redações do vestibular da Fuvest. Essa divisão em duas categorias foi atestada por notas de 0 a 10, para o critério “qualidade”, dadas a cada texto por 6 juízes humanos, estudantes de curso de Letras. Não foi fornecida qualquer definição de qualidade aos juízes, pois o que se pretendia era captar uma possível noção comum de qualidade intrínseca a eles, e que porventura poderia ser refletida nas notas. Utilizando o teste t-student, foi possível provar que as médias das notas entre os dois grupos de textos são diferentes, com um nível de confiança igual a 0,95. As médias amostrais obtidas para as notas são iguais a 8,35 para o grupo de textos “bons” e a 5,62 para o grupo de textos “ruins”. Embora não seja possível provar que a noção de qualidade seja intrínseca aos juízes, esse teste já possibilitou que assegurássemos uma diferença de qualidade entre os dois grupos de textos e que, deste modo, fizéssemos algumas correlações entre essas notas e as medidas extraídas das redes complexas. Foram extraídos das redes os seguintes parâmetros: (i) grau de entrada médio, (ii) grau de saída médio, (iii) caminho mínimo médio, (iv) coeficiente de aglomeração e (v) desvio na dinâmica do número de componentes. O grau de entrada, o grau de saída e o caminho mínimo são conceitos familiares na teoria dos grafos. Calcula-se aqui os graus de cada nó, e tira-se a média para obter uma única medida de grau para cada rede (texto). São também obtidos os caminhos mínimos para todos os pares de nós da rede, para então calcular o caminho mínimo médio da rede toda. O coeficiente de aglomeração é conhecido nos estudos em redes complexas, e quantifica o nível de agrupamento dos nós da rede. Por fim, o desvio na dinâmica do número de componentes é uma métrica diferente das anteriores, pois é obtida ao longo da construção de uma rede. Conforme as associações de palavras vão sendo lidas e inseridas na rede, o número total de componentes fracamente conexos é calculado, dando uma medida dinâmica que é função da evolução da rede. A métrica extraída dessa função (chamada de desvio) é dada pelo quanto a curva que dá a variação real do número de componentes se afasta de uma linha reta imaginária que supõe uma variação uniforme dos componentes.
RESULTADOS:
Os resultados da análise das notas dadas pelos juízes e dos parâmetros extraídos das redes indicam leves correlações lineares entre a qualidade textual e as medidas grau de entrada/saída médio, coeficiente de aglomeração e média dos caminhos mínimos. A qualidade tende a cair na medida em que os valores do grau médio e do coeficiente de aglomeração aumentam, e tende a aumentar proporcionalmente ao tamanho do caminho mínimo médio. Já a dinâmica do número de componentes apresentou uma correlação mais forte com as notas, sugerindo que possa até ser utilizada para distinguir textos bons de ruins. Do total de 20 textos, 17 seguiram a seguinte regra: as menores notas foram dadas aos textos com grande desvio na dinâmica do número de componentes, e as maiores notas para os com pequeno desvio.
CONCLUSÕES:
Embora esse experimento se baseie em um conjunto particular e pequeno de textos, o modelo de rede utilizado é independente de língua e simplifica o trabalho de análise automática de textos, mostrando-se uma alternativa promissora aos métodos lingüisticamente motivados.
Instituição de fomento: FAPESP,CNPq
Trabalho de Iniciação Científica  
Palavras-chave: Análise textual; Redes Complexas; Teoria dos Grafos.
Anais da 58ª Reunião Anual da SBPC - Florianópolis, SC - Julho/2006