63ª Reunião Anual da SBPC
H. Artes, Letras e Lingüística - 4. Linguística - 6. Liguística
A ORTOGRAFIA NAS CARTAS DE ALFORRIA: ANÁLISE DE DESEMPENHO DE FERRAMENTA DE ETIQUETAGEM MORFOLÓGICA AUTOMÁTICA APLICADA A DOCUMENTOS DO CORPUS DOVIC
Fabio Gomes Novais 1
Jorge Viana Santos 2
Cristiane Namiuti- Temponi 3
1. Dpto. de Estudos Linguísticos e Literarios - UESB
2. Prof. Dr./Orientador – Departamento de Estudos Lingüísticos e Literários - UESB
3. Profa. Dra./co-orientadora – Departamento de Estudos Lingüísticos e Literários-UESB
INTRODUÇÃO:
Existe uma grande massa de textos antigos impressos ou não a serem editados, ou seja, transformados em textos legíveis e computacionalmente manipuláveis, a fim de constituírem corpora que possibilite a pesquisa científica.
Tendo como suporte teórico-metodológico de projetos como, o de Galves (2003), e o de Sousa (2009), desenvolve-se na UESB, coordenado por Santos e Namiuti (2009), o projeto DOViC, que visa contribuir com os estudos sobre a história gramatical do português brasileiro alimentando um banco de dados com informações textuais de um período importante desta língua – século XIX – ao mesmo tempo em que preserva a memória de uma cidade baiana. sua proposta consiste em investir na criação de um banco de dados com referência e tipologia de manuscritos, que resultará em um corpus digital.
Dentro desse projeto maior, propôs-se avaliar o desempenho do programa computacional E-Dictor quando aplicado a edição de textos originalmente manuscritos como os que integram o corpus DOViC. O presente subprojeto tem como objetivo geral contribuir na construção deste corpus, investigando os aspectos de sua ortografia; e como objetivo específico, analisar índices de erro e acerto do tagger do programa E-Dictor quando aplicado em etiquetagem morfológica de textos manuscritos editados.
METODOLOGIA:
Para a presente pesquisa foi montado um corpus de dez cartas de alforria extraído do corpus DOViC. Num primeiro momento, após a seleção, fez-se a leitura e decifração dos manuscritos, resultando em textos transcritos paleograficamente. Em seguida, tais textos foram submetidos ao módulo de edição do E-Dictor. Entre as edições aplicadas podem-se citar as seguintes: modernização (atualização da palavra aos atuais padrões), junção (união de partes grafadas separadamente), segmentação (separação de palavras escritas juntas), grafia (implementação de pequenas correções gráficas).
Em um segundo momento, visando comparar o funcionamento do etiquetador morfológico quando aplicados em textos com e sem edição, procedemos do seguinte modo: a) primeiramente submetemos ao etiquetador o conjunto de textos com as edições supracitadas; b) em seguida, submetemos ao etiquetador o mesmo conjunto de textos sem edições.
E, num terceiro momento, com os dados obtidos foi possível elaborar tabelas e gráficos, no intuito de fazer um levantamento do índice de erro e acerto.
RESULTADOS:
Após esse procedimento, foram encontrados os seguintes resultados: na amostra sem edição verificou-se um total de 51% de acerto e 49% de erro, por outro lado, na amostra com edição registrou-se um total de 91% de acerto e 9% de erro.
Quanto aos índices de erro e acerto do etiquetador em cada edição aplicada, comparando com a amostra que não foi editada, constataram-se os seguintes: na edição grafia, encontrou-se 88% de acerto e 12% de erro na amostra com edição e 58% de acerto e 42% de erro na amostra sem edição; quando se aplicou a edição junção, constatou-se 100% de acerto e 0% de erro na amostra com edição, por outro lado, 100% de erro e 0% de acerto na amostra sem edição; na edição modernização, registrou-se 95% de acerto e 5% de erro na amostra com edição, porém 53% de acerto e 47% de erro na amostra sem edição; na edição segmentação, registrou-se 100% de acerto e 0% de erro, na amostra com edição, no entanto 0% de acerto e 100% de erro na amostra sem edição; por fim, quando foi aplicada uma dupla edição (junção e modernização), tanto a amostra com edição como a amostra sem edição, registrou-se um percentual de 100% de erro e 0% de acerto.
CONCLUSÃO:
Após esse procedimento metodológico de análise, e considerando o resultados discutidos acima, pode-se detectar, ainda preliminarmente, em quais circunstancias o tagger do programa E-Dictor, quando aplicado em etiquetagem morfológica de textos manuscritos editados, como é o caso dos documentos do corpus DOViC, apresenta maior dificuldade em acertar a classificação morfológica, e em quais edições ele apresentou maior percentual de erro acerto.
Deste modo, essa pesquisa, ainda que inicial, pode – desde já e com futuros desenvolvimentos - contribuir duplamente. De um lado, traz resultados que podem ser usados no aperfeiçoamento da ferramenta digital apresentada. E de outro, podem contribuir na eficácia dos procedimentos de análise eletrônica do corpus DOViC, a exemplo dos que envolvem aspectos de sua ortografia.
Palavras-chave: cartas de alforria, etiquetador, morfologia.