65ª Reunião Anual da SBPC
H. Artes, Letras e Lingüística - 4. Linguística - 6. Liguística
Digitalização dos dados do NURC: uma proposta metodológica
Ebson Wilkerson Rocha da Silva - Faculdade de Letras - UFAL
Miguel Oliveira, Jr. - Prof.Dr./Orientador - Faculdade de Letras - UFAL
INTRODUÇÃO:
O Projeto NURC teve seu início em 1969, com o propósito de documentar e estudar a norma falada culta de cinco capitais brasileiras. O material do Projeto NURC tem sido largamente utilizado para o estudo de diversas características da oralidade. É, pois, incontestável a importância desse material.
Estudos desenvolvidos a partir dos dados do NURC, geralmente, derivam de uma série de publicações feitas, com transcrições de material selecionado, pelos grupos de pesquisadores atuantes em cada uma das capitais em que o Projeto era desenvolvido. Os estudos feitos a partir dessas publicações baseiam-se, em sua grande maioria, exclusivamente nas transcrições aí presentes, por conta da dificuldade de acesso aos dados gravados. Todas as gravações feitas pelo Projeto NURC utilizaram, como meio, fitas magnéticas de rolo, o que dificultava o acesso às mesmas.
Outra dificuldade era – e continua sendo, em grande parte – a não disponibilização dos dados transcritos em formato digital. Entretanto, a tecnologia digital atingiu um nível eficaz e acessível para a preservação de coleções de áudio, que possam ser acessados por humanos e máquinas. Este trabalho propõe apresentar um protocolo de informatização de um dos corpora mais influentes na pesquisa linguística do Brasil: o corpus do Projeto NURC.
OBJETIVO DO TRABALHO:
O presente trabalho tem por objetivo central estudar meios que poderão ser utilizados para a preservação e a disponibilização mais efetiva de seus dados para a posteridade. A partir do objetivo central, esse trabalho também visa propor um protocolo adequado para a digitalização dos dados de áudio do Projeto.
MÉTODOS:
Um protocolo de informatização para digitalização dos dados de áudio do projeto NURC será apresentado neste trabalho através de testes e comparações entre aplicativos computacionais com o intuito de, mediante a consideração de prós e contras, propor aqueles que mais se adequam às características do corpus do Projeto NURC.
Para isso, serão observadas as recomendações propostas pelo Comitê Técnico da Associação Internacional de Arquivos de Som e Audiovisual (IASA) e pelo Open Archival Information System (OAIS), que é um modelo de referência, com padrão ISO (14721:2003), adotado pelos bancos digitais de dados linguísticos mais recentes, e os preceitos do Metadata Encoding and Transmission Standard (METS), também adotados por bancos de dados internacionais.
Também procederemos à análise de aplicativos que serão eventualmente utilizados no processo de informatização dos dados do Projeto NURC. Os aplicativos serão testados utilizando uma pequena seleção representativa de inquéritos do corpus compartilhado Projeto NURC/Recife. Como o objetivo do presente projeto não é informatizar dados do Projeto NURC, mas apenas propor uma metodologia para que isso seja feito, os dados aqui utilizados servirão unicamente para testar aplicativos e métodos de digitalização.
RESULTADOS E DISCUSSÃO:
O curso da história tem revelado inúmeros exemplos de obsolescência tecnológica. Nenhum dos sistemas desenvolvidos de gravação digital de áudio alcançou uma estabilidade comprovada no mercado. Com exceção do CD, o áudio de DVD e o MiniDisc, todos formatos específicos de áudio digital, tornaram-se obsoletos após um curto período, sem as máquinas necessárias para acessar os sons.
Portanto, em um ambiente cada vez mais digital, tem se se discutido como a salvaguardar o patrimônio audiovisual. O IASA fornece algumas orientações gerais para ajudar a atender a essas solicitações. Essas diretrizes se resumem em normas para (i) produção de cópias digitais a partir de originais analógicos para fins de conservação, (ii) a transferência de originais digitais para sistemas de armazenagem; e (iii) o registro de material original em formato digital.
Os processos de digitalização apresentam uma série de riscos. Esses riscos podem resultar em perda significativa de dados, valor e conteúdo do arquivo. Segundo o modelo de referência OAIS, algumas estratégias podem evitar a obsolescência tecnológica. Estas estratégias podem ser agrupadas em três classes fundamentais: emulação, migração e encapsulamento; e ainda, refrescamento que é considerado um pré-requisito para o sucesso da preservação.
CONCLUSÕES:
Formatos analógicos estão sendo eliminados como sistemas, até porque as operadoras e hardware não são mais fabricados, devido a isso, tem-se cada vez mais incentivado a disponibilização de dados linguísticos em formato digital, que possam ser acessados por humanos e máquinas. Cada vez mais organizações e pessoas dependem da informação digital que produzem.
Porém, a documentação em formatos digitais, embora possa ser copiada infinitas vezes sem perder qualidade, não pode ser consumida senão na presença de um contexto tecnológico, hardware e/ou software, que capacite o seu destinatário ou potencial interessado (não humano) de interpretá-la de forma inteligível.
A simples digitação de dados é apenas um primeiro passo para a criação de um corpus digital. A vantagem de se construir um corpus com essa característica é mesmo a de facilitar as análises linguísticas feitas a partir dele, automatizando certos aspectos da análise. Assim torna-se importante à implementação de técnicas e de políticas no sentido de garantir a perenidade e a acessibilidade a este tipo de informação. Este projeto, portanto, vai de encontro a essas recomendações, estudando e propondo métodos eficazes para garantir a preservação dos dados do Projeto NURC.
Palavras-chave: Projeto NURC, Preservação, Digitalização.