61ª Reunião Anual da SBPC
F. Ciências Sociais Aplicadas - 11. Documentação e Informação Científica - 1. Documentação e Informação Científica
DIGITALIZAÇÃO DE DISSERTAÇÕES E MONOGRAFIAS PARA O PROJETO PILOTO - BDG/CIC
Isadora Freire 1
1. Universidade de Brasília/Departamento de Ciência da Informação e Documentação
INTRODUÇÃO:

O Departamento de Ciência da Computação (CIC) implantou em agosto de 2006 o Projeto Piloto da Biblioteca Digital de Graduação (BDG) juntamente com a Biblioteca Central da Universidade de Brasília, com o objetivo de disponibilizar as monografias e dissertações dos discentes em acesso aberto para pesquisa e desenvolvimento acadêmico. Diante desta situação surgiu a necessidade de digitalizar os documentos disponibilizados na Sala de Pesquisa do CIC utilizando a ferramenta ABBYY Fine Reader, na versão 8.0. O objetivo do PIC é complementar o acervo digital da BDG e garantir o acesso à literatura cinzenta (monografias e dissertações) do Departamento de Ciência da Computação. Este trabalho foi coordenado no âmbito do Departamento de Ciência da Informação da Universidade de Brasília, (CID/UnB).

METODOLOGIA:

Procurou-se seguir os “Requisitos para a geração de versões digitais de documentos” conforme o Manual de Digitalização de Acervos aplicado em experiência semelhante na Universidade Federal da Bahia (2005, p.31). Entre as instruções básicas para o início do projeto, destacam-se as atividades relacionadas a um diagnóstico geral do acervo. Para Silva (2005) é importante conciliar os aspectos desse diagnóstico com o programa utilizado na tarefa, considerando os seguintes requisitos estratégicos:

Defina antecipadamente o que se quer digitalizar;

Certifique-se de que não exista versão digital dos documentos;

Certifique-se de que os direitos de distribuição eletrônica estejam assegurados;

Estabeleça antecipadamente as restrições de usos que devem ser consideradas (pessoas e condições para o acesso e a segurança);

Decida se as encadernações dos livros serão desmontadas para a captura (aumenta a produtividade e diminui custos);

Para materiais administrativos, verifique e teste a possibilidade de utilização de scanner com alimentador automático de folhas;

Defina se a conversão de documentos textuais resultará em imagens de páginas, texto navegável, ou em ambos;

Determine se serão adotados procedimentos de reconhecimento ótico de caracteres (OCR, sua precisão, se haverá correções, revisões) ou se haverá digitação dos documentos textuais impressos por máquina.

Como parte das atividades de aprendizagem e capacitação em “digitalização de documentos”, foi realizado no Departamento de Ciência da Informação e Documentação, o treinamento sobre técnicas para utilização do scanner e adequação aos formatos dos documentos. Inicialmente foi usado o acervo da Revista de Biblioteconomia de Brasília, pesquisa já iniciada no Laboratório de Editoração do CID, e que serviu de modelo para o trabalho de digitalização do acervo do CIC, com algumas adaptações. Nessa experiência anterior o objetivo era recuperar o acervo impresso da RBB, editada pelo Departamento de Ciência da Informação e Documentação desde 1972, e que teve as edições suspensas em 2001.

Para a digitalização da RBB, definiu-se que as revistas teriam a encadernação desmontada, possibilitando que as páginas fossem scanneadas com alimentador automático de folhas, agilizando o processo, uma vez que a impressão das páginas de cada trabalho reunia informações em frente e verso de cada folha.

Após digitalizadas as páginas da RBB, definiu-se que os documentos seriam convertidos em texto navegável e as imagens (gráficos, quadros e tabelas) seriam mantidos como imagens da página originalmente digitalizadas.

Com a aplicação do reconhecimento ótico dos caracteres (OCR), foi necessário revisar o texto para corrigir alguns erros de identificação nos caracteres ocasionados pela dificuldade na leitura das páginas mais antigas, já amareladas pelo estado de conservação das revistas. Conforme descrito por Raabe e Pohlmann Filho (1998a, p. 309), esses erros também estão “ligados a ineficiência do software de OCR para tratamento de características, como fórmulas matemáticas, figuras, trechos manuscritos, letras muito pequenas ou borradas”.

Softwares ainda precisam ser desenvolvidos para melhor realização do tratamento ótico, como sugerido por Reeabe e Pohlmann Filho (1998a, p. 309),

a utilização de outros softwares que possuem recursos mais adequados à recuperação e acesso a este acervo, permitindo a utilização de técnicas avançadas de pesquisa com a utilização de linguagem natural, utilização de parâmetros fonéticos e técnicas de inteligência artificial.

Após estas correções, o arquivo da RBB foi salvo no formato PDF e disponibilizado no portal do Departamento de Ciência da Informação e Documentação para acesso dos discentes, e pesquisadores interessados. Ao final do treinamento, iniciou-se o projeto demandado pelo CIC, conforme as etapas ilustradas na Tabela 1.

RESULTADOS:

Primeiramente, fez-se o levantamento do material a ser digitalizado, priorizando os 35 trabalhos correspondentes aos anos de 2004 e 2005 entre as monografias do Departamento de Ciência da Computação da Universidade de Brasília (CIC/UnB). A segunda etapa resultou na tentativa de coletar os termos de autorização dos autores para publicação dos trabalhos na Biblioteca Digital de Graduação do CIC.  Na etapa seguinte que inclui o treinamento sobre o processo de digitalização de documentos com artigos da RBB, foi possível compreender as técnicas de digitalização com a utilização da ferramenta ABBYY Fine Reader, na versão 8.0. A seguir tentamos organizar os recursos (materiais e humanos) usados na tarefa conforme detalhamento da Tabela 2.

Na etapa do diagnóstico do acervo, quando foram computados 35 documentos, verificou-se que a coleção estava incompleta tendo em vista que os alunos do CIC até o período de 2006 não eram obrigados a disponibilizar uma versão do documento na Sala de Pesquisa do CIC, onde a coleção é organizada.

Após o envio de correspondências eletrônicas aos alunos, previsto na terceira etapa do PIC, não foi possível reunir respostas que permitissem a liberação do acervo para digitalização. Numa segunda tentativa foram realizados contatos telefônicos com os autores dos trabalhos, mas verificou-se que devido a desatualização dos dados e a falta de interesse por parte dos autores em disponibilizar o material na Biblioteca Digital, não foi possível obter a autorização de todo o grupo para a publicação dos trabalhos. Esse aspecto levou os coordenadores de cursos do CIC e a própria direção a discutir entre seus pares o problema dos direitos autorais e os limites que a instituição teriam para liberar cópias digitalizadas em um portal de acesso aberto.

Seguindo a orientação da chefia desse departamento, foi decidido pelo debate mais aprofundado no âmbito do colegiado buscando também uma posição institucional na Universidade de Brasília relacionada aos direitos autorais dos trabalhos apresentados na instituição. Conforme Martins Filho (1998, p.187), “todas as obras intelectuais (livros, vídeos, filmes, fotos, obras de artes plásticas, música, intérpretes etc.), mesmo quando digitalizadas, não perdem sua proteção, portanto não podem ser utilizadas sem prévia autorização”.

Entrou-se, portanto, na discussão sobre um posicionamento a respeito do direito autoral na Universidade e na internet além da necessidade de se criar um termo de autorização confiável que os autores pudessem enviar de forma eletrônica. Questionou-se então a validade deste documento. De acordo com Pinheiro (2007, p.172)

a assinatura eletrônica é mais segura que a real, pois é certificada, “autenticada”, ou seja, verificada em tempo real no sistema de duas chaves, enquanto as assinaturas tradicionais não são verificadas imediatamente e muitas nem sequer são verificadas, como acontece com cheques e cartões de crédito.

Para adotar esta posição, seria necessário um sistema de segurança institucional, e, no Brasil, apesar dos avanços tecnológicos, este serviço é realizado apenas em instituições financeiras ou governamentais como a Receita Federal. Pinheiro (2007, p.173) descreve em seu livro sobre o Direito Digital, que para solucionar este problema teríamos que “burocratizar um meio de comunicação cujo principal propósito é a agilidade”.

Em função dessa restrição não foi possível disponibilizar os trabalhos analisados e, conseqüentemente, o projeto do PIC se restringiu às etapas de planejamento, treinamento e diagnóstico do acervo. Concluímos que ainda não existe um debate mais objetivo nas instituições de ensino superior sobre a proteção do direito autoral e uma definição de política editorial que inclua a disponibilidade de trabalhos acadêmicos em repositórios abertos. Especificamente nessa experiência com o acervo do CIC ainda há necessidade de uma discussão mais ampla sobre o acervo da BDG/CIC e na própria UnB. Lembrando que, apesar de todos os critérios de conversão para as tecnologias digitais, deve-se ressaltar o que Silva (2005, p.13) descreve em seu documento “a substituição definitiva de originais por versões digitais é descartada”

Lucas (2004, p.23), ao analisar a literatura sobre o assunto, orienta que a digitalização de documentos pode tornar-se um problema para uma instituição que trabalha gerando conhecimento. É preciso, segundo vários autores citados por Lucas, um cuidado com os documentos impressos nas bibliotecas convencionais na implementação de arquivos digitalizados ou projetos de bibliotecas digitais

de suposta salvadora passa a ser a inimiga na batalha da preservação perpétua dos arquivos: sendo que a rapidez do avanço tecnológico, de grande criadora vem a ser a grande destruidora, impedindo que alguns arquivos digitais, de menos de 20 anos não possam mais ser lidos.

Desta maneira, cabe ao CIC armazenar estes documentos físicos de forma adequada, para que possam ser conservados e acessados em pesquisas e consultas, garantindo a manutenção da coleção com a produção científica dos alunos e professores do Departamento. Todos os arquivos já digitalizados e produzidos já em formato que atenda ao previsto no projeto deverão futuramente ter sua conservação também garantida. A coleção em formato digital deve ser atualizada em cada semestre somando outros arquivos digitais.

 

CONCLUSÃO:

Através desta pesquisa, verificou-se a crescente necessidade dos Departamentos da Universidade de Brasília em disponibilizar as monografias como material para apoio ao ensino. Nesse contexto cada Departamento tem procurado criar, de forma isolada, sua própria Biblioteca Digital, o que talvez não seja o mais produtivo. Cunha (1999, p.258), define a biblioteca digital da seguinte maneira:

A biblioteca digital é também conhecida como biblioteca eletrônica (termo preferido dos britânicos), biblioteca virtual (quando utiliza os recursos da realidade virtual), biblioteca sem paredes e biblioteca conectada a uma rede. De acordo com Saunders (1992) essa biblioteca implica um novo conceito para a armazenagem da informação (forma eletrônica) e para sua disseminação (independentemente de sua localização física ou do horário de funcionamento). Assim, nesse contexto conceitual estão embutidas a criação, aquisição, distribuição e armazenamento de documento sob a forma digital. De um documento digital pode-se conseguir uma cópia em papel. Nessa biblioteca, o documento (aqui entendido na sua acepção mais ampla) é uma fonte digitalizada e o papel, portanto, é um estado transitório.

Em maio de 2008, quando foi selecionada uma amostra de 20 cursos de graduação que exigem a elaboração de Monografia de conclusão, também denominada de Trabalho de Conclusão de Curso (TCC) ou Trabalho de Graduação (TG) da Universidade de Brasília, foi possível observar que dentro de dois Departamentos (Departamento de Ciências Contábeis e Departamento de Engenharia Mecatrônica), já existem Bibliotecas Digitais Especializadas com trabalhos publicados pelos discentes dos cursos de cada Departamento. A iniciativa partiu dos próprios coordenadores de curso e não houve contestação dos autores em relação aos direitos de propriedade dos textos. Mas o problema da descentralização dos projetos pode ocasionar no futuro um problema para a Biblioteca Central da instituição.

Segundo Cianconi (1997 apud POHLMANN FILHO, 1999b): “as bibliotecas digitais sempre estão vinculadas a uma instituição, e seus links de hipertexto apontam para acervos existentes”. Mas é preciso considerar que muitas vezes trabalhando com tecnologias diferentes a instituição tenha dificuldade de padronizar linguagens e metodologias. Outras iniciativas relacionadas ao desenvolvimento de bibliotecas digitais podem ser observadas como o Projeto Piloto da Biblioteca Digital de Teses e Dissertações da Universidade de São Paulo – USP, implantado em junho de 2001 com o objetivo de facilitar o acesso remoto a parte de sua produção intelectual. Conforme Masiero et al (2001, p.34), a USP possui o maior sistema de pósgraduação do país e produz anualmente cerca de 1.500 teses de doutorado e 2.600 dissertações de mestrado, em 259 programas de pós-graduação. Para a realização deste projeto iniciado pelo reitor da Universidade, contou-se com a participação de uma Comissão Central de Informática, pelo diretor técnico do Sistema Integrado de Bibliotecas da USP, por um docente e por um analista de sistemas, além bibliotecários que auxiliaram em tarefas específicas.

Assim é possível observar a importância da participação de uma equipe especializada para realização de um projeto como o descrito acima. Dentre alguns exemplos de Bibliotecas Digitais nas Universidades, a Universidade do Minho, em Portugal, tem se destacado com o desenvolvimento de repositórios institucionais que disponibilizam materiais e produções acadêmicas de alunos da pós-graduação e da graduação utilizando o software Dspace.

Um Repositório Institucional, é uma espécie de arquivo digital que permite a gestão da informação científica de uma universidade ou instituto de pesquisa, ou seja, permite a coleta, armazenamento, organização, recuperação, preservação e disseminação efetiva de toda a produção intelectual da instituição. (Portal oasis.br)

O Projeto Piloto da BDG/CIC visa a criação de um Repositório Institucional onde é possível disponibilizar o material para a pesquisa, subdividindo as coleções através das faculdades da Universidade de Brasília, e divulgando os trabalhos realizados no ambiente acadêmico. Desta forma é possível concluir que é necessária a divulgação de uma padronização nas coleções que potencialmente se integrariam a BDG/CIC. Projetos de digitalização retrospectiva das monografias devem ser apoiados juntamente com órgãos da Universidade que considerem tanto o direito do usuário em acessar as informações produzidas nesse ambiente, como também os direitos autorais.

Palavras-chave: digitalização, biblioteca digital, direitos autorais.