63ª Reunião Anual da SBPC
A. Ciências Exatas e da Terra - 2. Ciência da Computação - 8. Processamento Paralelo e Distribuído
CONSTRUÇÃO DE UM PACOTE DEBIAN PARA INSTALAÇÃO DO PROGRAMA balaBLAST EM CLUSTER DE COMPUTADORES
Kléber Macedo Cabral 1
Daniel Xavier de Sousa 2
1. Laboratório de Biologia Molecular, Instituto de Ciências Biológicas – UFG
2. Instituto Federal de Goiás – Campus Anápolis
INTRODUÇÃO:
É grande o volume de dados advindos dos projetos das áreas de biotecnologia, exemplo é a base de dados EMBL (COCHRANE, 2006), com centenas de gigabytes em bio-seqüências e crescimento correspondente a quadruplicar de tamanho por ano. Com tantos projetos, uma atividade que tem se tornado frequente nos laboratórios de biologia molecular é a comparação entre bio-sequências, com o objetivo de inferir funções entre espécies sequenciadas. Para este propósito a ferramenta Basic Local Alignment Search Tool (BLAST) auxilia permitindo comparações in sílico. Porém, com o grande volume de dados a execução da mesma pode gastar horas e dias para a conclusão. Uma estratégia para diminuir este tempo é a comparação em cluster de computadores utilizando estratégia de paralelismo. Entre algumas aplicações paralelas a ferramenta balaBLAST (SOUSA 2008) apresenta ótima performance em bancos de dados grandes. Contudo, muitos biólogos encontram diversas dificuldades na instalação de ferramentas em cluster de computadores, inclusive a balaBLAST, pois exigem diversos requisitos de configuração. A proposta deste trabalho é apresentar a construção de um pacote de sistema Debian que permite a instalação automática do balaBLAST em diversas máquinas de um cluster, com fácil e menor interação com o usuário.
METODOLOGIA:
A instalação de programas via pacote de sistema é uma das opções de Sistemas Operacionais Linux em que vários softwares podem ser instalados com mínima interação do usuário e mesmo procedimento. Desta forma várias tarefas são executadas automaticamente, como: definição de variáveis de ambiente, transferência de arquivos, verificação de pré-requisitos de instalação e compilação de arquivos. Considerando o crescimento da distribuição Debian do Linux, investigamos sua estrutura e arquivos necessários. Observamos que o pacote se organiza com a parte de Controle e Scripts de Configuração. A primeira fornece informações sobre o pacote, como: nome, versão, arquitetura, dependências e outras. A segunda permite inserir instruções que são executadas antes, durante e pós-instalação.
Verificamos que a ferramenta balaBLAST, necessita de programas e bibliotecas em todas as máquinas do cluster para correta execução, como: BLAST, OPEN-MPI e GCC. Desta forma, construímos um pacote que uma vez executado na máquina considerada mestre utilizará a conexão SSH (Secure Shell) para acessar as diversas máquinas do cluster e proceder com os passos da instalação.
A execução do pacote para instalação do balaBLAST poderá ser feita com o comando dpkg, que deve ser executado como super usuário.
RESULTADOS:
O trabalho propõe um pacote Debian para instalação da ferramenta balaBLAST, que compara bio-sequencias em cluster de computadores. Logo, o pacote proposto interage graficamente com usuário e acessa diversas máquinas executando os seguintes passos:
1-Os arquivos do programa balaBLAST são extraídos e gravados nas pastas específicas.
2-O pacote interage graficamente para obter o usuário (login) que terá acesso de execução no cluster. Embora a instalação ocorra com o poder de super usuário, a execução da ferramenta balaBLAST terá o usuário diferente.
3-O usuário informa os endereços das máquinas do cluster em que o balaBLAST será instalado.
4-No intuito de agilizar a instalação e futuras execuções, o pacote permite criar chaves assimétricas (púbica e privada) para evitar a freqüente inserção de senha do usuário.
5-O pacote compila os arquivos fonte da ferramenta balaBLAST e transfere às máquinas dentro do cluster.
6-O pacote verifica em todas as máquinas do cluster a existência de dependência de programas e bibliotecas para a execução da ferramenta balaBLAST, caso haja, as mesmas serão instaladas.
7-Na conclusão do processo de instalação, os arquivos temporários utilizados são excluídos e o usuário recebe uma mensagem de instalação concluída com sucesso.
CONCLUSÃO:
Atualmente diversos laboratórios de biologia molecular têm usado tecnologias de processamento paralelo em cluster de computadores, como a ferramenta balaBLAST, no intuito de agilizar atividades como comparação de bio sequências. Contudo, muitos pesquisadores encontram dificuldades na instalação destas ferramentas devido a complexidade nas configurações, edição de arquivos e compilação dos mesmos. O trabalho aqui proposto apresenta um pacote de instalação no Sistema Debian que automatiza a instalação da ferramenta balaBLAST em cluster de computadores. Desta forma conseguimos diminuir o tempo e a complexidade de instalação. Permitindo que parâmetros da instalação sejam inseridos graficamente pelo usuário. A estrutura de pacotes de sistema trouxe também a viabilidade da atualização da ferramenta balaBLAST, pois a compilação dos arquivos-fontes e a sua substituição nas máquinas passam a ser feitas automaticamente. Pretendemos avançar os trabalhos feitos no intuito de criar uma interface gráfica que permita também gerenciar as bases de dados da ferramenta balaBLAST, assim como apresentar graficamente ao usuário o progresso durante a execução da ferramenta. Apresentamos no vídeo (http://www.youtube.com/watch?v=EXCSYfdOvhQ) uma demonstração de utilização do pacote de instalação criado.
Palavras-chave: Pacote Debian, balaBLAST, BLAST.