IMPRIMIR VOLTAR
C. Ciências Biológicas - 8. Genética - 6. Genética
ANALISANDO SEQÜÊNCIAS DE NUCLEOTÍDEOS COM COEFICIENTE DE CLUSTERIZAÇÃO
Rogério José Panis Filho 1, Laurita dos Santos 1, Gunther Johannes Lewczuk Gerhardt 1,2, Gilberto Corso 3 e Ney Lemke 4
1- Departamento de Física e Química, Universidade de Caxias do Sul - UCS 2- Pós-Graduação em Clínica Médica, Universidade Federal do Rio Grande do Sul e Hospital de Clínicas de Porto Alegre, UFRGS- HCPA 3- Departamento de Biofísica e Farmacologia, Centr, UNIVERSIDADE DE CAXIAS DO SUL - UCS
Neste trabalho propomos um novo método que focaliza os aspectos topológicos de seqüências de DNA. A metodologia é inspirada em Teoria de gráfico, basicamente no conceito de clusterização. Em perspectiva matemática um gráfico é determinado por dois pontos G=G(V,K), onde V é um número de vértices e K é a ligação entre as conexões. O número de vértices em rede é N e o número de conexões é L. A rede de seqüências de DNA (DSN) é definida como a seguir. Vértices são nucleotídeos tripletes e uma conexão entre dois tripletes é estabelecida se dois tripletes são justapostos em algum lugar na seqüência de DNA. Nós consideramos ligações de tamanhos definidos L, ao longo da seqüência. A DSN constitui a ferramenta de análise de seqüências sobre uma janela de tamanho L, percorrendo sobre o DNA. Utilizamos uma fórmula criada para extrair o número máximo possível de conexões. A quantidade de C, coeficiente de clusterização, é relacionada a matriz adjacente do gráfico então incluímos nossa ferramenta de rede em um tipo de métodos de matriz para caracterizar as seqüências de DNA. Para testar o método escolhermos organismos de acordo com o conteúdo GC, pgc. O grupo teste foi formado pelos seguintes organismos: P. falciparum cromossomo III (NC000521.3 e pgc=0.19), E. coli (NC000913 e pgc=0.50), S. cerevisiae cromossomo XV (NC001147.2 e pgc=0.38) e T. termophilus (NC005835.1 e pgc=0.69) todos obtidos pelo GenBank Project (www.ncbi.nlm.nih.gov). Graficamos no eixo-x o conteúdo GC e no eixo-y o C para o grupo controle e o grupo teste. As regiões de pico em formato “M” representam a informação de uma rede aleatória. Foi usado um L=1000, outros valores de L mostraram resultados qualitativos similares, porém com dispersões diversificadas. Avaliamos o desvio do grupo de controle por um teste, usando um coeficiente de dispersão apropriado D(C). Mostramos que o genoma de P. falciparum possui uma dispersão maior em relação aos demais organismos e esta dispersão não é causada por nenhum dos vieses mais comuns aqui medidos para fins de comparação: periodicidade 3 e conteúdo GC.
Trabalho de Iniciação Científica
Palavras-chave:  clusterização; genomas com diferentes de GC; sequência genômica

Anais da 57ª Reunião Anual da SBPC - Fortaleza, CE - Julho/2005