sábado, 10 de setembro de 2011

Arquivos em formato GenBank

O formato GenBank tambem é outra forma de compartilhar sequencias de nucleotidios, proteinas, genomas, etc. Este formato foi gerado pela National Center for Biotecnology Information (NCBI) que constitui parte do National Institute of Health (NIH). Quando vemos a curva exponencial de sequencias armazenadas desde sua criação em 1982, chega ao absurdo de dobrar a cada 18 meses. Mas este “boom” de sequencias armazenadas acontece por conta do barateamento dos equipamentos e ferramentas usadas nos laboratorios.


Fonte: http://biotec.icb.ufmg.br/chicopros/ensino/didaticos/databasesbiomol.html


Formato

Exemplo do arquivo GenBank 
Quando realizamos a busca de alguma sequencia no NCBI, como padrão ele retorna a sequencia em formato GenBank, mas tambem é disponibilizado a opção de ver em formato FASTA. Desconheço quais softwares trabalhem com o formato GenBank. Acredito que seja mais comumente o uso do formato FASTA.
Como o FASTA, podemos agrupar todos em um unico arquivo, assim temos 2 extensões:
  • *.gb - uma unica sequencia no arquivo.
  • *.gbk - varias sequencias no arquivo.

Como extrair as bases de um *.gb ou *.gbk e montar um arquivo FASTA ou multifasta

O resultado é este:

>gi|8100074|gb|AB031069.1| Homo sapiens PCCX1 mRNA for protein containing CXXC domain 1,
agatggcggcgctgaggggtcttgggggctctaggccggccacctactggtttgcagcgg
agacgacgcatggggcctgcgcaataggagtacgctgcctgggaggcgtgactagaagcg
gaagtagttgtgggcgcctttgcaaccgcctgggacgccgccgagtggtctgtgcaggtt
cgcgggtcgctggcgggggtcgtgagggagtgcgccgggagcggagatatggagggagat
ggttcagacccagagcctccagatgccggggaggacagcaagtccgagaatggggagaat
gcgcccatctactgcatctgccgcaaaccggacatcaactgcttcatgatcgggtgtgac
aactgcaatgagtggttccatggggactgcatccggatcactgagaagatggccaaggcc
atccgggagtggtactgtcgggagtgcagagagaaagaccccaagctagagattcgctat
… (continua)

ps.: Esta é uma versão beta que eu havia feito, ainda precisa melhora-lo.

No livro Beginning Perl for BioInformatics, no capitulo 10 - GenBank, contem tambem um exemplo de como realizar esta extração das bases, [exemplo 10-1].

Example 10-1: Extract annotation and sequence from GenBank file

Para interessados em programar em Perl para BioInfo recomendo este livro que citei diversas vezes e retirei este exemplo.

Beginning Perl for BioInformatics - An Introduction to Perl for Biologists de James Tisdall da editora O’REILLY.

Mais informações:

http://en.wikipedia.org/wiki/GenBank
http://oreilly.com/catalog/begperlbio/chapter/ch10.html
http://biotec.icb.ufmg.br/chicopros/ensino/didaticos/databasesbiomol.html


Revisado em 25 de Abril de 2014

2 comentários:

  1. Excelente artigo camarada. Quando diz "Desconheço quais softwares trabalhem com o formato GenBank", vou citar um que estou utilizando: PathwayTools

    ResponderExcluir
  2. Olá, boa tarde!
    Não consigo entende o comando parse1, você poderia me explicar se puder?
    obrigada

    ResponderExcluir