Fonte: http://biotec.icb.ufmg.br/chicopros/ensino/didaticos/databasesbiomol.html |
Formato
Exemplo do arquivo GenBank
Quando realizamos a busca de alguma sequencia no NCBI, como padrão ele retorna a sequencia em formato GenBank, mas tambem é disponibilizado a opção de ver em formato FASTA. Desconheço quais softwares trabalhem com o formato GenBank. Acredito que seja mais comumente o uso do formato FASTA.
Como o FASTA, podemos agrupar todos em um unico arquivo, assim temos 2 extensões:
- *.gb - uma unica sequencia no arquivo.
- *.gbk - varias sequencias no arquivo.
Como extrair as bases de um *.gb ou *.gbk e montar um arquivo FASTA ou multifasta
O resultado é este:
>gi|8100074|gb|AB031069.1| Homo sapiens PCCX1 mRNA for protein containing CXXC domain 1,
agatggcggcgctgaggggtcttgggggctctaggccggccacctactggtttgcagcgg
agacgacgcatggggcctgcgcaataggagtacgctgcctgggaggcgtgactagaagcg
gaagtagttgtgggcgcctttgcaaccgcctgggacgccgccgagtggtctgtgcaggtt
cgcgggtcgctggcgggggtcgtgagggagtgcgccgggagcggagatatggagggagat
ggttcagacccagagcctccagatgccggggaggacagcaagtccgagaatggggagaat
gcgcccatctactgcatctgccgcaaaccggacatcaactgcttcatgatcgggtgtgac
aactgcaatgagtggttccatggggactgcatccggatcactgagaagatggccaaggcc
atccgggagtggtactgtcgggagtgcagagagaaagaccccaagctagagattcgctat
… (continua)
ps.: Esta é uma versão beta que eu havia feito, ainda precisa melhora-lo.
No livro Beginning Perl for BioInformatics, no capitulo 10 - GenBank, contem tambem um exemplo de como realizar esta extração das bases, [exemplo 10-1].
Example 10-1: Extract annotation and sequence from GenBank file
Para interessados em programar em Perl para BioInfo recomendo este livro que citei diversas vezes e retirei este exemplo.
Beginning Perl for BioInformatics - An Introduction to Perl for Biologists de James Tisdall da editora O’REILLY.
Mais informações:
http://en.wikipedia.org/wiki/GenBank
http://oreilly.com/catalog/begperlbio/chapter/ch10.html
http://biotec.icb.ufmg.br/chicopros/ensino/didaticos/databasesbiomol.html
Revisado em 25 de Abril de 2014
Excelente artigo camarada. Quando diz "Desconheço quais softwares trabalhem com o formato GenBank", vou citar um que estou utilizando: PathwayTools
ResponderExcluirOlá, boa tarde!
ResponderExcluirNão consigo entende o comando parse1, você poderia me explicar se puder?
obrigada