sábado, 3 de setembro de 2011

Arquivo em formato FASTA

Conhecido como formato FASTA é a forma mais habitual representar sequencias de nucleotidios ou sequencias de aminoacidos para serem usadas em vários softwares. Inicialmente foi criado por David J. Lipman and William R. Pearson em 1985, um de pacote de softwares chamado de FASTP, que em sua versão original, busca a similaridade entre sequencias de proteinas, deste pacote de softwares originou o formato FASTA, que veio a se tornar o formato padrão usado na BioInformatica. Para mais informações sobre o software FASTA acesse:


No primeiro link baixe o arquivo "fasta_guide.pdf" caso tenha o interesse em usar o aplicativo.
E o segundo link é a versão online que o European Bioinformatics Institute (EBI) fornece.

Formato do arquivo FASTA:

Exemplo Mus musculus:

>gi|294774586|ref|NM_001177567.1| Mus musculus otogelin-like (Otogl), mRNA
AGTTTGATGGTACCTTGGCGTGCTCTCTCCCTTCCTATACTGCTGGTTTCATTACGAGGATACGTTTGTG
CGTCATCTGTCCTGTCAGAAACATCAGAAAGTGAGTTCTATGAAAATGAACAGAGAAGGGCTCTGTTAGC
AGTACAGTTTGAAGCAACCTCTCCGAGATATTTTTTCCACGAAGCTATTAATTGGGGTGAGAGTAAAATA
AAAGGTTCATGTCCTCATGAATGCCTTAACGGGGCTTTCTGTTCTAAGACGGGTACGTGTGACTGTCAAA
… (continua)

Como visto no exemplo acima, o arquivo FASTA é composto pelo cabeçalho e as bases. Uma caracteristica marcante é que todo cabeçalho FASTA inicia com o sinal de “>” (maior).

arquivo MULTIFASTA

É a união de diversos arquivos FASTAs, facilitando ao pesquisador o envio e manuseio.
Neste exemplo abaixo reuni especies diferentes (batata, manga e cachorro). O pesquisador deve montar o arquivo FASTA com as sequencias de uma mesma especie variando somente as sequencias de cada amostra da especie que se deseja estudar.

>gi|334683128|emb|FR719955.1| Solanum tuberosum mRNA for equilibrative nucleoside transporter 3 (ent3 gene), cultivar Desiree
ATGGCTGAGGGTAATACTAGAGCTCCGGTTAGACTTGAGGGCAAGTATAGTGCAATGCTTGTCTGTTGGG
TTTTGGGCAATGGATGCCTCTTCTCTTGGAACAGTATGTTAACTATTCAGGACTACTATGTCGCCCTCTT
TCCGAATTACCATCCCTCAAGGGTCCTTACACTCATTTATCAACCATTTGCATTGGGAACACTTGCAATA
… (continua)

>gi|60116151|gb|AY594608.1| Mangifera indica isolate 90 rps16 gene, intron; chloroplast
TGGANTTTTTTTTCCATCCACCATTTTCTACTTTTATATTATCTAGGAATGAATCGGCTCCTGGCTCGAC
ATCCTTTGTTCGGTTCTACTACAACCCTCGCTTTTTTGTTGGGTTGTAATATAAATAGTACATGATGGAG
CTCGAGTAGAAAGTATTTATTCATTTCTCAGGGGCAAGGGTCTAGGGTTAATACCAATCAATACGTTGGA
… (continua)

>gi|62751102|dbj|AB211528.1| Canis lupus familiaris mRNA for mucosal addressin cell adhesion molecule-1, complete cds
AGGACAGAGCACCGAGCATGGAGCGGGGCCTCGCCCTCCTGCTGCCTGTCTTCCTGGGGCTCCTTCAGCG
AGGCCGGGGTGGGCCGCTGGAGGTGGAGCCCCCAGACTCCGTGGTGGCCGTGTCCATGGGCGGCTCGCGG
CAGCTCACCTGCCGGTTGTCGTGCGCTGACCACAGGGCCCCGTCGGTGCAGTGGCGGGGCCTGGACACCA
… (continua)


Formato do cabeçalho do arquivo FASTA pela origem:


GenBank                gi|gi-number|gb|accession|locus
EMBL Data Library      gi|gi-number|emb|accession|locus
DDBJ, DNA Database of Japan    gi|gi-number|dbj|accession|locus
NBRF PIR               pir||entry
Protein Research Foundation    prf||name
SWISS-PROT             sp|accession|name
Brookhaven Protein Data Bank (1)      pdb|entry|chain
Brookhaven Protein Data Bank (2)    entry:chain|PDBID|CHAIN|SEQUENCE
Patents                pat|country|number
GenInfo Backbone Id     bbs|number
General database identifier    gnl|database|identifier
NCBI Reference Sequence      ref|accession|locus
Local Sequence identifier    lcl|identifier


Extensões do arquivo FASTA ou MULTIFASTA

*.fasta    FASTA generico
*.fna      FASTA de nucleotidios
*.ffn      FASTA de nucleotidios codificado por região
*.faa      FASTA de aminoacido
*.frn      FASTA de RNA não-codificado


Mais informações:

http://en.wikipedia.org/wiki/FASTA
http://en.wikipedia.org/wiki/FASTA_format

2 comentários: