Conhecido como formato FASTA é a forma mais habitual representar sequencias de nucleotidios ou sequencias de aminoacidos para serem usadas em vários softwares. Inicialmente foi criado por David J. Lipman and William R. Pearson em 1985, um de pacote de softwares chamado de FASTP, que em sua versão original, busca a similaridade entre sequencias de proteinas, deste pacote de softwares originou o formato FASTA, que veio a se tornar o formato padrão usado na BioInformatica. Para mais informações sobre o software FASTA acesse:
No primeiro link baixe o arquivo "fasta_guide.pdf" caso tenha o interesse em usar o aplicativo.
E o segundo link é a versão online que o European Bioinformatics Institute (EBI) fornece.
Formato do arquivo FASTA:
Exemplo Mus musculus:
>gi|294774586|ref|NM_001177567.1| Mus musculus otogelin-like (Otogl), mRNA
AGTTTGATGGTACCTTGGCGTGCTCTCTCCCTTCCTATACTGCTGGTTTCATTACGAGGATACGTTTGTG
CGTCATCTGTCCTGTCAGAAACATCAGAAAGTGAGTTCTATGAAAATGAACAGAGAAGGGCTCTGTTAGC
AGTACAGTTTGAAGCAACCTCTCCGAGATATTTTTTCCACGAAGCTATTAATTGGGGTGAGAGTAAAATA
AAAGGTTCATGTCCTCATGAATGCCTTAACGGGGCTTTCTGTTCTAAGACGGGTACGTGTGACTGTCAAA
… (continua)
Como visto no exemplo acima, o arquivo FASTA é composto pelo cabeçalho e as bases. Uma caracteristica marcante é que todo cabeçalho FASTA inicia com o sinal de “>” (maior).
arquivo MULTIFASTA
É a união de diversos arquivos FASTAs, facilitando ao pesquisador o envio e manuseio.
Neste exemplo abaixo reuni especies diferentes (batata, manga e cachorro). O pesquisador deve montar o arquivo FASTA com as sequencias de uma mesma especie variando somente as sequencias de cada amostra da especie que se deseja estudar.
>gi|334683128|emb|FR719955.1| Solanum tuberosum mRNA for equilibrative nucleoside transporter 3 (ent3 gene), cultivar Desiree
ATGGCTGAGGGTAATACTAGAGCTCCGGTTAGACTTGAGGGCAAGTATAGTGCAATGCTTGTCTGTTGGG
TTTTGGGCAATGGATGCCTCTTCTCTTGGAACAGTATGTTAACTATTCAGGACTACTATGTCGCCCTCTT
TCCGAATTACCATCCCTCAAGGGTCCTTACACTCATTTATCAACCATTTGCATTGGGAACACTTGCAATA
… (continua)
>gi|60116151|gb|AY594608.1| Mangifera indica isolate 90 rps16 gene, intron; chloroplast
TGGANTTTTTTTTCCATCCACCATTTTCTACTTTTATATTATCTAGGAATGAATCGGCTCCTGGCTCGAC
ATCCTTTGTTCGGTTCTACTACAACCCTCGCTTTTTTGTTGGGTTGTAATATAAATAGTACATGATGGAG
CTCGAGTAGAAAGTATTTATTCATTTCTCAGGGGCAAGGGTCTAGGGTTAATACCAATCAATACGTTGGA
… (continua)
>gi|62751102|dbj|AB211528.1| Canis lupus familiaris mRNA for mucosal addressin cell adhesion molecule-1, complete cds
AGGACAGAGCACCGAGCATGGAGCGGGGCCTCGCCCTCCTGCTGCCTGTCTTCCTGGGGCTCCTTCAGCG
AGGCCGGGGTGGGCCGCTGGAGGTGGAGCCCCCAGACTCCGTGGTGGCCGTGTCCATGGGCGGCTCGCGG
CAGCTCACCTGCCGGTTGTCGTGCGCTGACCACAGGGCCCCGTCGGTGCAGTGGCGGGGCCTGGACACCA
… (continua)
Formato do cabeçalho do arquivo FASTA pela origem:
GenBank gi|gi-number|gb|accession|locus
EMBL Data Library gi|gi-number|emb|accession|locus
DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus
NBRF PIR pir||entry
Protein Research Foundation prf||name
SWISS-PROT sp|accession|name
Brookhaven Protein Data Bank (1) pdb|entry|chain
Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE
Patents pat|country|number
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
NCBI Reference Sequence ref|accession|locus
Local Sequence identifier lcl|identifier
Extensões do arquivo FASTA ou MULTIFASTA
*.fasta FASTA generico
*.fna FASTA de nucleotidios
*.ffn FASTA de nucleotidios codificado por região
*.faa FASTA de aminoacido
*.frn FASTA de RNA não-codificado
Mais informações:
http://en.wikipedia.org/wiki/FASTA
http://en.wikipedia.org/wiki/FASTA_format
vlw!
ResponderExcluirótimo texto! parabén e obrigado!!!
ResponderExcluir