Tutorial Blast em linha de comando - Coccidia.icb.usp.br
Tutorial Blast em linha de comando - Coccidia.icb.usp.br
Tutorial Blast em linha de comando - Coccidia.icb.usp.br
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Tutorial</strong> <strong>Blast</strong> <strong>em</strong> <strong>linha</strong> <strong>de</strong> <strong>comando</strong><<strong>br</strong> />
Vamos apren<strong>de</strong>r a baixar uma base <strong>de</strong> dados customizada e formatá-la para uso<<strong>br</strong> />
com BLAST local <strong>em</strong> <strong>linha</strong> <strong>de</strong> <strong>comando</strong>. Para isso, vamos obter todas as seqüências<<strong>br</strong> />
nucleotídicas e protéicas <strong>de</strong> vírus <strong>de</strong> dupla fita <strong>de</strong> RNA (dsRNA).<<strong>br</strong> />
1. Entre no site http://www.ncbi.nlm.nih.gov/. No canto superior esquerdo existe<<strong>br</strong> />
botão <strong>de</strong> escolha. Escolha o it<strong>em</strong> Taxonomy. Digite viruses no formulário <strong>de</strong><<strong>br</strong> />
busca e aperte ENTER<<strong>br</strong> />
2. Clique no link <strong>de</strong> Viruses. Uma lista <strong>de</strong> todos os grupos taxômicos <strong>de</strong> vírus será<<strong>br</strong> />
apresentada.<<strong>br</strong> />
3. Escolha dsRNA viruses e clique no link.<<strong>br</strong> />
4. Uma nova lista com todos os grupos taxonômicos <strong>de</strong> vírus dsRNA será<<strong>br</strong> />
apresentada.<<strong>br</strong> />
5. Clique no link dsRNA viruses da raíz.<<strong>br</strong> />
6. Uma tabela contendo o número <strong>de</strong> seqüências nucleotídicas e protéicas, entre<<strong>br</strong> />
outras, <strong>de</strong>verá aparecer do lado direito.<<strong>br</strong> />
7. Quantas seqüências estão disponíveis<<strong>br</strong> />
8. Clique no link <strong>de</strong> sequências nucleotídicas (ou <strong>de</strong> protéicas se for o caso).<<strong>br</strong> />
9. Vamos agora formatar a saída para o formato multifasta e salvar a base <strong>em</strong> um<<strong>br</strong> />
arquivo. Para isso, clique no link “Send to” no canto superior direito, e selecione<<strong>br</strong> />
o it<strong>em</strong> “File”. O número <strong>de</strong> sequências a ser<strong>em</strong> baixadas será apresentado.<<strong>br</strong> />
Escolha o formato FASTA e clique no botão “Create File”. O arquivo será salvo<<strong>br</strong> />
na área <strong>de</strong> transferência com o nome sequences.fasta.<<strong>br</strong> />
Renomeie o arquivo para virus-nt.fasta com o <strong>comando</strong> mv.<<strong>br</strong> />
10. Repita o procedimento para as sequências protéicas e salve o arquivo.<<strong>br</strong> />
Renomeie-o para virus-prot.fasta.<<strong>br</strong> />
11. Quantas sequências compõ<strong>em</strong> cada um dos arquivos Use o <strong>comando</strong> abaixo<<strong>br</strong> />
para <strong>de</strong>sco<strong>br</strong>ir:<<strong>br</strong> />
grep “>” |wc –l<<strong>br</strong> />
12. Agora vamos copiar os arquivos FASTA para o diretório BLAST da sua pasta.<<strong>br</strong> />
13. Em seguida, vamos formatar essas bases <strong>de</strong> maneira que o BLAST possa usálas.
makeblastdb -in virus-nt.fasta -dbtype nucl -title "dsRNA<<strong>br</strong> />
virus DNAs" -out dsRNAnt -logfile log_nt.txt<<strong>br</strong> />
e<<strong>br</strong> />
makeblastdb -in virus-prot.fasta -dbtype prot -title "dsRNA<<strong>br</strong> />
virus proteins" -out dsRNAprot -logfile log_prot.txt<<strong>br</strong> />
14. Você recebeu os arquivos <strong>de</strong> dois virus <strong>de</strong> dsRNA:<<strong>br</strong> />
Ep-RV1.fasta e Emt-RV1.fasta<<strong>br</strong> />
Vamos agora fazer uma busca <strong>de</strong> similarida<strong>de</strong> entre o primeiro vírus e a base <strong>de</strong><<strong>br</strong> />
sequências nucleotídicas <strong>de</strong> vírus <strong>de</strong> dsRNA:<<strong>br</strong> />
blastn -query Ep-RV1.fasta -db dsRNAnt -out saida_blastn.txt<<strong>br</strong> />
Vamos repetir a busca usando traduzindo a sequência nucleotídica do vírus e usando<<strong>br</strong> />
a base <strong>de</strong> sequências protéicas:<<strong>br</strong> />
blastx -query Ep-RV1.fasta -db dsRNAprot -out saidablastx.txt<<strong>br</strong> />
15. Ao final da busca, inspecione os arquivos <strong>de</strong> saída com o <strong>comando</strong> less.<<strong>br</strong> />
16. A busca com sequência nucleotídica não <strong>de</strong>u hits. Experimente rodar a busca<<strong>br</strong> />
com o arquivo teste.fasta. O que você observou<<strong>br</strong> />
17. Repita a busca com blastn e blastx usando as outras sequências <strong>de</strong> vírus.<<strong>br</strong> />
18. Agora vamos alterar a saída, gerando um formato tabular customizado:<<strong>br</strong> />
blastx -query Ep-RV1.fasta -db dsRNAprot -outfmt "6 length<<strong>br</strong> />
evalue bitscore sseqid" –out tabular.txt<<strong>br</strong> />
19. Vamos fazer uma busca <strong>de</strong> similarida<strong>de</strong> entre duas sequências nucleotídicas <strong>de</strong><<strong>br</strong> />
vírus distintos:<<strong>br</strong> />
blastn -query Ep-RV1.fasta –subject Emt-RV1.fasta<<strong>br</strong> />
O Word Size padrão para essa busca é 28. Vamos mudar para 11:
lastn -query Ep-RV1.fasta –subject Emt-RV1.fasta –word_size<<strong>br</strong> />
11<<strong>br</strong> />
O que você observou<<strong>br</strong> />
20. Agora vamos comparar estas duas sequências a partir <strong>de</strong> suas proteínas<<strong>br</strong> />
traduzidas:<<strong>br</strong> />
tblastx -query Ep-RV1.fasta –subject Emt-RV1.fasta<<strong>br</strong> />
...e restringir a saída para apenas os a<strong>linha</strong>mentos com e-value inferior a 1x10 -300 :<<strong>br</strong> />
tblastx -query Ep-RV1.fasta –subject Emt-RV1.fasta –evalue<<strong>br</strong> />
1e-300