比BLAST更快的序列搜索工具:diamond简明教程

2018-06-11  萌小芊   阅 5056  转 20

diamond是2015年nature methods上发布的一款新的比对软件,据说是一款比比对到NCBI-NR蛋白参考库更快更灵敏的软件。在比对短的reads比BLASTX快20000倍,并且具有相似的准确度。

参考文章:

Benjamin Buchfink, Chao Xie, and Daniel H. Huson. Fast and sensitive protein alignment using diamond. Nature methods, 12(1):59–60, Jan 2015

介绍

diamond是一款比对 protein和检索translated DNA,用于高性能分析大序列数据的软件。关键优势在于:

  • 比对速度是blast的500x-20,000x。

  • 用于长reads分析的Frameshift比对。

  • 对运行条件要求低,可以在标准台式机或笔记本电脑上运行。

  • 输出格式多样,表格、sam格式、BLAST pairwise、XML等。


简介原文链接:

https://github.com/bbuchfink/diamond/blob/master/README.rst

安装

下载地址

https://github.com/bbuchfink/diamond

利用wget进行下载安装:

wget http://github.com/bbuchfink/diamond/releases/download/v0.9.22/diamond-linux64.tar.gz*  
# 解压
tar xzf diamond-linux64.tar.gz # 添加环境变量  
export PATH=$PATH:/data/home/mjchen/app/diamond*

安装完毕可以diamond version或者diamond help一下,检测是不是安装成功

如果通过这种方式安装不上的话,那就说明你用的服务器太老了,可以通过源代码安装。这个软件还有windows版本的,可以直接按到自己的本本上。)

运行

第一步: 建立diamond格式的database.  输入文件为fasta格式,生成一个.dmnd的文件

diamond makedb --in Oryza_sativa.IRGSP-1.0.pep.all.fa -d Oryza_sativa
#--in 输入文件
#--db/-d 数据库名称

第二步 :比对, 比对可以是blastx也可以是blastp,下面以blastp为例blastx一样处理

E:\master\group_classification\2018\perl and flow 2\ref_num\  --db/-d 输入比对数据库    --query/-q  比对序列    --threads/-p 线程数  --out/-o 输出文件    --outfmt/-f  输出文件格式

输出的文件格式介绍:

0 BLAST pairwise format.  
5 BLAST XML format.  
6 表格模式 (默认输出格式).    
100 DIAMOND  
101 SAM format.  
102 Taxonomic classification.  
103 PAF format.

其他参数说明:

--max-target-seqs/-k 比对到的最大序列数,默认值是25。--top 百分数的形式表示--max-target-seqs --evalue/-e 比对的最大evalue值(默认0.001) --min-score 最小评分 --id 给出指定百分比的数据 --subject-cover 最小覆盖度 --unal (0,1) 是否输出未比对上的reads(0=no, 1=yes) --sensitive 建议对齐较长的序列 --more-sensitive  比对准确度更高

 

这里列出的参数只是我认为比较常用的,如果想要更详细的参数介绍还是去看manual

求助: 最近在找一个可以对蛋白进行全局比对并且运行速度还不慢的软件,希望知道的小伙伴们推荐一下,谢谢!!