昆明动物所发布生物序列处理工具FasParser2

来源:http://www.timer-motor.com 作者:科技中心 人气:95 发布时间:2019-09-21
摘要:昆明动物所发布生物序列处理工具FasParser2 -p blastp:蛋白序列与蛋白库做比对。 从大量的序列数据中挖掘有用的生物学信息,已成为众多研究领域的必备手段。针对数据挖掘过程中序列

昆明动物所发布生物序列处理工具FasParser2

-p blastp:蛋白序列与蛋白库做比对。

从大量的序列数据中挖掘有用的生物学信息,已成为众多研究领域的必备手段。针对数据挖掘过程中序列处理的操作,已有一些优秀工具包供使用,大致可以分为两类:一类是EMBOSS等命令行程序,其特点是运行速度较快,灵活性高,可与其他工具融合形成分析流程和批处理化。但这类工具往往需要用户熟悉Unix-like操作系统,甚至要求用户具有编写脚本能力。另一类是MEGA、BioEdit等窗口程序,该类工具具有友好的用户操作界面,使用起来方便,但往往只能对单文件进行操作,且难与其他程序形成自动化分析流程,难以应付越来越多的序列文件。2017年,中国科学院昆明动物研究所两栖爬行类多样性与进化研究组博士孙艳波于2017年在Zoological Research发布了FasParser程序,以实现在友好界面窗口下对一些常规序列的操作,尤其是对多基因串联合并、序列提取、低质量序列鉴定等进行批处理化。

如果建立的是核算库,输出为db.seq.nhr、db.seq.nin、db.seq.nsq,三个文件,如果选择了“-o  T”,还会同时输出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd四个文件,一共七个。

近日,孙艳波对FasParser进行了较大幅度的更新,并以FasParser2: A Graphical Platform for Batch Manipulation of Tremendous Amount of Sequence Data为题,在生物信息学期刊Bioinformatics上发布了新版本,以满足科研人员对序列操作更高的需求。更新内容包括:重新设计的文件上传界面具有更好的批处理效率;增加了有效过滤序列比对质量的模块,尤其适用于大规模检测序列中经历达尔文正选择的位点,以及重建系统发育等分析;增加若干序列过滤的功能,可实现序列中对非同源序列的清除,尤其适用于从一堆数据中抽取感兴趣的序列;增加了蛋白序列的一些操作接口,如利用蛋白序列的比对结果生成DNA的比对结果等;增加了检测正选择、PCR引物设计(借助Primer3)的功能;增加了专门的序列编辑工具(FasParser::Editor),以实现更方便的序列查看和编辑功能;增加其它一些附属功能。

 

图片 1

-e(value)参数是用来过滤比对较差的结果的,用“-e”参数指定一个实数,blast会过滤掉期望值大于这个数的比对结果(就是说这个值越小比对结果就越好)。

该研究得到了国家自然科学基金面上项目、中科院战略性先导科技专项、中科院青年创新促进会的资助。

Blast提供了核酸和蛋白序列之间所有可能的比对方式,同时具有较快的比对速度和较高的比对精度,因此在常规双序列比对分析中应用最为广泛,可以毫不夸张的说,blast是做比对基因组学乃至整个生物信息学研究所必须掌握的一种比对工具。

论文链接

蛋白库和核算库的输出类似,相应的输出文件为:db.seq.nhr、db.seq.nin、db.seq.nsq和db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd七个文件。

程序下载链接

2、运行比对程序blastall:

Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查序列(query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。

其他参数介绍:

 

-p (T/F):  -p参数的意义是选择建库的类型,“T”表示蛋白库,“F”表示核算库,缺省值为“T”

 

blastall  -i  query.fa  -d  database  -o  blast.out  -p  blastn 

 

其中如果"-o"参数缺省,则结果输出方式为屏幕输出。

 

-p blastx:核酸序列对蛋白库的比对。

2)、如果命令行中选择了“-o  T”,并且目标序列中好友gi号重复的序列名时,程序会停止建库并报错。

常用参数:

出现失真,期望值和 identity 都没有反映出真实情况。有时较长的重复序列甚至会导致比对终止。加了"-F F"就保证了比对结果的完整性。通常在大规模、低精度的比对中,往往用缺省参数,这样能避免程序把过多的时间浪费在无意义的简单重复上,提高运行速度;而在小规模、高精度的比对中,需要加上参数"-F F",保证比对的精确度和完整性。

blastp:蛋白序列与蛋白库做比对。

blast的运行分为两个步骤:第一,建立目标序列的数据库;第二,做blast比对。

通常情况下,对于不同物种之间的比对,期望值设在1e-5左右即可;而对于同源性较高的物种或者同种的比对,可以适度将期望值调的更小来过滤垃圾结果。比对同一物种cDNA和染色体的比对,参数可用1e-10或更高。

 

原文链接:http://blog.csdn.net/bangemantou/article/details/7726585

参数:

Blast的主程序是blastall。程序的输入文件是query序列(- i参数)而和库文件(-d 参数),比对类型的选择(- p参数)和输出文件(- o 参数)由用户指定。其中“-p”参数有5中取值:

除了这个结果,程序还会输出LOG文件(默认为formatdb.log),里面记录了运行时间、版本号、序列数量等信息。

blastall  -i  query.fa  -d  database  -o  blast.out  -p  blastn  -e 1e-10

-F 参数

“-e”参数能够做到筛选适当的比对结果,但是即使如此,blast的输出结果仍然非常庞大并且难以处理。为了精简输出、节省存储空间、实现更多功能并使结果易于处理,blast 提供了参数“-m (integer)”来设定输出格式,可供选择的值为 0~11 之间的整数,缺省为 0。下面就通过实例逐个解析“-m”参数能够实现的输出功能。

-n :  “-n  文件名”可以自定义生成的库文件命名

原文链接:http://blog.csdn.net/bangemantou/article/details/7726585

3)、如果输入序列不符合FASTA格式或者ASN.1格式,程序会自动退出,并报错。

本文由澳门新葡萄京集团3522发布于科技中心,转载请注明出处:昆明动物所发布生物序列处理工具FasParser2

关键词:

最火资讯