本发明公开一种双向多步De Bruijn图的突出端识别与去除方法,包括步骤,S1、读取测序数据源文件,并构造双向多步De Bruijn图;S2、设定所述双向多步De Bruijn图中的每个顶点u的数据结构,对所述双向多步De Bruijn图突出端双向边的识别;S3、对所述双向多步De Bruijn图突出端双向边的去除。本发明基于相关节点的结构信息以及边的相对丰度来判别该突出端是否可以被删除,本发明方法的判别方式比以前的方法更精细,考虑的De Bruijn图中的信息更多;可以有效的删除突出端双向边,从而可以一定程度上提高contigs的长度,同步提高contig的质量。
1.一种双向多步De Bruijn图的突出端识别与去除方法,其特征在于,包括步骤,S1、 读取测序数据源文件,并构造双向多步De Bruijn图;S2、 设定所述双向多步De Brui jn图中的每个顶点u的数据结构,对所述双向多步De Brui jn图突出端双向边的识别;S3、 对所述双向多步De Brui jn图突出端双向边的去除。 2.如权利要求1所述的突出端识别与去除方法,其特征在于,所述De Brui jn图构造步 骤为,S11、 读取一个序列s;S12、 将序列s用滑动窗口切割为多个片段t,选取一片段t其标志数为cur、并标记其前、 后的片段的标志数分别为pre、lat;S13、 若t的编码小于其互补片段编码,则交换pre,lat的值;S14、 在cur的正向位置映射表的相应bit位置1来表示指向pre的边;S15、 在cur的反向位置映射表的相应bit位置1来表示指向lat的边.
基因序列分析以算法与数学模型为核心,包括:基因数据的存储与获取、序列比对、测序与拼接、基因预测、生物进化与系统发育分析、蛋白质结构预测、RNA结构预测、分子设计与药物设计、代谢网络分析、基因芯片、DNA计算等。生物技术和计算机信息处理技术的紧密结合,加快了处理生物信息数据的速度,使得在尽短的时间内对生物学做出准确的诠释,加快生物信息学的发展。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
优选地,所述突出端双向边的去除包括,
[0037] S31、遍历整个双向多步De Bruijn图,访问所述De Bruijn图中的每个顶点u,对所述顶点u的每一条边执行步骤S32;
[0038] S32、如果所述顶点u有边被标记为突出端双向边,则执行步骤S33,否则执行步骤 S31,[〇〇39] S33、删除所述突出端双向边。
[0040]如果该边不是顶点u的最后一条边,遍历顶点u中的每个边;如果该顶点不是图中最后一个顶点,遍历De Brui jn图中的顶点u。
[0041] 本发明的有益效果包括:基于相关节点的结构信息以及边的相对丰度来判别该突出端是否可以被删除,本发明方法的判别方式比以前的方法更精细,考虑的De Brui jn图中的信息更多;可以有效的删除突出端双向边,从而可以一定程度上提高contigs的长度,同步提高contig的质量。
技术合作
所述突出端双向边的去除包括,
[0069] S31、遍历整个双向多步De Bruijn图,访问所述De Bruijn图中的每个顶点u,对所述顶点u的每一条边执行步骤S32;
[0070] S32、如果所述顶点u有边被标记为突出端双向边,则执行步骤S33,否则执行步骤 S31,[〇〇71] S33、删除所述突出端双向边。
[0072]以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内