您所在的位置: 成果库 短序列组装中序列片段的过滤方法及系统

短序列组装中序列片段的过滤方法及系统

成果类型:: 发明专利

发布时间: 2023-07-11 11:13:02

科技成果产业化落地方案
方案提交机构:成果发布人| 郝建平 | 2023-07-11 11:13:02

本发明公开了一种短序列组装中序列片段的过滤方法,包括以下步骤:接收测序序列;分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串;将得到的所述短串的序列值及所述短串的出现频率存储为一个节点;计算所述短串频率阈值;将频率小于阈值的短串过滤。本发明还提供了短序列组装中序列片段的过滤系统。本发明的有益效果在于,过滤了错误的短串,减小了组装拼接的短串集合,减小了组装拼接程序所需内存,提高了组装拼接程序的性能;在进行短串节点存储的同时对短串出现的频率进行了统计,操作简单;误差小。

1. 一种短序列组装中序列片段的过滤方法,其特征在于,所述方法包括以下步骤: 接收测序序列; 分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串; 将得到的所述短串的序列值及所述短串的频率存储为一个节点; 计算所述短串频率阈值; 将频率小于阈值的短串过滤; 所述阈值为T = 0XC〇VR,0为分类模型参数,C0VR为测序仪器设定的序列克隆倍数实际 值。 2. 根据权利要求1所述的过滤方法,其特征在于,所述节点采用hash map存储,其中,哈 希键为所述序列值,值为所述节点。 3. 根据权利要求1所述的过滤方法,其特征在于,所述将得到的所述短串的序列值及所 述短串的频率存储为一个节点的步骤具体为: 根据当前节点的短串的序列值在已存储的节点中查询是否已存有当前节点; 如果没有查询到当前节点,则添加所述当前节点; 如果查询到当前节点,则更新所述当前节点的频率。

新测序技术产生的短序列有以下两个特点:第一,序列长度短;第二,数据量大。长 序列组装常用的phrap等软件均为基于序列间的交叠(overlap)来进行拼接组装,此方法运 用于短序列上会存在运算量太大的问题,没有实际的应用价值。新兴的短序列组装受到内 存、时间等的限制,目前只在较小的原核生物基因组中成功应用。新一代测序分析存在以下 难点:第一,海量序列片段,基因组源序列的长度从十万碱基(如猪痘病毒、大肠杆菌)到十 亿碱基(如黄种人、黄瓜、熊猫基因组)大小不等,而复杂环境(如海水、人体大肠等)宏基因 组数据甚至会达到上百亿碱基,而对这些样本进行测序其覆盖度需达到30倍到100倍,这使 得产生的基因序列片段剧增,如亚洲黄种人的基因数据可达到1TB;第二,短序列,随着测序 技术的发展,测序读长呈不断减小的趋势,较第一代测序仪的测序长度显著下降,例如454 测序仪可以测到400bp,Sanger测序法的测序长度可达1000 bp到1200bp;第三,测序错误,在 测序产生序列片段的过程中可能伴随由于荧光强度识别问题带来测序误差,例如有可能一 个碱基T可能被测序仪读出为A。这些错误是难以避免的,而且这个范围通常是0.5%到2%之 间。这就意味着一个长度为75bp的源序列如果带有1%的错误率,那么将导致有一半(1-(1-1%)75=52.9%)的测序产生序列片段可能有错误碱基。针对其中第二个问题,高通量的数据 本身就可以生成大规模的k-mer节点,这些节点将被构造成图来分析,而由于测序错误的引 入,将使得k-mer节点的数目增大5倍,例如人类基因组测序数据将会产生大约15G的k-mer; 由测序错误产生的k-mer,如果进入计算机进行直接处理,将会消耗巨大的内存,例如人类 基因组测序数据如果不进行序列过滤清洗的话,将会消耗大约2T的内存来存储这些k-mer 所构造的图;测序数据中的错误序列还会在构造的图里面形成错误链接,Tip型错误,泡型 错误,这些错误和源基因组序列本身的重复序列,基因突变点位等搅合在一起,这将使得后 续的基因序列分析无法进行。因此,在短序列组装前进行过滤,去除错误的k-mer,对序列的 组装和后续分析,尤其是大规模数据的分析,大基因组的组装具有重要的意义。研究有效的 序列过滤方法,节约内存,提升计算性能成为一个亟待解决的问题。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

节点添加模块,用于在所述查询模块没有查询到当前节点时,添加当前节点;

[0034] 频率更新模块,用于在所述查询模块查询到当前节点时,更新所述当前节点的频 率。

[0035] 本发明的有益效果在于,过滤了错误的短串,减小了组装拼接的短串集合,减小了 组装拼接程序所需内存,提高了组装拼接程序的性能;在进行短串节点存储的同时对短串 出现的频率进行了统计,操作简单;误差小。

技术合作

以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明 的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范 围之内。