基于支持向量机的剪接位点识别方法
成果类型:: 发明专利
发布时间: 2023-07-11 10:07:25
本发明涉及一种基于支持向量机的剪接位点识别方法,包括:构建数据集,数据集包括训练数据集及测试数据集;提取训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量;根据第三特征向量,构建SVM分类器;根据分类器识别所述测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型,用该模型参数将训练数据集及测试数据集转换成特征向量,并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量,进行线性组合,以提取剪接位点邻近序列中更多信息,从而提高分类精度。
一种基于支持向量机的剪接位点识别方法,其特征在于,包括下述步骤:构建数据集,所述数据集包括训练数据集及测试数据集,所述训练数据集包括剪接位点序列,所述剪接位点序列包括真剪接位点序列和假剪接位点序列,所述真剪接位点序列即为正样本,所述假剪接位点序列即为负样本;提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量;根据所述第三特征向量,构建SVM分类器;根据所述分类器识别所述测试数据集的剪接位点;其中,提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量,包括下述步骤:构造公式其中,Cjk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数,nj是氨基酸j对应的密码子个数,fjk为密码子使用偏性
基因序列由碱基A、T、G、C组成。真核基因是由蛋白质编码序列(外显子)和非蛋白 质编码序列(内含子)两部分组成的。剪接位点是外显子编码区与内含子非编码区的边界, 外显子和内含子在序列水平上有明显的区别,编码区中每相邻的三个核苷酸组成的三联体 称为一个密码子(codon),通常一个密码子对应一种氨基酸,而一种氨基酸可以有多个密码 子,研究表明同一种氨基酸对应的不同密码子的使用频率是不一定相同的。氨基酸使对其 相应的各种密码子使用频次的不同,称为密码子的使用偏性。密码子的使用偏性是编码区 的特征,通过统计其在编码区和非编码区的分布差异可以识别剪接位点。剪接位点识别是 基因预测分析的一个重要组成部分。精确地识别剪切位点对探测进而确定基因的位置有着 重要的价值,有助于提高基因识别的精度和效率。
团队概况中国科学院深圳先进技术研究院提升了
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
上述基于支持向量机的剪接位点识别方法通过提取训练数据集的剪接位点序列 的特征向量,记为第一特征向量;提取训练数据集的剪接位点上游序列及下游序列的特征 向量,记为第二特征向量;根据第一特征向量及第二特征向量获取训练数据集的特征向量, 记为第三特征向量;根据第三特征向量,构建SVM分类器;根据分类器识别测试数据集的剪 接位点。本发明采用训练数据集构建马尔可夫模型,用该模型参数将训练数据集及测试数 据集转换成特征向量,并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量,进 行线性组合,以提取剪接位点邻近序列中更多信息,从而提高分类精度。
技术合作
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽 然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人 员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰 为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对 以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。