您所在的位置: 成果库 一种基于分治策略的单细胞罕见细胞类型识别方法和系统

一种基于分治策略的单细胞罕见细胞类型识别方法和系统

成果类型:: 发明专利

发布时间: 2023-10-08 12:03:45

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-10-11 16:43:32
本发明提供一种基于分治策略的单细胞罕见细胞类型识别方法和系统,包括:S1、采用变分自编码器将单细胞转录组数据编码为高斯分布隐变量;S2、对高斯分布隐变量进行谱聚类,得到单细胞粗粒度聚类结果;S3、基于类簇内损失与类簇间损失对单细胞粗粒度聚类结果进行优化,直至类簇内损失及类簇间损失最小化,得到包含罕见细胞类型的单细胞聚类结果。本发明能克服之前针对单细胞聚类与识别问题未对罕见细胞类型进行优化,导致罕见细胞类型错分或难以识别的不足。
1.一种基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,包括: S1、采用变分自编码器将单细胞转录组数据编码为高斯分布隐变量; S2、对高斯分布隐变量进行谱聚类,得到单细胞粗粒度聚类结果; S3、基于类簇内损失与类簇间损失对单细胞粗粒度聚类结果进行优化,直至类簇内损失及类簇间损失最小,得到包含罕见细胞类型的单细胞聚类结果。 2.根据权利要求1所述的基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,S1具体为:变分自编码器通过贝叶斯神经网络推断模型参数w的后验分布p(w|X,Y); 采用mc-dropout最小化变分分布qθ(w)和后验分布p(w|X,Y)之间的Kulback-Leibler散度,得到高斯分布隐变量。 3.根据权利要求2所述的基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,后验分布p(w|X,Y)的计算公式如式(1): 其中,p(Y|X,w)为给定模型参数w时生成单细胞转录组数据X的概率,p(w)为模型参数w的分布,p(Y|X)表示输出为Y的概率,Y为单细胞转录组数据X的估计。

在个体发育和疾病进展中起关键作用的细胞类型通常丰度较低,如循环内皮细胞、内皮祖细胞、抗原特异性T细胞、癌症干细胞或循环肿瘤细胞等。这些罕见细胞类型在确定疾病发病机制、介导免疫应答,以及多种疾病的血管生成等方面发挥着重要作用。准确识别和分析罕见细胞类型,是理解疾病进程和生物发育机制的关键,对于深入理解正常和疾病状态下的组织生物学具有非常重要的意义。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

本发明利用变分自编码器生成模型实现细胞表征,并通过模型反向传播对细胞表征进行优化,结合分治策略对细胞聚类进行微调,实现罕见细胞类型的识别,解决了传统单细胞聚类算法下对于细胞数量较少的罕见细胞类型无法识别的问题。本发明为提升生物医学领域在单细胞数据分析任务中的便捷性、准确性、可靠性、生物可解释性提供保障。

技术合作

基于类簇内损失与类簇间损失对单细胞粗粒度聚类结果进行优化,直至类簇内损失及类簇间损失最小化,得到包含罕见细胞类型的单细胞聚类结果。