成果介绍
本发明提供一种基于分治策略的单细胞罕见细胞类型识别方法和系统,包括:S1、采用变分自编码器将单细胞转录组数据编码为高斯分布隐变量;S2、对高斯分布隐变量进行谱聚类,得到单细胞粗粒度聚类结果;S3、基于类簇内损失与类簇间损失对单细胞粗粒度聚类结果进行优化,直至类簇内损失及类簇间损失最小化,得到包含罕见细胞类型的单细胞聚类结果。本发明能克服之前针对单细胞聚类与识别问题未对罕见细胞类型进行优化,导致罕见细胞类型错分或难以识别的不足。
成果亮点
1.一种基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,包括:
S1、采用变分自编码器将单细胞转录组数据编码为高斯分布隐变量;
S2、对高斯分布隐变量进行谱聚类,得到单细胞粗粒度聚类结果;
S3、基于类簇内损失与类簇间损失对单细胞粗粒度聚类结果进行优化,直至类簇内损失及类簇间损失最小,得到包含罕见细胞类型的单细胞聚类结果。
2.根据权利要求1所述的基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,S1具体为:变分自编码器通过贝叶斯神经网络推断模型参数w的后验分布p(w|X,Y);
采用mc-dropout最小化变分分布qθ(w)和后验分布p(w|X,Y)之间的Kulback-Leibler散度,得到高斯分布隐变量。
3.根据权利要求2所述的基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,后验分布p(w|X,Y)的计算公式如式(1):
其中,p(Y|X,w)为给定模型参数w时生成单细胞转录组数据X的概率,p(w)为模型参数w的分布,p(Y|X)表示输出为Y的概率,Y为单细胞转录组数据X的估计。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案