生物组学大数据异构智能分析
成果类型:: 发明专利
发布时间: 2022-10-20 10:10:37
首先是应用形态的变化,组学数据可以实现“当场即时分析”,将原来数日至数周的分析压缩到几小时到几分钟内完成,并且摆脱了对大型计算设备的依赖,可以在数据产生处直接解读生物信息。组学分析将成为包括临床POCT等各类需要生物体高分辨率整体信息应用的基本工具。更重要的是,随着分析规模的上升,人类可以发现并利用更多的生物学规律。目前分析条件下的“大数据”样本量约在万个/人的水平,以目前世界上最大的癌症数据库TCGA为例,收录了超过一万名患者的数据。当数据分析能力提升后,宏观的人群级别组学大数据可以达到十万-百万人群,能更全面的理解人群的组学图景;微观的个体级别,可以对多组织进行十万-百万的单细胞精确解析,能刻画更精准的个人组学特征。这些信息将为新药研发,疾病诊疗等诸多领域提供重要的信息指引。
我们团队早期作为专业用户,发现市场无法满足我们所迫切需要的组学大数据的快速精确解析系统,于2016年致力于自主研发组学大数据分析方法。我们拥有组学大数据从产生到应用的全流程经验,我们组建的跨学科团队可以结合组学大数据的生物学特征建立面向异构计算体系的专用方法,充分挖掘先进计算架构的有效算力。我们目前的成果领先于已知的主流处理方法,包括数家国际巨头的商业产品。借此机会谋求产业转化。在面向医疗用户时,我们还需要取得相应的资质和许可。
李博士团队长期致力于为组学大数据的通用数据分析提供高性能的计算基础设施和有效算力,团队利用超高技术杠杆撬动组学大数据的高效利用。是全球首个自主研发组学大数据异构计算架构分析系统的团队,利用团队研发的系统在确保准确的前提下实现了超过两个数量级的分析加速,且成本大幅下降。
目前,组学数据的分析方法以美国发布的GATK为事实上的行业标准,得到了FDA,NIST等美国官方机构的认可。主流云服务厂商大都能提供GATK流程云计算方案,市场上也有专门的基于CPU的软件加速方法以及利用GPU或FPGA的软硬件一体异构加速方案。这些方案的提供商都受制于技术门槛,只是将GATK的标准移植到不同场景,保留甚至放大了GATK的缺陷,也无法充分利用先进计算架构的潜在性能,且成本收费较高。企业或科研院所往往需要每年花费数十万元维持相关许可,数据分析的瓶颈已经限制了有效数据产生。
此外,现有基于GATK的各类方法只能分析基因组数据(静态的基因差异信息),无法处理具有更丰富信息和应用前景的其他多组学数据,例如RNA-seq产生的转录组数据(可用于高通量筛选优化,TCR细胞疗法等)。由于我们完全自主研发了底层分析系统,具有极高的拓展性,我们的系统将能同时高效处理各类组学数据,并且确保结果准确。在硬件设备上,原来海外芯片厂商存在垄断优势,在国家芯片产业自主可控的需求号召下,市场上出现了若干具有成本优势的国产计算加速卡,为我们发展异构计算系统提供了良好的硬件保证和供应链基础,也为未来设计面向生物数据计算的专用计算芯片打下基础。和竞争对手相比,我们的系统成本更低,速度更快,结果更准,且更为易用,未来具有极大的拓展性。前期以专业机销售,软件付费和专业服务为主,后期逐步转向建立组学大数据专业生态,利用操作系统,开发接口,应用授权,技术咨询和认证,大规模组学数据库或在线分析平台的数据流通管理,平台运营等方式获得收益,并且在条件许可的情况下开展一些自营的生命科学应用产品。
技术合作