基于大模型的新一代智能中文信息处理引擎
成果类型:: 发明专利
发布时间: 2022-10-10 13:11:23
作为国内大模型经验最丰富的团队,我们感到肩负的使命,深言科技也就此应运而生。我们希望打造中国首个基于大模型的工业级中文信息处理引擎。我们以自研的中文预训练大模型为核心,同时结合30多年积累的各项自然语言处理技术,构建全方位的文本信息处理能力,在此基础上提供完善的API和工具链,满足各项应用场景中的智能文本信息处理需求。
相对于传统AI模型来说,大模型的参数量更大;训练数据更海量,且无标注;在语言文字、多模态方面认知智能;泛化能力极强,0数据处理能力超过传统AI模型;通用性极强,一个模型几百个任务/场景;无论系统性还是综合性来讲技术壁垒极高;技术仍在快速发展。大模型的参数量是传统AI模型的数万倍,并且由海量数据做预训练,因而具有超强的信息处理能力和极高的通用性。这意味着AI技术范式和产业格局将被完全颠覆,基于大模型的信息处理引擎将作为基础设施支撑个人、商业、元宇宙等大量应用场景。
近年来,由于日益严重的信息爆炸和全面的数字化进程加速,文本处理的需求在迅猛增长。然而,人类大脑的信息处理能力已触达天花板,唯有人工智能才是解决之法。但现有的AI模型有诸多问题。首先,参数量不足导致信息处理能力有限,在相对简单的感知智能层面的图像识别等任务表现尚可,但对更难的认知智能层面的语言处理任务却无能为力;其次,现有AI模型能力单一,在每个场景、每个任务都需训练一个单独的模型,开发周期长、成本高、迭代速度慢。而预训练大模型的出现彻底解决了上述问题。大模型的参数量是传统AI模型的数万倍,并且由海量数据做预训练,因而具有超强的信息处理能力和极高的通用性。这意味着AI技术范式和产业格局将被完全颠覆,基于大模型的信息处理引擎将作为基础设施支撑个人、商业、元宇宙等大量应用场景。
岂凡超:创始人、CEO,清华大学电子系本科,工商管理第二学位(创新创业方向);新加坡国立大学/约翰霍普金斯大学海外经历;清华大学计算机系博士,发表顶级论文近30篇,申请发明专利14项论文引用量700+;李潇翔 COO:清华电子系本科、直博,工商管理第二学位(创新创业方向),“思源计划”成员,电子系团委书记,校学生会部长,葡萄酒协会会长 ,一二·九辅导员,校辩论赛冠军,2家技术创业公司实习经历。陈刚 CTO:清华计算机系本科、硕士,快手算法实习,围绕文本生成和机器翻译发表多篇论文,具有算法、工程全栈能力,THUMT主要成员,获全国机器翻译评测比赛第一,击败华为、DeepMind,技术在外交部落地。吕传承:清华计算机系本硕,悟道CPM-3大模型主要参与者,系算法协会主席。王治同:清华计算机系本科,辽宁省高考状元,系学生会主席。程志立:清华计算机系本硕,实现当前最好语义理解匹配算法。王凤玉:清华电子系本科、计算机系硕士,悟道CPM-3大模型主要参与者。
引擎中的核心是我们团队研发的世界首个多模式可控文本生成大模型CPM-3。我作为项目负责人带领团队历时8个多月攻关,在过去多年的大模型训练经验基础上传承并创新,CPM-3在数据处理、模型架构、预训练任务等各个模块都有世界级的重大技术突破。得益于其创新性和先进性,CPM-3在4类文本生成任务的6个评测数据集上均超过现有其他大模型,达到当前最好的中文文本生成效果。此后,我们快速完成了大模型多项技术能力验证。基于CPM-3的摘要生成能力,我们打造了首款中文文档摘要系统DeepSum,能够自动将长文分段并逐段生成摘要,将阅读速度提高至少三倍。
资金需求:2000~3000万人民币或等值美金融资用途:研发60%、运营20%、市场/销售20%