您所在的位置: 成果库 多语种神经机器翻译关键技术研究与应用项目

多语种神经机器翻译关键技术研究与应用项目

成果类型:: 发明专利

发布时间: 2022-11-18 19:30:13

科技成果产业化落地方案
方案提交机构:“科创中国”人工智能专业科技服务团| 倪晶 | 2023-03-24 13:29:42
近几年,机器翻译技术取得了飞速的发展,新一代机器翻译技术神经机器翻译取代统计机器翻译成为主流的机器翻译技术,建立在神经网络基础上并依赖深度学习强大的表示学习能力,神经机器翻译生成的译文质量得到了显著提升。技术的快速发展极大推动了机器翻译的大规模产业应用,然而,具体应用场景的复杂性、多样性,神经机器翻译强数据性与小语种资源稀缺性矛盾,给神经机器带来了巨大挑战。 该项目围绕以上难题和挑战开展深入研究,致力于突破资源稀缺条件下、噪声条件下、国产自主可控条件下端到端多语种神经机器翻译瓶颈技术,构建以中文为核心的多语种神经机器翻译平台,实现国产自主可控的神经机器翻译软硬件核心技术,并在云端和智能终端多个场景开展技术验证与产业化应用。
1、高效快速的神经机器翻译建模与解码方法。(1)研究大容量的多语言神经机器翻译方法,探索提升模型容量的建模方法。 (2)研究单一模型的大规模多语言机器翻译,研究如何利用语言类型学突破多语言机器翻译瓶颈。(3)研究如何基于跨语言知识迁移提升低资源语种神经机器翻译能力。 2、低计算环境下的多语种机器翻译。该项目将在多种复杂的低计算环境下开展示范应用,低计算能力的智能终端及 CPU 计算环境给该项目的多语种机器翻译部署提出了重要的技术挑战。(1)搭建多语种机器翻译平台,研发包括自动化模型训练和质量评估系统、多语种机器翻译系统及云平台(含多个子系统),提供对外机器翻译能力。(2)研究支持国产芯片、操作系统、信创系统的多语种神经机器翻译软硬件。(3)研究复杂计算环境下的多语种机器翻译应用,构建典型的行业应用示范,包括智能硬件设备、行业软件系统,如企业会议同声翻译器、互联网多语种多媒体内容监测与分析平台等。

目前该项目的相关技术多次应用于重大事件和国家重要部门中,获得广泛好评。应用于北京冬奥会和冬残奥会,受到北京冬奥组委会高度评价:“通过先进的多语言机器翻译、计算机辅助翻译等新技术和业务模式联合驱动的方式提升口笔译服务的综合能力,让科技点亮冬奥语言服务,保障了赛时北京冬奥会的声音向全球顺畅传递,为实现‘沟通无障碍’的冬奥盛会贡献了力量”。研制的阿拉伯语-汉语神经机器翻译性能超过 Google 等在线机器翻译引擎, 以公开招标方式被某部队部署和使用,解决了该部门在阿拉伯语机器翻译方面的卡脖子问题,该部门指出“系统自部署应用以来,获得一线人员的广泛好评,显著提升了翻译效率”。

该项目团队共10人,其中,项目负责人程国艮,毕业于中国地质大学计算机专业,专注于机器翻译、知识图谱、自然语言处理与可视化分析技术结合的产品与解决方案的开发与应用。具有丰富的项目团队管理经验,曾带领60人团队参与机器翻译研发工作,同时参与多个国家级项目的申报与管理,期间担任过项目经理、项目总监、技术总监、技术副总裁等工作,在该项目的主要贡献包括:1)提出并实现了一种基于胶囊网络的神经机器翻译系统;2)提出并实现了一种基于同类词与同义词的机器翻译数据增强方法;3)提出并实现了一种机器翻译领域自适应方法;4)提出并实现了一种面向神经机器翻译的高效断句方法;5)作为骨干成员,参与规划了国产自主化多语种神经机器翻译系统的设计和研发工作;6)应用和推广了该项目的研究成果。

该项目研制的多语种机器翻译技术和产品现已获得多家单位应用,从2019年至2021年,该项目已实现实现相关软、硬件产品服务新增销售收入累计38477.63万,新增利润15176.56万元,新增税收1711.90万元,取得了良好的经济效益,主要客户为计算机/通信、软件/互联网、教育/培训、文化/传媒/出版、事业单位、MSG、金融/商业等垂直领域行业用户。2022年截至9月底,已达到5000万以上的销售收入。后续测算,2022年直接的经济效益预计可达1亿元以上。

1、支持国产自主化软硬件平台的机器翻译应用。为解决卡脖子问题,实现人工智能核心技术自主化,该项目一直致力于将研究的神经机器翻译核心技术应用及深度融合于国产自主化软硬件平台中。对神经机器翻译模型进行国产适配、模型推理模块重写、系统集成等,提出了基于国产异构融合计算硬件的高性能机器翻译技术,在飞腾FT2000+/S2500、鲲鹏920、昆仑K100/K200等国产自主CPU芯片和AI加速器上,以及银河麒麟V10、统信UOS等国产操作系统上,进行了成功应用,打破了美国商务部2018年机器翻译技术出口管制封锁,使得机器翻译关键技术实现自主化,不再受制于人。

2、云端大规模机器翻译应用。构建了大规模线上机器翻译引擎,实现了云端机器翻译的大规模应用,为全社会提供了免费的优质机器翻译服务,使大众更容易获取多语言信息。我司研制的云端机器翻译系统,支持50+语种,日均调用次数2亿+次,在多次国际机器翻译评测比赛中,如WMT、IWSLT等,获得多项第一名。

3、机器翻译智能硬件与终端应用。机器翻译服务不仅可以部署于云端,以在线方式提供自动翻译服务,而且可应用部署于智能硬件与终端,使用户以更便利的方式使用该服务。我司研制了多款创新型的面向机器翻译的智能硬件与终端,包括提供软硬件一体化机器翻译服务的企业级服务器Mercube、为会议提供多人实时同声传译服务的智能会议同传LanguageBox、智能翻译手持终端悦译pro等。其中LanguageBox获2019中国政府信息化产品技术创新奖。