多语种神经机器翻译关键技术研究与应用项目
成果类型:: 发明专利,软件著作权
发布时间: 2022-11-13 15:56:55
机器翻译技术具有重要的国家战略意义和研究价值。国务院2017年颁发的《新一代人工智能发展规划》将人工智能列入国家发展战略,与机器翻译相关的NLP技术是其中的八大共性关键技术之一;工信部新一代人工智能行动计划将机器翻译视为未来可取得突破的关键技术之一;美国商务部2018年将机器翻译等技术列为出口管制技术。从技术层面上看,近几年,机器翻译技术取得了飞速的发展,新一代机器翻译技术神经机器翻译取代统计机器翻译成为主流的机器翻译技术,建立在神经网络基础上并依赖深度学习强大的表示学习能力,神经机器翻译生成的译文质量得到了显著提升。技术的快速发展极大推动了机器翻译的大规模产业应用,然而,具体应用场景的复杂性、多样性,神经机器翻译强数据性与小语种资源稀缺性矛盾,给神经机器带来了巨大挑战。
1、支持国产化软硬件的机器翻译解码计算。现阶段神经机器翻译主要依赖 x86 架构的 CPU 搭配 NVIDIA 的 GPU 作为基础运算硬件,机器翻译作为人工智能领域上的一颗璀璨明珠,其在全国产环境下的运行意味着在这一领域我国的关键技术可以不再受到任何国家的技术封锁。本次论证测试的模型为英语到中文,翻译模型结构采用基于 Pytorch 的Transformer Big 框架。测试集 2000 句,平均句长为 25 词。2、基于国产异构融合计算硬件的高性能机器翻译技术。现阶段的国产化硬件性能相比国际知名的厂商仍有不小差距。为了进一步利用有限的计算资源,提升机器翻译运行速度,异构融合计算方案的研发尤为重要。经过研究,提出了一种支持国产不同计算软硬件(华为鲲鹏 920、飞腾 S2500、 百度昆仑 K100/K200 处理器等)的异构融合的高性能机器翻译技术框架,通过采用 模型压缩、异构融合计算、计算精度优化、运算函数库优化等技术,实现了在国产化 ARM 架构 CPU+国产化 AI 加速卡上机器翻译的异构融合计算,在全国产化环境下适配完成了 Transformer 模型的全部算子。
目前该项目的相关技术多次应用于重大事件和国家重要部门中,获得广泛好评。应用于北京冬奥会和冬残奥会,受到北京冬奥组委会高度评价:“通过先进的多语言机器翻译、计算机辅助翻译等新技术和业务模式联合驱动的方式提升口笔译服务的综合能力,让科技点亮冬奥语言服务,保障了赛时北京冬奥会的声音向全球顺畅传递,为实现‘沟通无障碍’的冬奥盛会贡献了力量”。研制的阿拉伯语-汉语神经机器翻译性能超过 Google 等在线机器翻译引擎, 以公开招标方式被某部队部署和使用,解决了该部门在阿拉伯语机器翻译方面的卡脖子问题,该部门指出“系统自部署应用以来,获得一线人员的广泛好评,显著提升了翻译效率”。
该项目团队共10人,其中,项目负责人程国艮,毕业于中国地质大学计算机专业,专注于机器翻译、知识图谱、自然语言处理与可视化分析技术结合的产品与解决方案的开发与应用。具有丰富的项目团队管理经验,曾带领60人团队参与机器翻译研发工作,同时参与多个国家级项目的申报与管理,期间担任过项目经理、项目总监、技术总监、技术副总裁等工作,在该项目的主要贡献包括:1)提出并实现了一种基于胶囊网络的神经机器翻译系统;2)提出并实现了一种基于同类词与同义词的机器翻译数据增强方法;3)提出并实现了一种机器翻译领域自适应方法;4)提出并实现了一种面向神经机器翻译的高效断句方法;5)作为骨干成员,参与规划了国产自主化多语种神经机器翻译系统的设计和研发工作;6)应用和推广了该项目的研究成果。
经济效益:我司该项目研制的多语种机器翻译技术和产品现已获得多家单位应用,从2019年至2021年,该项目已实现实现相关软、硬件产品服务新增销售收入累计38477.63万,新增利润15176.56万元,新增税收1711.90万元,取得了良好的经济效益,主要客户为计算机/通信、软件/互联网、教育/培训、文化/传媒/出版、事业单位、MSG、金融/商业等垂直领域行业用户。2022年截至9月底,已达到5000万以上的销售收入。后续测算,2022年直接的经济效益预计可达1亿元以上。
1、支持国产自主化软硬件平台的机器翻译应用。为解决卡脖子问题,实现人工智能核心技术自主化,该项目一直致力于将研究的神经机器翻译核心技术应用及深度融合于国产自主化软硬件平台中。对神经机器翻译模型进行国产适配、模型推理模块重写、系统集成等,提出了基于国产异构融合计算硬件的高性能机器翻译技术,在飞腾FT2000+/S2500、鲲鹏920、昆仑K100/K200等国产自主CPU芯片和AI加速器上,以及银河麒麟V10、统信UOS等国产操作系统上,进行了成功应用,打破了美国商务部2018年机器翻译技术出口管制封锁,使得机器翻译关键技术实现自主化,不再受制于人。 2、云端大规模机器翻译应用。构建了大规模线上机器翻译引擎,实现了云端机器翻译的大规模应用,为全社会提供了免费的优质机器翻译服务,使大众更容易获取多语言信息。我司研制的云端机器翻译系统,支持50+语种,日均调用次数2亿+次,在多次国际机器翻译评测比赛中,如WMT、IWSLT等,获得多项第一名。 3、机器翻译智能硬件与终端应用。机器翻译服务不仅可以部署于云端,以在线方式提供自动翻译服务,而且可应用部署于智能硬件与终端,使用户以更便利的方式使用该服务。我司研制了多款创新型的面向机器翻译的智能硬件与终端,包括提供软硬件一体化机器翻译服务的企业级服务器Mercube、为会议提供多人实时同声传译服务的智能会议同传LanguageBox、智能翻译手持终端悦译pro等。其中LanguageBox获2019中国政府信息化产品技术创新奖。