近几年,机器翻译技术取得了飞速的发展,新一代机器翻译技术神经机器翻译取代统计机器翻译成为主流的机器翻译技术,建立在神经网络基础上并依赖深度学习强大的表示学习能力,神经机器翻译生成的译文质量得到了显著提升。技术的快速发展极大推动了机器翻译的大规模产业应用,然而,具体应用场景的复杂性、多样性,神经机器翻译强数据性与小语种资源稀缺性矛盾,给神经机器带来了巨大挑战。
该项目围绕以上难题和挑战开展深入研究,致力于突破资源稀缺条件下、噪声条件下、国产自主可控条件下端到端多语种神经机器翻译瓶颈技术,构建以中文为核心的多语种神经机器翻译平台,实现国产自主可控的神经机器翻译软硬件核心技术,并在云端和智能终端多个场景开展技术验证与产业化应用。
1、高效快速的神经机器翻译建模与解码方法。(1)研究大容量的多语言神经机器翻译方法,探索提升模型容量的建模方法。 (2)研究单一模型的大规模多语言机器翻译,研究如何利用语言类型学突破多语言机器翻译瓶颈。(3)研究如何基于跨语言知识迁移提升低资源语种神经机器翻译能力。
2、低计算环境下的多语种机器翻译。该项目将在多种复杂的低计算环境下开展示范应用,低计算能力的智能终端及 CPU 计算环境给该项目的多语种机器翻译部署提出了重要的技术挑战。(1)搭建多语种机器翻译平台,研发包括自动化模型训练和质量评估系统、多语种机器翻译系统及云平台(含多个子系统),提供对外机器翻译能力。(2)研究支持国产芯片、操作系统、信创系统的多语种神经机器翻译软硬件。(3)研究复杂计算环境下的多语种机器翻译应用,构建典型的行业应用示范,包括智能硬件设备、行业软件系统,如企业会议同声翻译器、互联网多语种多媒体内容监测与分析平台等。
该项目团队共10人,其中,项目负责人程国艮,毕业于中国地质大学计算机专业,专注于机器翻译、知识图谱、自然语言处理与可视化分析技术结合的产品与解决方案的开发与应用。具有丰富的项目团队管理经验,曾带领60人团队参与机器翻译研发工作,同时参与多个国家级项目的申报与管理,期间担任过项目经理、项目总监、技术总监、技术副总裁等工作,在该项目的主要贡献包括:1)提出并实现了一种基于胶囊网络的神经机器翻译系统;2)提出并实现了一种基于同类词与同义词的机器翻译数据增强方法;3)提出并实现了一种机器翻译领域自适应方法;4)提出并实现了一种面向神经机器翻译的高效断句方法;5)作为骨干成员,参与规划了国产自主化多语种神经机器翻译系统的设计和研发工作;6)应用和推广了该项目的研究成果。
评价单位:- (-)
评价时间:2023-05-04
综合评价
本技术能实现很好的社会效益, 建议推广。
查看更多>