Sentence-Level Machine Translation Quality Estimation Based on Neural Network Features
-
摘要: 机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT’15和WMT’16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果.
-
关键词:
- 机器翻译质量估计 /
- 句子级别 /
- 词向量 /
- 递归神经网络语言模型 /
- 支持向量回归
Abstract: Machine translation quality estimation is an important task in natural language processing. Unlike the traditional automatic evaluation of machine translation, the quality estimation evaluates the quality of machine translation without human reference. Nowadays, the feature extraction approaches of sentence-level quality estimation depend heavily on linguistic analysis, which leads to the lack of generalization ability and restricts the system performance of the subsequent support vector regression algorithm. In order to solve this problem, we extract sentence embedding features using context-based word prediction model and matrix decomposition model in deep learning, and enrich the features with recurrent neural network language model feature to further improve the correlation between the automatic quality estimation approach and human judgments. The experimental results on the datasets of WMT’15 and WMT’16 machine translation quality estimation subtasks show that the system performance of extracting the sentence embedding features by the context-based word prediction model is better than the traditional QuEst method and the approach that extracts sentence embedding features by the continuous space language model, which reveals that the proposed feature extraction approach can significantly improve the system performance of machine translation quality estimation without linguistic analysis. -
-
期刊类型引用(12)
1. 曹婉莹,曹旭栋,葛平原,张玉清. 中美网络安全漏洞披露与共享政策研究. 信息安全研究. 2023(06): 602-608 . 百度学术 2. 刘磊,许静,朱静雯,陈亮,李洁. 基于攻击反馈模型的SQL注入漏洞渗透测试方法. 计算机应用与软件. 2023(06): 323-329 . 百度学术 3. 刘果,杨丽丽,戚大强,陈晨,郭钰璐. 基于漏洞优先级技术的综合动态风险评估方案研究. 邮电设计技术. 2023(08): 57-61 . 百度学术 4. 周鹏,武延军,赵琛. 一种Linux安全漏洞修复补丁自动识别方法. 计算机研究与发展. 2022(01): 197-208 . 本站查看 5. 杨松涛,陈凯翔,王准,张超. 面向缓解机制评估的自动化信息泄露方法. 软件学报. 2022(06): 2082-2096 . 百度学术 6. 杨丽丽,刘果,李发财,戚大强,张彬,高贯银. 基于动态系统画像的漏洞风险遏制方案研究. 邮电设计技术. 2022(09): 19-23 . 百度学术 7. 张晓娟,曹靖怡,缪思薇,朱亚运,王海翔,应欢,周亮. 电力工控系统攻击渗透技术综述. 电力信息与通信技术. 2021(03): 49-59 . 百度学术 8. 贾培养,孙鸿宇,曹婉莹,伍高飞,王文杰. 开源软件漏洞库综述. 信息安全研究. 2021(06): 566-574 . 百度学术 9. 陈亮,李永刚,刘磊,许静,李洁. 基于特征的电力信息系统注入漏洞检测方法. 计算机工程与设计. 2021(08): 2115-2123 . 百度学术 10. 尹誉衡. 基于Fuzzing的网络协议漏洞挖掘技术研究. 微型电脑应用. 2021(09): 8-10+16 . 百度学术 11. 秦佳伟,张华,严寒冰,何能强,涂腾飞. 上下文感知的安卓应用程序漏洞检测研究. 通信学报. 2021(11): 13-27 . 百度学术 12. 王辉,张娟,赵雅,刘琨,冯文峰. 一种新型贝叶斯模型的网络风险评估方法. 小型微型计算机系统. 2020(09): 1898-1904 . 百度学术 其他类型引用(12)
计量
- 文章访问数: 1547
- HTML全文浏览量: 2
- PDF下载量: 632
- 被引次数: 24