之前在进行机器翻译时,一般除了与句子长度做了长度限制外,几乎没有做任何额外的操作,直接暴力的使用BPE算法对语料进行预处理。接触的都是BPE子词级别的,我们都知道,bpe算法的强大性,30000个子词几乎可以表示词典中所有的单词。但是如果我们要用词级别的翻译,那词典太大了,在机器翻译中词典受限的情况下,很多词就会变为未登录词。为了让词典尽可能的能囊括更多的单词,必须对双语语料进行预处理操作。

关于预处理

分词(tokenization)、数据清理(data clearn)、小写化处理(lowercase)均是常规的预处理步骤。

相比之下,中文的预处理对我来说好做很多,除了分词,好像可做的就不多了,相比之下,英文的预处理就变得繁琐了很多,比如在bpe的子词词典中,我们可以看到American's 和american's同时存在于词典,并且英文的标点符号和单词之间是没空格分隔的,所以如果直接对英文按照空格进行分词,cat和cat.就可能占据词典中两个词的位置,这些都是不合理的,会浪费我们词典的位置。所以对英文的处理是及其有必要的。

mosesdecoder作为统计机器翻译工具,其中有一套很程序的预处理方法。

项目地址:

https://github.com/moses-smt/mosesdecoder

下面是我用mosesdecoder对中英文语料进行预处理的过程,(为什么中文已经分词了,还要进行预处理?----因为中文语料中也有一些英文,数字等等的词,我觉得也有必要一起处理一下)

利用mosesdecoder对机器翻译的双语语料进行处理(中文其实也可以进行处理,因为中文中夹杂着英文)

step1:对标点符号进行规范化 normalize

perl ./mosesdecoder/scripts/tokenizer/normalize-punctuation.perl -l en < ./corpus/corpus.en >./corpus/corpus.norm.en

perl ./mosesdecoder/scripts/tokenizer/normalize-punctuation.perl -l zh < ./corpus/corpus.zh >./corpus/corpus.norm.zh

step2:分词  tokenizer

perl ./mosesdecoder/scripts/tokenizer/tokenizer.perl -a -l en < ./corpus/corpus.norm.en > ./corpus/corpus.norm.tok.en

perl ./mosesdecoder/scripts/tokenizer/tokenizer.perl -a -l zh < ./corpus/corpus.norm.zh > ./corpus/corpus.norm.tok.zh

step3: clean

长句和空语句可引起训练过程中的问题,因此将其删除,同时删除显不对齐句子删除。--将句子长度控制到60

perl ./mosesdecoder/scripts/training/clean-corpus-n.perl ./corpus/corpus.norm.tok en zh ./corpus/corpus.norm.tok.clean 1 60

这样会同时将双语语料进行操作,生成两个处理后的文件train.norm.tok.clean.en和train.norm.tok.clean.zh。

Input sentences: 15886041  Output sentences:  13902844

控制完长度的双语语句13902844

step4:truecasing

初始每句话的字和词组都被转换为没有格式的形式(例如统一为小写)。这有助于减少数据稀疏性问题。

需要训练一个truecase模型。注意:只能使用训练集训练truecase模型。

英文:

perl ./mosesdecoder/scripts/recaser/train-truecaser.perl -corpus ./corpus/corpus.norm.tok.clean.en -model ./corpus/truecase-model.en

中文:

perl ./mosesdecoder/scripts/recaser/train-truecaser.perl -corpus ./corpus/corpus.norm.tok.clean.zh -model ./corpus/truecase-model.zh

应用:

英文:

perl ./mosesdecoder/scripts/recaser/truecase.perl -model ./corpus/truecase-model.en <./corpus/corpus.norm.tok.clean.en > ./corpus/corpus.norm.tok.clean.tc.en

中文:

perl ./mosesdecoder/scripts/recaser/truecase.perl -model ./corpus/truecase-model.zh <./corpus/corpus.norm.tok.clean.zh > ./corpus/corpus.norm.tok.clean.tc.zh

处理后的语料中@-@ 是对原本语料中-的替代

同样,用上述相同的方法对训练集和测试集进行处理。

使用mosesdecoder对机器翻译语料进行处理相关推荐

  1. moses(mosesdecoder)数据预处理BPE分词moses用法总结

    mosesdecoder&BPE数据预处理 moses数据预处理 BPE分词 moses用法总结 moses数据预处理 源码链接: https://github.com/moses-smt/m ...

  2. 手把手教你用fairseq训练一个NMT机器翻译系统

    以构建英-中NMT为例,在linux上运行,fairseq版本为0.8.0 环境准备 Requirements: fairseq:pytorch包,包括许多网络结构,https://github.co ...

  3. 阿里巴巴机器翻译在跨境电商场景下的应用和实践

    摘要: 本文将与大家分享机器翻译相关背景知识,再深入介绍机器翻译在阿里生态中的具体应用实践,介绍基于机器翻译技术搭建的一套完善的电商多语言解决方案,最后将会从技术角度介绍阿里机器翻译在解决实际业务问题 ...

  4. BERT相关论文、文章和代码资源汇总

    转自:http://www.52nlp.cn/tag/transformer BERT相关论文.文章和代码资源汇总 4条回复 BERT最近太火,蹭个热点,整理一下相关的资源,包括Paper, 代码和文 ...

  5. 使用fairseq从头开始训练一个中英神经机器翻译模型

    前言 本文在news-commentary-v15语料上训练了中英NMT模型,并将整个流程,包括工具和数据的准备.数据的预处理.训练及解码,以及中途遇到的问题和解决方案记录在此,希望能够给予别人一些帮 ...

  6. EMNLP 2019 | 大规模利用单语数据提升神经机器翻译

    BDTC大会官网:https://t.csdnimg.cn/q4TY 作者 | 吴郦军.夏应策 来源 | 微软研究院AI头条(ID:MSRAsia) 编者按:目前,目标语言端的无标注单语数据已被广泛应 ...

  7. NLP机器翻译深度学习实战课程基础 | 深度应用

    作者 | 小宋是呢 来源 | CSDN博客 0.前言 深度学习用的有一年多了,最近开始 NLP 自然处理方面的研发.刚好趁着这个机会写一系列 NLP 机器翻译深度学习实战课程. 本系列课程将从原理讲解 ...

  8. Transformer新型神经网络在机器翻译中的应用 | 公开课笔记

    嘉宾 | 于恒 来源 | AI科技大本营在线公开课 编辑 | Jane 于恒:直播间的朋友大家好!欢迎大家来到本次AI科技大本营公开课,我是本次讲师于恒. 在讲课开始之前先简短的做个自我介绍,我是博士 ...

  9. 中国机器翻译的世纪回顾

    2019独角兽企业重金招聘Python工程师标准>>> 在世界范围内,机器翻译的研究与开发已经走过了50年的历史.我国机器翻译的研究开始于1956年.1959年,中国的机器翻译研究者 ...

最新文章

  1. 转--发布js支持Firefox的加入收藏代码
  2. 机器学习笔记(十)降维和度量学习
  3. 编写边界条件测试用例原则
  4. 惠普服务器显示灯闪红灯,惠普打印机指示灯闪烁什么意思? 惠普2130打印机故障灯大全图解...
  5. Java命令行界面(第30部分):观察
  6. iOS中确认网络的方法
  7. 总结div里面水平垂直居中的实现方法
  8. 以太坊概念知识入门篇
  9. js Google 翻译 Api
  10. web第三课html课堂笔记
  11. python 英语词频统计_Python实现统计英文文章词频的方法分析
  12. Bumping制程简介
  13. visio的图在word中空白处太大的问题
  14. java解析导入excel表格转为实体类javabean
  15. 赛门铁克SSL证书chrome不支持解决方法
  16. 【调剂】南华大学2021硕士研究生招生调剂公告
  17. java 安全警告_java忽略安全警告注解@SuppressWarnings
  18. 影响PCB电路板价格因素?pcb线路板价格一般是多少?
  19. Three.js加载.stl格式模型
  20. 《经济学通识》七、医患关系,毒奶和产品质量

热门文章

  1. 设计模式 - 结构型设计模式小结
  2. 前端开发的工作职责精选【10篇】(合集)
  3. centos安装pcl
  4. 接收base64编码解码,并保存图片
  5. [已解决]Macbook/MacMini M1/M2版读写NTFS格式磁盘软件
  6. 傅里叶周期分析软件专业版
  7. 找出最大K个数,TopK问题
  8. 一起Talk Android吧(第四百二十回:贝塞尔曲线)
  9. 厨房电器和汽车的无线充电市场展望:2023-2028年产业规模和增速可观
  10. JZOJ 5495 MiniumCut (最小割树)