回译

自然语言处理过程经常面临缺乏数据,因此需要进行数据增强。其中,回译,即将中文翻译成外文,再翻译回中文的操作可以扩展数据集,是一种好办法。
这里直接提供工具包NLP工具包-回译数据增强,可以直接调用实现回译增强,而且返回的数据非常丰富。

⭐源码 => NLP工具包-回译数据增强

⭐戳这里 => NLP数据增强在线版

  1. 提供了多个大厂的公开免费翻译接口:包括百度、腾讯、谷歌、有道、讯飞 ,数据结果非常丰富;
  2. 你可以自己到各个大厂的 api 官方页面申请appid 和 密钥,拿到属于自己的翻译资源;
  3. 如果你可以获取到大厂的 多个 appid 和密钥,那么直接传参数进去吧,不必担心返回错误;
  4. 调用非常方便,你可以自行添加自定义的翻译接口,放进去做调用;
  5. 对各 API 的语言种类支持问题,均实现了世界主要语种的接口;
  6. 在运行速度上做了优化,只要网速好,3秒钟可以为一条文本扩展20条新数据(腾讯除外,腾讯api太慢了);

样例

这里有丰富的工具接口说明:回译数据增强

>>> import jionlp as jio
>>> xunfei_api = jio.XunfeiApi([{"appid": "5f5846b1","api_key": "52465bb3de9a258379e6909c4b1f2b4b","secret": "b21fdc62a7ed0e287f31cdc4bf4ab9a3"}])
>>> google_api = jio.GoogleApi()
>>> baidu_api = jio.BaiduApi([{'appid': '20200618000498778','secretKey': 'raHalLakgYitNuzGOoB2'},  # 错误的密钥{'appid': '20200618000498778','secretKey': 'raHalLakgYitNuzGOoBZ'}], gap_time=0.5)>>> apis = [baidu_api, google_api, xunfei_api]  # 可根据需要进行扩展>>> back_trans = jio.BackTranslation(mt_apis=apis)
>>> text = '饿了么凌晨发文将推出新功能,用户可选择是否愿意多等外卖员 5 分钟,你愿意多等这 5 分钟吗?'
>>> result = back_trans(text)
>>> print(result)# ['饿了么将在凌晨推出一项新功能。用户可以选择是否愿意额外等待外卖人员5分钟。您想多等5分钟吗?',
#  '《饿了么》将在凌晨推出一档新节目。用户可以选择是否愿意等待餐饮人员多花5分钟。您愿意再等五分钟吗?',
#  'Ele.me将在早晨的最初几个小时启动一个新的功能。用户可以选择是否准备好再等5分钟。你不想再等五分钟吗?',
#  'Eleme将在清晨推出新的功能。用户可以选择是否愿意再等5分钟工作人员。你想再等五分钟吗?']

NLP自然语言处理的文本数据增强——回译(内含python工具包)相关推荐

  1. Pytorch 文本数据分析方法(标签数量分布、句子长度分布、词频统计、关键词词云)、文本特征处理(n-gram特征、文本长度规范)、文本数据增强(回译数据增强法)

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 文本数据分析 学习目标: 了解文本数据分析的作用. 掌握常用的 ...

  2. NLP任务样本数据不均衡问题解决方案的总结和数据增强回译的实战展示

    目录 一.数据层面 1.欠采样(under-sampling) 2.过采样 二.算法层面 1.权重设置 2.新的损失函数--Focal Loss 三.评价方式 四.数据增强实战--回译(back tr ...

  3. 【NLP】文本数据分析文本特征处理文本数据增强

    一.文本数据分析 文本数据分析的作用: 文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择. 常用的几种文本数据分析方法: 标签数量分 ...

  4. 文本数据增强之回译数据增强

    文章目录 题目 回译数据增强法 回译数据增强优势 回译数据增强存在的问题 前言 单句翻译代码 运行结果1 数组翻译法代码 运行结果2 回译 回译结果 题目 ''' Description: 文本数据增 ...

  5. 2.文本预处理(分词,命名实体识别和词性标注,one-hot,word2vec,word embedding,文本数据分析,文本特征处理,文本数据增强)

    文章目录 1.1 认识文本预处理 文本预处理及其作用 文本预处理中包含的主要环节 文本处理的基本方法 文本张量表示方法 文本语料的数据分析 文本特征处理 数据增强方法 重要说明 1.2 文本处理的基本 ...

  6. nlp文本数据增强_如何使用Texthero为您的NLP项目准备基于文本的数据集

    nlp文本数据增强 Natural Language Processing (NLP) is one of the most important fields of study and researc ...

  7. 文本数据增强一(概述、中文、同义句生成、enhance、augment、text、nlp)

    文本数据增强(扩充增加.中文.同义句生成.enhance.augment.text.nlp) AugmentText 概述 - 相较于图像数据增强,文本数据增强,现在还是有很多问题的: - 往更严格的 ...

  8. 文本数据增强三(回译,不同语种间的翻译)

    一.中文文本数据增强 (中文文本.同义句生成.扩充,增加,enhance.augment.text.nlp.样本不均衡.语料不够.数据不足.扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱( ...

  9. 人机交互系统(3.1)——NLP文本数据增强方法

    一.数据增强的背景和应用场景 随着AI技术的逐步发展,更好的神经网络模型对数据规模的要求也逐步提升.而在分类任务中,若不同类别数据量相差很大,模型则会出现过拟合现象,严重影响预测的正确性. 从广义上来 ...

最新文章

  1. oracle 取日期 加天,oracle日期,获取年月日等函数、日期函数、时区
  2. 删除机器人 异星工厂_10个视频,它们是国内智能工厂的标杆
  3. 学习Knowledge Graph Embedding Based Question Answering代码笔记
  4. 如何把自己的网站部署在网上_Terminal:如何在IPFS上部署Wordpress网站
  5. 3-V2-类和对象 -- const内联 静态成员 友元
  6. 10种顶级javascript框架比较-The Top 10 Javascript MVC Frameworks
  7. mysql查询20-30的数据_20. mysql查询表的数据大小
  8. linux 审计工具auditd日志audit.log时间戳转换查看
  9. Spring-cloud Config Server 3种配置方式
  10. python程序员面试自我介绍_如何拿到面试公司一半Offer——我的Python求职之路
  11. opengl 如何加阴影_一步步学OpenGL(23) -《阴影贴图1》
  12. 病历管理系统设计与实现
  13. 产品 电信nb接口调用_NB-IoT 平台对接常见问题(中国电信)
  14. Manadata:用于数据管理的SPSS宏
  15. Windows鼠标右键添加cmd
  16. CSS Reset(样式重置)
  17. 用CSS制作大背景网站,以及80个大背景图片网站。
  18. 三年级下册计算机课程工作计划,三年级数学下册教学工作计划
  19. php获取实时汇率,php获取sinajs股票/汇率/期货实时价格
  20. 一天到晚只会抱怨的人必定是不成熟的人

热门文章

  1. 【C语言项目】大奖赛程序
  2. java求两点之间的斜率
  3. Android 简易的音乐播放器
  4. flutter - sort List排序
  5. vue实现将所表格选数据导出excel表格
  6. 09-zookeeper
  7. 服务器网线灯闪烁显示未插入,无线路由器的灯都在闪,但是始终显示WAN 未连接,网线没有插好...
  8. Electron-Electron应用发布流程
  9. C#计算圆的面积及半径
  10. PYNQ 开发板连接互联网