作者:禅与计算机程序设计艺术

1.简介

文本生成是自然语言处理领域中非常重要的问题之一。在不断地探索学习新知识和技能的同时,越来越多的人也需要通过自己创造或整合的手段,将自己的想法、观点和信息转化成语言形式的文字。这一任务可以归结为两个子任务,即文本生成(text generation)和自动摘时(automatic text summarization)。本文将对基于生成式预训练transformer (GPT-2) 的文本生成模型和自动摘要模型进行详细阐述。希望能够帮助读者理解生成模型与自动摘要模型的工作原理并运用于实际生产环境。

2.相关术语与定义

注意:本部分主要讨论关于自然语言处理(NLP)的一些基础性的术语和定义。

Tokenizer 和 WordpieceTokenizer

中文句子通常被切分为字词,而英文句子通常被切分为单词。为了使计算机可以更好地理解这些词汇,需要对句子中的每个词进行编码。最简单的方式就是将每个词映射到一个唯一的索引。比如"hello world"可以转换为[17, 33]。这里使用的索引并非固定的,它们依赖于不同语料库的特点。

BPE (byte pair encoding)

BPE 是一种用于无监督的数据集压缩的方法,它可以提升表示稀疏数据集的效率。其基本思路是把连续出现的字符序列替换成代表该序列的单独符号。常见的实践方式是先找出两个字符的最频繁组合,然后再拆分这两个字符。最终形成的一个词典就是一系列的符号。因此,BPE 可以看做是一个通用的 tokenizer。

文本生成与自动摘要:基于生成式预训练Transformer的实现与优化相关推荐

  1. Achuan读论文:用于远程监督关系抽取的微调预训练transformer语言模型

    Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction 用于远程 ...

  2. ACL 2022丨香港大学华为诺亚方舟新工作:生成式预训练语言模型的量化压缩

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,香港大学与华为诺亚方舟实验室在 ACL 2022 上联合发表了 ...

  3. 《预训练周刊》第25期:HyperCLOVA:数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...

    No.25 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...

  4. SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

    ©作者 | 社媒派SMP 来源 | 社媒派SMP 中国科学院深圳先进技术研究院自然语言处理团队(SIAT-NLP)联合阿里巴巴达摩院云小蜜智能对话团队提出了一篇针对于任务型对话预训练的工作SPACE, ...

  5. 手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)

    之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...

  6. GPT系列:生成式预训练与零样本学习

    GPT系列:生成式预训练与零样本学习 本文的主要参考是李沐老师关于 GPT 系列的解读:GPT,GPT-2,GPT-3 论文精读[论文精读]. 关于BERT和GPT Transformer/BERT/ ...

  7. BERT(预训练Transformer模型)

    目录 一.前言 二.随机遮挡,进行预测 三.两句话是否原文相邻 四.两者结合起来 五.总结 六.参考链接 一.前言 Bert在18年提出,19年发表,Bert的目的是为了预训练Transformer模 ...

  8. 基于Keras预训练词向量模型的文本分类方法

    本文语料仍然是上篇所用的搜狗新闻语料,采用中文预训练词向量模型对词进行向量表示.上篇文章将文本分词之后,采用了TF-IDF的特征提取方式对文本进行向量化表示,所产生的文本表示矩阵是一个稀疏矩阵,本篇采 ...

  9. 基于BERT预训练的中文命名实体识别TensorFlow实现

    BERT-BiLSMT-CRF-NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tun ...

最新文章

  1. linux c 屏幕触摸_交互式拼接屏应用互动触摸屏实现大屏幕拼接墙
  2. python pandas rename_使用Pandas重命名文件
  3. python开发要学哪些?
  4. 整了个程序员专用的红包封面,喜欢的来领咯!
  5. 全网最火爆的“人生重开模拟器”,快来!
  6. CSS 从入门到放弃系列:CSS的引入方式
  7. ubuntu定时执行python脚本方法及实例代码
  8. centos7启动root账户_新手小白使用vm安装Linux系统centos7虚拟机详细教程
  9. 1 使用WPE工具分析游戏网络封包
  10. gis怎么提取水系_arcgis水系提取流程(dem)
  11. python httpserver 支持ipv6
  12. android手机脱网分析,网络营销-13款手机浏览器分析(Android).pptx
  13. 视频mov如何转换成mp4?
  14. nic占用率很高 Linux,linux – 许多丢弃了我的NIC数据包
  15. 计算机界的“武林秘籍”——经典教材推荐
  16. 在线网校教育平台的开发,题库的搭建必不可少
  17. WIN7的小喇叭不见了怎么办?音量图标不见了?
  18. 计算机管理usb出现问号,USB设备全部都是问号,求助?
  19. Flink【优质】面试题摘录
  20. 经济危机会影响软件质量吗?

热门文章

  1. ddos压测平台php源码,phpwind论坛关闭在线列表
  2. shell 批量提取文本中字符
  3. android手机截屏、录屏脚本
  4. Chatito生成的json数据转化为rasa可以使用的yml文件
  5. Android studio异步数据加载ListView+Adapter+AsyncTask
  6. Logistic回归损失函数推导
  7. 漫画:一看就能学会的人工智能简史
  8. 微信小程序—人脸识别
  9. 谁说路由远程控制是智能路由的专属?TP-LINK也玩远程控制!
  10. 软件测试之架构与用例