杰哥不要-BERT-WMM-全词遮罩填充

  • 完整代码
  • 前言
  • 参考
  • 数据收集
  • 数据清洗
  • 特征工程
  • 建模及预测
  • 保存文本
  • 结论

完整代码

杰哥不要_BERT_WMM_遮罩填充.ipynb

前言

最近在B站杰哥区看了几百集平行宇宙剧本,也看过114514次翻译和AI续写的版本。忽然,萌生了一个想法:如果把200多句对白部分的字词遮罩,让AI去填写会有什么效果呢?我很好奇,因此本代码主要以全词遮罩的中文预训练模型BERT-wwm去探索"杰哥不要"的可能性

参考

HuggingFace Transformer API

中文BERT-wwm

杰哥不要啦完整台词整理

BERT模型 vs 王思聪!看一看谁的土味情话更加肉麻?

数据收集

这里感谢up主碳酸镁儿的整理,这里主要是关键对白,本人在这尽量作补充和修正,日后有我可能尝试python从影片抽取字幕的项目

数据清洗

特征工程

遮蔽的效果是随机,目前模型只允许文本有一个[MASK],有两种方案:

  1. 按标点符号分句,随机进行文本遮罩
  2. 每个人发言,一整段包括标点符号随机[MASK]

尽管BERT-WMM模型能够预测标点符号,但为了效果,还是使用方案一

建模及预测



具体按预测分数,分别生成三篇填充字词概率最高的3篇文章,具体文本请看github。

人工对比过原文和三篇生成文章,发现以下三个特点:

  1. 如果遮罩字词没有前后的字词,如:"[MASK],",最高概率文本填充为"?“和”…"

  2. 不能预测日常称呼,如:“杰[MASK],”,最高概率文本填充为"。",理论填充是"哥"/“弟”/“姐”

  3. 目前按标点分句的结果不理想,可能是因为短句太难推理出全文,如: ‘一个人住,我的房子还蛮大的’->‘ 一 个 人 住,我 的 肚 子 还 蛮 大 的’

总而言之,如果想要胡说八道,直接取最小概率的预测字词做文本遮罩填充便可。相反,倘若追求上文下理的文笔通顺,目前全文生成比字词遮罩预测更有效。

保存文本

结论

使用第三高分数作填充字词还是挺鬼畜,例如:’'阿 杰 : 好 想 懂,我 房 里 有 一 些 尼 康 的’和 '( 我 输 球 啊,快 点 放 假 )'等,有兴趣的小伙伴们可以用来创作。

预训练模型是有极限的,并没有突破碳基生物的思维框架,如果有非碳基生物的文本作训练,或者在鬼畜区能带来意想不到的可能性。

杰哥不要-BERT-WMM-全词遮罩填充相关推荐

  1. 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...

    作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...

  2. VIM命令快速记忆(转自杰哥)

    因为自己也是个linuxer 熟练运用VIM是必须的,恰好学长杰哥对此有研究, 转来给大家分享.对此表达对杰哥的敬意. 有好东西分享给大家才能相互学习是吧. 要做个Linuxer,VIM的操作是必须就 ...

  3. CSS实现 全屏 遮罩

    为什么80%的码农都做不了架构师?>>>    现在全屏的半透明遮罩层在web2.0网站应用非常广泛了,绝大多数遮罩是通过计算页面大小,然后覆盖一个与页面同等大小的层实现,如腾讯qz ...

  4. 【解题报告】Leecode 748. 最短补全词——Leecode每日一题系列

    题目链接:https://leetcode-cn.com/problems/shortest-completing-word/ 题解汇总:https://leetcode-cn.com/problem ...

  5. jQuery10种不同动画效果的响应式全屏遮罩层

    遮罩层有很多今天介绍这个jQuery10种不同动画效果的响应式全屏遮罩层 效果预览 下载地址 实例代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 ...

  6. leetCode最短补全词

    leetCode最短补全词 题目要求如下: 给你一个字符串 licensePlate 和一个字符串数组 words ,请你找出并返回 words 中的 最短补全词 . 补全词 是一个包含 licens ...

  7. html div全屏遮罩层,div遮罩层_Jquery全屏遮罩层DIV的实现代码

    摘要 腾兴网为您分享:Jquery全屏遮罩层DIV的实现代码,弈客围棋,壹学车,万科物业,万达普惠等软件知识,以及淘优优,天天爱学习,qq炫舞脚本,常熟农商银行网站,英文打字软件,抢工长,陌陌app, ...

  8. 彬彬偷偷告诉了平行世界的其他杰哥们这个世界里的杰哥已经得到了阿伟,于是他们也来到了这个世界想要教阿伟登Dua郎,现在他们“成群杰队”地赶来了!

    伟大的圣嘉然为了帮助阿伟逃跑,在杰哥们的前进路线上放了一个陷阱,杰哥们会依次掉进去. 现在有n个杰哥从A方向前来,按掉入陷阱的顺序编号为1-n.现在给出一串数,你的任务是判断他们全部走出来后的编号有没 ...

  9. vim查找字符串-全词匹配、不区分大小写

    vim中查找字符串的时候一般有3中需求: 普通查找 命令模式下,按'/'或'?',然后输入要查找的字符,Enter. /和?的区别是,一个向前(下)找,一个向后(上). 全词匹配 如果你输入 &quo ...

最新文章

  1. java servlet 返回图片_SpringMVC返回图片的几种方式
  2. 总结了200道经典的机器学习面试题 (附参考答案)
  3. MySQL5.7.9安装与配置优化
  4. spark 提交至yarn异常超时 Client cannot authenticate via:[TOKEN, KERBEROS]
  5. chrome下载地址
  6. @value 静态变量_C/C++语言中的变量的4种存储类型
  7. a:link a:visited a:hover a:active四种伪类选择器的区别
  8. Codeforces 319C DP 斜率优化
  9. Python 基础——range() 与 np.arange()
  10. 引用的本质是const指针
  11. mysql数据库文件结构同步,[数据库的表同步mysql]MySQL表结构同步
  12. c语言程序设计现代方法算法pdf,c语言程序设计(排序算法).pdf
  13. 医院常用系统简称说明(HIS 、LIS、PACS等)
  14. 红米note3android驱动,红米Note3手机驱动
  15. 用户画像第一章(企业级360°全方位用户画像_环境搭建)
  16. 等等,那头猪还不想被吃!这个系统能读懂猪的6种情绪,读图3780张,成功率85%
  17. CAD新建、保存图形文件
  18. windows10电脑在哪配置DNS
  19. 【转】HttpClient之 addHeader与setHeader
  20. 物理光学2 麦克斯韦方程组与电磁波

热门文章

  1. html中fieldset改颜色,HTML fieldset 标签的具体用法是什么?怎么用fieldset设置边框颜色?...
  2. 数据链路层 —— 流量控制的基本概念
  3. PIC单片机内部寄存器信息汇总
  4. 多线程常见面试题目 - 写给HHM
  5. 大一计算机考试上机题11套,计算机等级考试一级上机Word题十
  6. 【670. 最大交换】
  7. 国产电容式触控IC的工作原理及应用
  8. 微信小程序压缩wxml
  9. 量子计算 7 超密编码与量子遥传
  10. 使用CubeMx设置延时us与串口通信配置