word2vec最全资料整理

  • 词向量发展史
  • word2vec的两个分支
  • 理论支撑
  • 具体算法与过程
    • 负采样:
    • 层次Softmax
  • 代码支撑

词向量发展史

刚开始 词向量是将一个单词或者汉字用一个向量表示出来,一开始往往使用one-hot向量来表示,但是后来发现啊有以下的弊端:

  • 两个单词之间是正交的(这也就意味着任意两个单词内积都为0,无法计算相似度)
  • 如果有10000个汉字,那么每个汉字都需要10000维的向量来表示(这里面只有1个1,9999个0),极大的浪费了空间。

然后 出现了先计算共现矩阵,然后通过SVD降维得稠密矩阵。这种方法有一个优点,俩缺点:

  • 优点1 考虑了全文的信息,非局部信息

  • 缺点1:来了新样本,必须重新计算,不能从原有的基础上进行计算。

  • 缺点2:SVD计算复杂度高,所以这种方式不能处理大规模的语料库

后来 word2vec出现了,word2vec可以说是NLP发展的重要里程碑,他用简单的思想把词向量表达出来,(虽然一开始的目的不是中间过程的词向量,但后来往往用word2vec来获取词向量),对NLP的意义不亚于CV领域的AlexNet。
word2vec是以滑动窗口的方式,扫描一遍全部的语料库,再扫描的时候分为一个中心词,2m个周围词,m为窗口大小。最大化似然函数的方式来获取词向量。
再后来 Globvec。。

word2vec的两个分支

  1. CBOW: 用周围词去预测中心词。

  2. Skip Gram:用中心词去预测周围词。

    显然,ship-gram的方式同一段文字,有更多的计算最大化似然的次数,

例如:我今天没吃饭
cbow(window=1):P(我|今)、P(今|我,天)、P(天|今,没)、P(没|天,吃)、P(吃|没,饭)、P(饭|吃) 一共计算了len(sentence)次
skip-gram(window=1)

word2vec最全理论和代码相关推荐

  1. 降维算法总结(超全!附代码)

    降维算法总结(超全!附代码) 一.为什么要进行数据降维? 二.数据降维原理 三.主成分分析(PCA)降维算 PCA代码实现 四.其他降维算法及代码地址 效果总览及代码地址 KPCA(kernel PC ...

  2. 【深度学习】pix2pix GAN理论及代码实现与理解

    灵感:最近也是在看关于GAN方面的代码,也是看到了很多篇博客,都写的挺好的,让我醍醐灌顶,理解了GAN的原理以及代码实现.所以写一下来记载一下,最后有其他好文章的链接. 灵感来源:pix2pixGAN ...

  3. dev c++代码自动补全_让代码自动补全的全套流程

    作者: 熊唯,黄飞 ,腾讯 PCG/QQ研发中心/CV应用研究组 AI 如果真的可以写代码了,程序员将何去何从?近几年,NLP 领域的生成式任务有明显的提升,那通过 AI 我们可以让代码自动完成后续补 ...

  4. [转载] --- Fastjson1.2.68版及以下全版本远程代码执行漏洞通告

    再这样,真的要放弃fastjson了 [安全通告]Fastjson <=1.2.68全版本远程代码执行漏洞通告 尊敬的腾讯云用户,您好! 近日,腾讯云安全运营中心监测到,Fastjson < ...

  5. android全屏保存壁纸,android设置全屏壁纸代码

    设置全屏壁纸代码: WallpaperManager instance = WallpaperManager.getInstance(mContext); WindowManager wm = (Wi ...

  6. VINS理论与代码详解2——单目视觉跟踪

    VINS理论与代码详解2--单目视觉跟踪 一.Feature_tracker文件夹中 首先讲第一部分,也就是纯粹的图像处理部分内容,在论文中的第IV点观测值预处理的A部分视觉前端处理,为了更好的理解代 ...

  7. 30款后台源码。是我见过最全的后台代码。。

    30款后台源码.是我见过最全的后台代码.. 如图:(由于太多只发出几个图片..请见谅) 这个是126邮箱样子的后台! 163样子的后台 等等还有好多...图片就不发出来了.... 下载地址1:http ...

  8. 路径规划 --- A*,DWA,D* 理论与代码

    路径规划 --- A*,DWA,D* 理论与代码 注 1. A* 2. DWA 3. D* 注 A* 通过损失函数 D的第一次计算和A一样,区别在于:地图障碍物或机器人位置改变后,能利用A计算后的信息 ...

  9. 阿里外贸国际站全屏视频代码视频怎么装修教程

    阿里外贸国际站全屏视频代码视频怎么装修教程 阿里国际站英文站平台阿里巴巴国际站外贸装修店铺视频模块代码怎么做代码视频代码工具装修拼接方法 装修工具:一秒美工助手工具

最新文章

  1. 程序猿面试什么最重要?
  2. 远程Gitlab新建的分支在IDEA里不显示
  3. 学习笔记Flink(七)—— Flink Kafka插件
  4. Android textview字体颜色显示和图片显示
  5. 多多自走棋改动_多多自走棋腾讯版
  6. java mongodb drivers 2升级到3_JAVA从头开始一基础梳理(3-2)
  7. P3343-[ZJOI2015]地震后的幻想乡【dp,数学期望】
  8. jQuery ZeroClipboard中Flash定位不准确的解决方案
  9. 学习笔记之什么是持久化和对象关系映射ORM技术
  10. 【axure手机原型】iOS应用设计要点总结
  11. 计算机桌面工具栏,好用的4D桌面工具栏必备,整洁的桌面小众软件
  12. win10+ubuntu配置双系统
  13. Matlab入门教程 | 001 球的体积问题
  14. 3.0_Linux如何连接网络
  15. 微信小程序 table表格 PC版本
  16. 1040 有几个PAT (25 分)
  17. GPS授时服务器(NTP授时)为银行系统提供时间服务
  18. 互联网产品设计进阶(14)多一点设计,少一点代码
  19. 如何选择和阅读研究文献
  20. 【黑苹果】宏基Acer Swift 3(SF315-51-518S)+i5-8250U+macos 10.15 efi文件下载!

热门文章

  1. 续流二极管的作用是什么?
  2. 【机器学习项目实战】数据相关岗位薪资水平影响因素研究分析
  3. Flutter常用插件和对.yaml讲解
  4. SWUST OJ#942 逆置顺序表
  5. 关于“新婚姻法”的想法
  6. 尚品汇项目笔记(持续更新中)
  7. CVPR2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决
  8. css项目符号编号,CSS重新定义项目符号和编号_css
  9. 什么是softmax回归?
  10. 盘点当前各大品牌手机优缺点,哪一款值得你入手