In summary, word embeddings are a representation of the *semantics* of a word, efficiently encoding semantic information that might be relevant to the task at hand.

1. word embedding在干什么?
word embedding 主要解决怎么把词传递给计算机的问题。
把词的字母的ASCAII码做输入?
用one-hot编码输入?
都不行,不仅因为这样会把数据变得很大,更重要的是这样完全舍弃了词之间的联系。例如:数学家,物理学家,他们都是一种身份,而且通常做主语。
word embedding就是解决这个问题
“It is a technique to combat the sparsity of linguistic data, by connecting the dots between what we have seen and what we haven’t. This example of course relies on a fundamental linguistic assumption: that words appearing in similar contexts are related to each other semantically. This is called the distributional hypothesis.”
把词转换成一个个向量,并且这个向量要满足一定的条件:
相似的词对应的向量也要相似

2. word embedding怎么实现的?
以数学家和物理学家为例,他们有一定的相似性。比如我们看三条性质:可以跑,喜欢咖啡,主修物理。然后每个性质给一定的值,像下面的图:


他们在可以跑,喜欢咖啡,数值接近,但是主修物理差异大。
那如果我们定义两个词的相似度为:

这个值如果两个向量一样的话,值为1,如果相反,值为-1.

可是,除了这三条性质,我们还可以想到很多条其他性质来描述一个词,那这些性质到底赋值多少呢?
让人去给每个词每个性质打分是很难的。于是求助于深度学习。
我们用深度学习模型的权重来代替人的打分。
这个权重在深度学习模型训练的过程中会迭代更新。
“Central to the idea of deep learning is that the neural network learns representations of the features, rather than requiring the programmer to design them herself. So why not just let the word embeddings be parameters in our model, and then be updated during training? This is exactly what we will do. We will have some latent semantic attributes that the network can, in principle, learn. Note that the word embeddings will probably not be interpretable.”

https://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html#sphx-glr-beginner-nlp-word-embeddings-tutorial-py

【第一次参加kaggle比赛记录-Quora Insincere Questions Classification】- Word Embedding相关推荐

  1. 第一次参加kaggle比赛的一些收获与心得,记录一下

    #摘要 虽然陆陆续续接触过深度学习的一些相关知识,但是从来没有系统地学习和总结过.加上之前研究的领域是SLAM(实时建图和定位),没有很好的机会直接应用深度学习技术,实践深度学习的机会也比较少.近段时 ...

  2. R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification)

    R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification) Long Short Term 网络-- 一般就叫做 LSTM --是一 ...

  3. Quora Insincere Questions Classification 文本分类归纳

    文章目录 [1st place 解决方案](https://www.kaggle.com/c/quora-insincere-questions-classification/discussion/8 ...

  4. 第一次参加Kaggle拿银总结

    转载:http://scarletpan.github.io/summary-of-get-a-silver-medal-in-kaggle/ 在这篇博客开始之前,我必须感谢@Prof. Cai给我提 ...

  5. 参加kaggle比赛

    我参加Kaggle比赛的体会 转载于:https://www.cnblogs.com/think90/p/5813786.html

  6. 第一次参加DC比赛总结

    第一次参加DC比赛,选择一个不太难的"游戏玩家付费金额预测大赛"进行,虽说看了各种'top 1%'.'top 10%'.'top 5%'等文章,成绩依然还是不理想.总结原因发现还是 ...

  7. Kaggle比赛记录和总结

    Kaggle比赛 这个比赛我觉得是半年来收获最大的 过程 开始做这个比赛的时候,还有两个月的时间,花了一些时间看相关论文,当时看的是PVNet和CDPN,最后决定用CDPN试一下 CDPN CDPN的 ...

  8. Kaggle比赛记录(四)Instant Gratification

    这应该是找到工作前的最后一个kaggle比赛经历了,最终排名是45/1839,在前3%范围内.其实kaggle的比赛只要认真去做了,基本上拿个前10%不是什么难事.        选择了Instant ...

  9. kaggle比赛记录——ieee_fraud_detection问题

    文章目录 题目 简单尝试版 0. 所需python包 1. 数据 1.1 导入数据并显示 1.2 分析数据 2. 岭回归 2.1 学习曲线 2.2 岭回归模型 2.3 数据预处理:样本不平衡 2.4 ...

最新文章

  1. 监控平台zabbix高级配置
  2. 【AR】开始使用Vuforia开发iOS(2)
  3. QT的QTableWidget类的使用
  4. C语言创建指针需要给大小吗,如何用c语言创建一个指针(示例代码)
  5. 运行npm update等命令出错后如何分析问题根源
  6. 【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(中)
  7. Python os.mkdir() 和os.makedirs()方法➡创建目录
  8. java 错误页_《javaweb学习笔记2-jsp错误页设置》
  9. opencv和caffe编译后怎么添加路径
  10. VSCode改变字体颜色
  11. 手机qq下载文件地址
  12. 这是我经历过最惨的转正答辩了
  13. python 人民币兑美元汇率_人民币汇率转换(python人民币和美元转换)
  14. adb wifi远程连接手机
  15. Windows 下安装sql server 2016(附安装包资源)
  16. Foxmail上Gmail打不开登录不了邮箱最新解决方法
  17. x1c 语言设置,创新经典平衡点 ThinkPad X1Carbon评测
  18. 石家庄科技工程职业学院计算机系,石家庄科技工程职业学院学生社团
  19. html5制作坦克大战
  20. 一篇文章搞懂设计模式

热门文章

  1. matlab灰度图孔洞填充,OpenCV图像内轮廓填-孔洞填充
  2. 苏州大学应用技术学院计算机二级,苏州大学应用技术学院
  3. mysql prestatement_mysql无法插入,PreparedStatement ps=con.prepareStatement(sql)这句报错
  4. 网页修改linux命令行,linux中文本修改操作命令linux网页制作 -电脑资料
  5. ssm+jsp计算机毕业设计养老院管理系统g72ka(程序+lw+源码+远程部署)
  6. JVM之jdk自带的常用工具命令
  7. 工业ERP系统特点和优势有哪些?
  8. 油液在线监测——普洛帝颗粒计数器是您永远的朋友
  9. 解密由加密大师加密的文件
  10. Ansys Lumerical | CMOS - 光学仿真方法