文本中所蕴含信息的层次
1.词条是否在文本中出现——>各种基于词袋的模型
例:大鱼/吃/小雨/和/虾米/。
2.词条的各种内在关联——>各种字典
上位词:猫——>动物/哺乳类/有毛/宠物
下位词:猫——>波斯猫/阿兹猫
同义词:高兴——>开心/喜悦/欢乐/狂喜
反义词:高兴——>难过/悲伤/悲痛/愤怒
3.词序信息——>N-gram语言模型
我喂猪 vs. 猪喂我
4.语法信息——>待探索区域
词性:主谓宾定状补
句内语法分析
句间语法分析
NLP的基本思路
1.传统:基于字典(wordnet)
(1)不能分辨细节差异
(2)需要大量人为劳动
(3)结果主观,依赖于编制者的经验和倾向
(4)无法发现新词
(5)难以精确计算词之间的相似度
2.现代:基于统计模型
(1)特征提取:对语料进行可能的重编码和组合,尽可能的将信息数量化
(2)用模型对潜在信息进行提取建模
注意
本文是观看B站@就是老衲啊转发的视频整理所得

Python文本挖掘笔记:1.3文本挖掘的基本思路相关推荐

  1. 字节跳动大佬的Python自学笔记.pdf

    1. 字节跳动大佬的Python自学笔记 这是我的一个朋友自学资料包,通过这个资料包自学拿到了字节跳动的Offer, 下面是他之前入门学习Python时候的学习资料,非常全面,从Python基础.到w ...

  2. [python教程入门学习]python学习笔记(CMD执行文件并传入参数)

    本文章向大家介绍python学习笔记(CMD执行文件并传入参数),主要包括python学习笔记(CMD执行文件并传入参数)使用实例.应用技巧.基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋 ...

  3. python学习笔记之编写readConfig读写配置文件

    python学习笔记之编写readConfig读写配置文件_weixin_34055910的博客-CSDN博客

  4. Python学习笔记(十一)

    Python学习笔记(十一): 生成器,迭代器回顾 模块 作业-计算器 1. 生成器,迭代器回顾 1. 列表生成式:[x for x in range(10)] 2. 生成器 (generator o ...

  5. Python学习笔记一简介及安装配置

    Python学习笔记一 参考教程:廖雪峰官网https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e54 ...

  6. python学习笔记目录

    人生苦短,我学python学习笔记目录: week1 python入门week2 python基础week3 python进阶week4 python模块week5 python高阶week6 数据结 ...

  7. Python学习笔记(二):标准流与重定向

    Python学习笔记(二):标准流与重定向 - SamWei - 博客园 Python学习笔记(二):标准流与重定向 Posted on 2012-02-19 22:36 SamWei 阅读(176) ...

  8. python 学习笔记 12 -- 写一个脚本获取城市天气信息

    近期在玩树莓派,前面写过一篇在树莓派上使用1602液晶显示屏,那么可以显示后最重要的就是显示什么的问题了. 最easy想到的就是显示时间啊,CPU利用率啊.IP地址之类的.那么我认为呢,假设可以显示当 ...

  9. Python机器学习笔记:sklearn库的学习

    自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法.还包括了特征提取,数据 ...

  10. python输入数字翻译成星期几-Python练习笔记——计算输入日期为改年的第几天、星期几...

    # 输入年月日,如:1995年12月10日,计算是该年的第几天? # 同时计算出当天是星期几? print("请依据提示依次输入您想查询的年 月 日") # 第一段代码块(年月日输 ...

最新文章

  1. 使用Python和OpenCV对轮廓进行排序(从左到右,自上而下)
  2. 一个Java多线程的问题,颠覆了我多年的认知!
  3. 学php为什么要学linux,为什么 PHP 程序员应该学习使用 Swoole
  4. RHCS套件实现高可用负载均衡集群(一)
  5. java 自动拆箱_Java 自动装箱 和 自动拆箱
  6. org.apache.poi 读取数字问题
  7. This file can not be opened as a file descriptor; it is probably compressed
  8. 数据的交换输出【杭电-2016】 附题
  9. Java 用HTTP的方式发送JSON报文请求
  10. solidworks做动态静力学分析Motion(牛头刨床为例)机械原理课设(停止中断)
  11. javascript的apply理解
  12. 漏斗分析 - AARRR模型案例分析
  13. 初中地理老师教师资格证考试成功通过前辈备考经验分享
  14. php开发中常用字符串函数总结
  15. 2440 wince 5.0 BSP之flash驱动分析
  16. icc校色文件使用教程_使用ICC特性文件进行校色的方法
  17. Linux命令 - head命令
  18. cad lisp 二次抛物线_cad画二次抛物线
  19. css中多行文本溢出显示省略号的方法
  20. The Shawshank Redemption-8

热门文章

  1. 离散数学:求空集的幂集?求空集的幂集的幂集?求空集的幂集的幂集的幂集?
  2. 【蓝桥真题5】带三百人训练了十天精选蓝桥真题,看看他们都练些什么(三门语言题解)
  3. 用JavaScript实现支持图片的字段类型
  4. 迪杰斯特拉算法求经纬度坐标的最短路径_Postgresql构建经纬度查询两点之间的最短路径...
  5. iOS初级开发学习笔记:微信充值
  6. 内功小知识 | 计算机里的涡轮增压 - CPU 睿频
  7. 电子化时代到来,电子印章助力构建网络时代互信环境
  8. ApacheCN 翻译活动进度公告 2019.4.23
  9. 数字图像处理 图像变换
  10. Elastic认证特训营 难点解读09——父子关联查询实战搞不定怎么办?