Python文本挖掘笔记:1.3文本挖掘的基本思路
文本中所蕴含信息的层次
1.词条是否在文本中出现——>各种基于词袋的模型
例:大鱼/吃/小雨/和/虾米/。
2.词条的各种内在关联——>各种字典
上位词:猫——>动物/哺乳类/有毛/宠物
下位词:猫——>波斯猫/阿兹猫
同义词:高兴——>开心/喜悦/欢乐/狂喜
反义词:高兴——>难过/悲伤/悲痛/愤怒
3.词序信息——>N-gram语言模型
我喂猪 vs. 猪喂我
4.语法信息——>待探索区域
词性:主谓宾定状补
句内语法分析
句间语法分析
NLP的基本思路
1.传统:基于字典(wordnet)
(1)不能分辨细节差异
(2)需要大量人为劳动
(3)结果主观,依赖于编制者的经验和倾向
(4)无法发现新词
(5)难以精确计算词之间的相似度
2.现代:基于统计模型
(1)特征提取:对语料进行可能的重编码和组合,尽可能的将信息数量化
(2)用模型对潜在信息进行提取建模
注意
本文是观看B站@就是老衲啊转发的视频整理所得
Python文本挖掘笔记:1.3文本挖掘的基本思路相关推荐
- 字节跳动大佬的Python自学笔记.pdf
1. 字节跳动大佬的Python自学笔记 这是我的一个朋友自学资料包,通过这个资料包自学拿到了字节跳动的Offer, 下面是他之前入门学习Python时候的学习资料,非常全面,从Python基础.到w ...
- [python教程入门学习]python学习笔记(CMD执行文件并传入参数)
本文章向大家介绍python学习笔记(CMD执行文件并传入参数),主要包括python学习笔记(CMD执行文件并传入参数)使用实例.应用技巧.基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋 ...
- python学习笔记之编写readConfig读写配置文件
python学习笔记之编写readConfig读写配置文件_weixin_34055910的博客-CSDN博客
- Python学习笔记(十一)
Python学习笔记(十一): 生成器,迭代器回顾 模块 作业-计算器 1. 生成器,迭代器回顾 1. 列表生成式:[x for x in range(10)] 2. 生成器 (generator o ...
- Python学习笔记一简介及安装配置
Python学习笔记一 参考教程:廖雪峰官网https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e54 ...
- python学习笔记目录
人生苦短,我学python学习笔记目录: week1 python入门week2 python基础week3 python进阶week4 python模块week5 python高阶week6 数据结 ...
- Python学习笔记(二):标准流与重定向
Python学习笔记(二):标准流与重定向 - SamWei - 博客园 Python学习笔记(二):标准流与重定向 Posted on 2012-02-19 22:36 SamWei 阅读(176) ...
- python 学习笔记 12 -- 写一个脚本获取城市天气信息
近期在玩树莓派,前面写过一篇在树莓派上使用1602液晶显示屏,那么可以显示后最重要的就是显示什么的问题了. 最easy想到的就是显示时间啊,CPU利用率啊.IP地址之类的.那么我认为呢,假设可以显示当 ...
- Python机器学习笔记:sklearn库的学习
自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法.还包括了特征提取,数据 ...
- python输入数字翻译成星期几-Python练习笔记——计算输入日期为改年的第几天、星期几...
# 输入年月日,如:1995年12月10日,计算是该年的第几天? # 同时计算出当天是星期几? print("请依据提示依次输入您想查询的年 月 日") # 第一段代码块(年月日输 ...
最新文章
- 使用Python和OpenCV对轮廓进行排序(从左到右,自上而下)
- 一个Java多线程的问题,颠覆了我多年的认知!
- 学php为什么要学linux,为什么 PHP 程序员应该学习使用 Swoole
- RHCS套件实现高可用负载均衡集群(一)
- java 自动拆箱_Java 自动装箱 和 自动拆箱
- org.apache.poi 读取数字问题
- This file can not be opened as a file descriptor; it is probably compressed
- 数据的交换输出【杭电-2016】 附题
- Java 用HTTP的方式发送JSON报文请求
- solidworks做动态静力学分析Motion(牛头刨床为例)机械原理课设(停止中断)
- javascript的apply理解
- 漏斗分析 - AARRR模型案例分析
- 初中地理老师教师资格证考试成功通过前辈备考经验分享
- php开发中常用字符串函数总结
- 2440 wince 5.0 BSP之flash驱动分析
- icc校色文件使用教程_使用ICC特性文件进行校色的方法
- Linux命令 - head命令
- cad lisp 二次抛物线_cad画二次抛物线
- css中多行文本溢出显示省略号的方法
- The Shawshank Redemption-8
热门文章
- 离散数学:求空集的幂集?求空集的幂集的幂集?求空集的幂集的幂集的幂集?
- 【蓝桥真题5】带三百人训练了十天精选蓝桥真题,看看他们都练些什么(三门语言题解)
- 用JavaScript实现支持图片的字段类型
- 迪杰斯特拉算法求经纬度坐标的最短路径_Postgresql构建经纬度查询两点之间的最短路径...
- iOS初级开发学习笔记:微信充值
- 内功小知识 | 计算机里的涡轮增压 - CPU 睿频
- 电子化时代到来,电子印章助力构建网络时代互信环境
- ApacheCN 翻译活动进度公告 2019.4.23
- 数字图像处理 图像变换
- Elastic认证特训营 难点解读09——父子关联查询实战搞不定怎么办?