# n-gram
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import jieba
data = ["他用报话机向上级呼喊:“为了祖国,为了胜利,向我开炮!向我开炮!","记者:你怎么会说出那番话?","韦昌进:我只是觉得,对准我自己打,才有可能把上了我哨位的这些敌人打死,或者打下去。"]data = [" ".join(jieba.lcut(e)) for e in data] # 分词,并用" "连接vec = CountVectorizer(min_df=1, ngram_range=(1,2))
# ngram_range=(1,1) 表示 unigram, ngram_range=(2,2) 表示 bigram, ngram_range=(3,3) 表示 thirgram
X = vec.fit_transform(data) # transform text to metrix
vec.get_feature_names() # get features

[u’\u4e0a\u7ea7’, u’\u4e0a\u7ea7 \u547c\u558a’, u’\u4e0b\u53bb’, u’\u4e3a\u4e86’, u’\u4e3a\u4e86 \u7956\u56fd’, u’\u4e3a\u4e86 \u80dc\u5229’, u’\u53ea\u662f’, u’\u53ea\u662f \u89c9\u5f97’, u’\u53ef\u80fd’, u’\u53ef\u80fd \u54e8\u4f4d’, u’\u547c\u558a’, u’\u547c\u558a \u4e3a\u4e86’, u’\u54e8\u4f4d’, u’\u54e8\u4f4d \u8fd9\u4e9b’, u’\u5bf9\u51c6’, u’\u5bf9\u51c6 \u81ea\u5df1’, u’\u5f00\u70ae’, u’\u5f00\u70ae \u5f00\u70ae’, u’\u600e\u4e48’, u’\u600e\u4e48 \u8bf4\u51fa’, u’\u6216\u8005’, u’\u6216\u8005 \u4e0b\u53bb’, u’\u6253\u6b7b’, u’\u6253\u6b7b \u6216\u8005’, u’\u62a5\u8bdd\u673a’, u’\u62a5\u8bdd\u673a \u4e0a\u7ea7’, u’\u654c\u4eba’, u’\u654c\u4eba \u6253\u6b7b’, u’\u756a\u8bdd’, u’\u7956\u56fd’, u’\u7956\u56fd \u4e3a\u4e86’, u’\u80dc\u5229’, u’\u80dc\u5229 \u5f00\u70ae’, u’\u81ea\u5df1’, u’\u81ea\u5df1 \u53ef\u80fd’, u’\u89c9\u5f97’, u’\u89c9\u5f97 \u5bf9\u51c6’, u’\u8bb0\u8005’, u’\u8bb0\u8005 \u600e\u4e48’, u’\u8bf4\u51fa’, u’\u8bf4\u51fa \u756a\u8bdd’, u’\u8fd9\u4e9b’, u’\u8fd9\u4e9b \u654c\u4eba’, u’\u97e6\u660c\u8fdb’, u’\u97e6\u660c\u8fdb \u53ea\u662f’]

X.toarray()

array([[1, 1, 0, 2, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1]])

df = pd.DataFrame(X.toarray(), columns=vec.get_feature_names()) # to DataFrame
df.head()
上级 上级 呼喊 下去 为了 为了 祖国 为了 胜利 只是 只是 觉得 可能 可能 哨位 觉得 觉得 对准 记者 记者 怎么 说出 说出 番话 这些 这些 敌人 韦昌进 韦昌进 只是
0 1 1 0 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0
2 0 0 1 0 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 1

3 rows × 45 columns

n-gram python实现(基于sklearn)相关推荐

  1. python分类算法的应用_Python基于sklearn库的分类算法简单应用示例

    Python基于sklearn库的分类算法简单应用示例 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  Python基于sklearn库的分类算法简单应用示例.tx ...

  2. python基于sklearn的SVM和留一法(LOOCV)进行二分类

    基于sklearn的SVM和留一法(LOOCV)进行二分类 需要的导入包 import numpy as np from sklearn.model_selection import LeaveOne ...

  3. python中算法(sklearn)的最优超参数寻优:skopt贝叶斯搜索

    python中算法(sklearn)的最优超参数寻优:skopt贝叶斯搜索 Jeff Dean在ICML 2019上进行了有关AutoML的演讲,并将自动化分为4个级别 手动构造预测变量,不引入学习的 ...

  4. 如何用 Python 进行基于深度学习的计算机视觉项目开发?

    令人惊喜的"智能"年代 深度学习有着广阔的前景 我们正处在一个"智能"的年代,比如智能手机中的语音助手.机器翻译和人脸识别:战胜过日本将棋冠军.国际象棋冠军, ...

  5. ML之SVM:基于sklearn的svm算法实现对支持向量的数据进行标注

    ML之SVM:基于sklearn的svm算法实现对支持向量的数据进行标注 目录 输出结果 实现代码 输出结果 实现代码 import numpy as np import matplotlib.pyp ...

  6. python 聚类算法包_Python聚类算法之DBSACN实例分析 python怎么用sklearn包进行聚类

    python 怎么可视化聚类的结果 science 发表的聚类算法的python代码 测试数据长什...说明你的样本数据中有nan值,通常是因为原始数据中包含空字符串或None值引起的. 解决办法是把 ...

  7. 机器学习(一) 基于sklearn库的数据集划分(交叉验证)

    机器学习中首要环节就是数据集的处理,其中数据集的处理从个人理解(如有错误敬请谅解)的角度来说包括两个方面:数据集划分和数据清理.其中数据集划分是指训练集.验证集和测试集的数据类别划分:数据清理是指数据 ...

  8. 基于sklearn的LogisticRegression鸢尾花多类分类实践

    文章目录 1. 问题描述 2. 数据介绍 2.1 数据描述 2.2 数据 2.3 数据可视化 3. 模型选择 3.1 固有的多类分类器 3.2 1对多的多类分类器 3.3 OneVsRestClass ...

  9. python机器学习库sklearn——K最近邻、K最近邻分类、K最近邻回归

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 KNN即K最近邻,相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article ...

  10. 【Python】基于机器学习的财务数据分析——识别财务造假

    [Python]基于机器学习的财务数据分析--识别财务造假 前言: 本文数据使用了2021泰迪杯官方给出的数据. 其中第一章的代码给出了如何由比赛数据生成案例分析所使用的数据 而第二章则重点介绍了 如 ...

最新文章

  1. 网页游戏架设_这10年来手机游戏的迭代,也是一部硬件发展史丨触乐
  2. 十张图看懂SDN与NFV的区别与联系?
  3. Oracle PCTfree assm,Oracle 段空间管理方式与PCTFREE和PCTUSED的概念
  4. 在Eclipse中显示.project和.classpath和.setting目录
  5. inetd的工作流程
  6. c++hello world代码_在Rust代码中编写Python是种怎样的体验?
  7. Alpha冲刺随笔—:第一天
  8. 计算两个日期相差天数的最简洁的代码
  9. memcached php 测试,php一致性hash性能测试(flexihash/memcache/memcached)
  10. CCF NOI1006 捡石头
  11. linux下安装redis-cli
  12. 【python实战】爬取起点中文网自制小说阅读器
  13. android sync 文件夹,如何使用FolderSync在安卓手机上同步文件夹到坚果云?
  14. 电脑如何登录两个微信
  15. iOS APP上架流程详解
  16. mac外接显示器 竖屏 黑苹果_mac外接显示器 竖屏 黑苹果_Mac 外接显示器转自定义HiDPI分辨率教程...
  17. AWD流程总结-纸上谈兵向
  18. 2022年中国高校计算机大赛-团队程序设计天梯赛(GPLT)上海理工大学校内选拔赛 题解
  19. IOS 一些小知识点整理
  20. 绿联USB4扩展坞,VL830拆解分析

热门文章

  1. 杨凌九立机器人农博园观后感_聆听窗外声音
  2. 百度云虚假下载_虚假新闻:关于公共云的5种常见误解
  3. 【从零开始学习深度学习】13. 防止过拟合方法:权重衰减(L2惩罚项)介绍及示例演示
  4. 妙用autorun,通过USB获取密码
  5. 网卡驱动死机调试经验案例
  6. 祁门红茶(KEEMUN BLACK TEA)
  7. 2006年度中国纳税百强出炉
  8. 基于各向异性GGF与自适应PCNN的NSST域图像融合
  9. 【睡服】面试官的高质量自动化测试工程师简历--看完必有所获
  10. 电容笔和Apple pencil有啥区别?电容笔四大口碑比较好的品牌推荐