参考 http://www.lai18.com/content/1594216.html

1(1)使用CHI挑选文本类的特征词汇。->(2)使用TFIDF计算相对于某一文本,步骤1中得出的每个特征词汇的tfidf值,从而得出每一个文本的特征向量。->(3)使用libsvm进行分类。

2,使用CHI挑选特征 参考文章:http://blog.csdn.net/wangran51/article/details/8446234

原理:假设词汇和类别“不相关”,即相互独立。使用开方检验,验证假设成立的可能性。

开方检验值越大,说明假设越不可能成立,即词汇和类别越相关,因此该词汇越能代表该类别,可以选择为该类别的一个特征词。

因此CHI的最终步骤就是计算该类别内所有词汇的CHI值,选取值最大的N个词汇作为该类的特征词汇。

3,使用TF-IDF构建文本的特征向量 参考文章:

http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html

TFIDF=TF*IDF,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

假如使用关键字组(K1,K2,K3)搜索文档,则该查询和文档document的相关性是TF1+TF2+TF3,(TF表示关键字的词频),在这个公式里,默认为关键字K1,K2,K3的重要性是一样的,这不太合理,因为不同的词应该有不同的权重。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document

frequency 缩写为IDF)。引入IDF后,查询和文档的相关性计算公式就由词频的简单求和(TF1+TF2+TF3)变成了加权求和,即 TF1*IDF1+TF2*IDF2+TF2*IDF2。

4,CHI和TFIDF总结:

CHI:挑选最能代表一个类的特征词汇;TFIDF:计算一个词对于一份文本的重要程度。

CHI的不足:

CHI只是考虑了文件集中包含词条的文档数量,而没有考虑词条在文档中出现的次数。因此这是CHI的一个缺陷。

TFIDF的不足:

在TFIDF的理论体系中,如果某一个文件集中包含词条的文件越少,IDF越大,则说明词条具有很好的类别区分能力。但是实际上,如果一个词条在一个文件集的文档中频繁出现,则说明该词条能够很好代表这个文件集的文本的特征,这样的词条应该给它们赋予较高的权重(实际上该类词条的IDF值较小),并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处。

综合以上两点,CHI没有考虑词条在文档中的出现次数,而TFIDF考虑了。并且CHI正好弥补了IDF的不足,因为IDF中在多个文档中都出现的词条被赋予的IDF值较低,而CHI正是选出了这些值作为文档集合的特征词条。因此两者有一定的互补性。1中利用libsvm实现文本分类时,正是采用了CHI和TFIDF两种方法。

5,linux系统下libsvm的python接口的安装

参考了这两篇文章

http://blog.csdn.net/letsseehow/article/details/10483729

http://techv5.com/topic/289/

Libsvm首页:

http://www.csie.ntu.edu.tw/~cjlin/libsvm/

6,libsvm下python接口简介:

在libsvm-3.16的python文件夹下主要包括了两个文件svm.py和svmutil.py。

svmutil.py接口主要包括了high-level的函数,这些函数的使用和LIBSVM的MATLAB接口大体类似

svmutil中主要包含了以下几个函数:

svm_train() : train an SVM model

svm_predict() : predict testing data

svm_read_problem() : read the data from a LIBSVM-format file.

svm_load_model() : load a LIBSVM model.

svm_save_model() : save model to a file.

evaluations() : evaluate prediction results.

svm 文本分类 matlab,livsvm文本分类总结详解相关推荐

  1. matlab中读入sav,matlab数据读取与存入详解

    matlab数据读取与存入详解 在编写一个程序时,经常需要从外部读入数据,或者将程序运行的结果保存为文件.MATLAB使用多种格式打开和保存数据.本章将要介绍 MATLAB中文件的读写和数据的导入导出 ...

  2. 车牌识别与计算机编程,基于MATLAB的车牌识别程序详解.ppt

    基于MATLAB的车牌识别程序详解 自定义一个字符函数,用来从车牌区域中提取出7个字符,其中利用切割函数来进行切割. 程序:function [word,result]=getword(d) word ...

  3. matlab 0106,MATLAB控制系统仿真与实例详解.pdf

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp计算机&nbsp>&nbspmatlab MATLAB控制系统仿真与实例详解.pdf6页 本 ...

  4. matlab图像处理常见函数及用法详解

    matlab图像处理常见函数及用法详解 -- 整理于2022.12.2 ,23.05-- clc;clear;%% 图片读取 RGB = imread('1.jpg'); % 图片读取 imshow( ...

  5. 单纯形法详解及MATLAB实现,对偶单纯形法详解及MATLAB实现

    单纯形法详解及MATLAB实现,对偶单纯形法详解及MATLAB实现 单纯形法 我们以这样一个方程组做为例子,来看一下单纯形法是如何解题的 这是一个已经化成标准形式的方程组,x4和x5是我们加入的松弛变 ...

  6. matlab做拉普拉斯曲线,Matlab 拉普拉斯滤波 以及 imfilter 详解(多图)

    Matlab 拉普拉斯滤波 以及 imfilter 详解(多图) 08-08栏目:技术 TAG:imfilter imfilter 代码: jhua.orgclc clear all A=imread ...

  7. Python文本特征提取 DictVectorizer CountVectorizer TfidfVectorizer 附代码详解

    文章目录 DictVectorizer 对使用字典储存的数据进行特征提取与向量化 CountVectorizer / TfidfVectorizer 处理无特殊数据结构存储的数据 词袋模型(Bag o ...

  8. 精确率、召回率、F1 值、ROC、AUC等分类模型评价指标含义与作用详解

    文章目录 摘要 一.精确率.召回率.F函数.准确率和错误率 1.定义 2.区别与应用 二.ROC曲线.P-R曲线.AUC 1.P-R曲线 2.ROC曲线 3.AUC 摘要 在涉及机器学习领域的分类问题 ...

  9. SVM(support vector machine)支持向量机原理详解

    SVM是什么? SVM - support vector machine, 俗称支持向量机,为一种supervised learning算法,属于classification的范畴. 在数据挖掘的应用 ...

最新文章

  1. mysql库可以无限创建吗_mysql 创建库
  2. 【Linux】linux使用mplayer播放摄像头
  3. 2020 CCPC-Wannafly Winter Camp Day1 总结
  4. keras构建前馈神经网络(feedforward neural network)进行回归模型构建和学习
  5. 调用本地html_requests-html:最简单的爬虫框架,看完你就会了
  6. 【转】Oracle SPARC SuperCluster全能王:不改大道至简本色
  7. Linux常用的文本查找命令 find
  8. .Net4.0并行库介绍——Cancellation Framework
  9. python产生随机数random.random_Python内置random模块生成随机数的方法
  10. window 自动安装MySQL数据库_windows安装MySQL数据库
  11. oracle gc chain,ORACLE GC 类等待事件汇总分析
  12. matlab两条曲线方程求交点_matlab中已知两曲线方程,怎样求两曲线交点并标注出?...
  13. jsp为什么被淘汰了?
  14. java 导出word模板
  15. ubuntu下安装flash插件解决视频播放功能
  16. 各地区工业化学需氧量排放量(1992-2017年)
  17. 开源项目Smail动工
  18. PCI Express Capability Structure
  19. Android studio profiler中的Shallow size和retained sizes是什么意思
  20. 截取字符串时,截取完整的表情符

热门文章

  1. POJ NOI0105-41 数字统计
  2. HDU1878 欧拉回路【并查集】
  3. Python 数据结构与算法 —— Kruskal 算法
  4. hive 操作(四)
  5. 从零开始学习python编程-从0开始的Python学习014面向对象编程(推荐)
  6. python就业方向-看完Python这五大就业方向的薪资待遇,你选择哪个?
  7. python的第三方库是干什么用的-python一些工作用到的第三方库
  8. python怎样画立体图-如何用Matplotlib 画三维图的示例代码
  9. python从入门到精通-小白如何系统学习python,从入门到精通?
  10. python基础知识-python基础知识,python必背内容,一、python的基