使用python+机器学习方法进行情感分析(详细步骤)

2021-02-07

不是有词典匹配的方法了吗?怎么还搞多个机器学习方法。因为词典方法和机器学习方法各有千秋。机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类,机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。回复此公众号“web”获取源码,以及word版原文查看。向小编咨询问题,联系微信:hai299014而词典方法适用的语料范围更广,无论是手机、电脑这些商品,还是书评、影评这些语料,都可以适用。但机器学习则极度依赖语料,把手机语料训练出来的的分类器拿去给书评分类,那是注定要失败的。使用机器学习进行情感分析,可以换一个相同意思的说法,就是用有监督的(需要人工标注类别)机器学习方法来对文本进行分类。这点与词典匹配有着本质的区别。词典匹配是直接计算文本中的情感词,得出它们的情感倾向分值。而机器学习方法的思路是先选出一部分表达积极情感的文本和一部分表达消极情感的文本,用机器学习方法进行训练,获得一个情感分类器。再通过这个情感分类器对所有文本进行积极和消极的二分分类。最终的分类可以为文本给出0或1这样的类别,也可以给出一个概率值,比如”这个文本的积极概率是90%,消极概率是10%“。Python 有良好的程序包可以进行情感分类,那就是Python 自然语言处理包,Natural Language Toolkit ,简称NLTK 。NLTK 当然不只是处理情感分析,NLTK 有着整套自然语言处理的工具,从分词到实体识别,从情感分类到句法分析,完整而丰富,功能强大。实乃居家旅行,越货杀人之必备良药。两本NLTK 的参考书,非常好用。一本是,这是《Natural Language Processing withPython》的中文翻译版,是志愿者翻译没有出版社出版的,开源精神万岁!另一本是,这本书写得清晰明了,虽然是英文版的,看起来也很舒服。特别值得一提的是,该书作者Jacob 就是NLTK 包的主要贡献者之一。而且他的博客中有一系列的是关于使用机器学习进行情感分类的,我的代码可以说是完全基于他的,在此表示我的感谢。其实还有国外作者也被他启发,用Python 来处理情感分类。比如,写得特别详细认真,也是我重点参考的文章,他的代码我也有所借用。Jacob 在文章中也有提到,近段时间NLTK 新增的scikit-learn 的接口,使得它的分类功能更为强大好用了,可以用很多高端冷艳的分类算法了。于是我又滚过去看scikit-learn 。简直是天赐我好工具,妈妈再也不用担心我用不了机器学习啦!有了scikit-learn 的接口,NLTK 做分类变得比之前更简单快捷,但是相关的结合NLTK 和 sciki-learn的文章实在少,是仅有的讲得比较详细的把两者结合的,在此也表示感谢。但对于我而言还是有点不够的,因为中文和英文有一定的差别,而且上面提到的一些博客里面的代码也是需要改动的。终于把一份代码啃完之后,能写出一个跑得通的中文情感分类代码了。接下来会介绍它的实现思路和具体代码。在这个系列的文章里面,机器学习都可以认为是有监督的分类方法。总体流程如图:图1:机器学习的流程和结构(摘自《Natural Language Processing withPython》)一、有监督意味着需要人工标注,需要人为的给文本一个类标签。比如我有5000条商品评论,如果我要把这些评论分成积极和消极两类。那我就可以先从里面选2000条评论,然后对这2000条数据进行人工标注,把这2000条评论标为“积极”或“消极”。这“积极”和“消极”就是类标签。假设有1000条评论被标为“积极”,有1000条评论被标为“消极”。(两者数量相同对训练分类器是有用的,如果实际中数量不相同,应该减少和增加数据以使得它们数量相同)二、之后就要选择特征。特征就是分类对象所展现的部分特点,是实现分类的依据。我们经常会做出分类的行为,那我们依据些什么进行分类呢?举个例子,如果我看到一个年轻人,穿着新的正装,提着崭新的公文包,快步行走,那我就会觉得他是一个刚入职的职场新人。在这里面,“崭新”,“正装”,“公文包”,“快步行走”都是这个人所展现出的特点,也是我用来判断这个人属于哪一类的依据。这些特点和依据就是特征。可能有些特征对我判断更有用,有些对我判断没什么用,有些可能会让我判断错误,但这些都是我分类的依据。我们没办法发现一个人的所有特点,所以我们没办法客观的选择所有特点,我们只能主观的选择一部分特点来作为我分类的依据。这也是特征选择的特点,需要人为的进行一定选择。而在情感分类中,一般从“词”这个层次来选择特征。比如这句话“手机非常好用!”,我给了它一个类标签“Positive”。里面有四个词(把感叹号也算上),“手机”,“非常”,“好用”,“!”。我可以认为这4个词都对分类产生了影响,都是分类的依据。也就是无论什么地方出现了这四个词的其中之一,文本都可以被分类为“积极”。这个是把所有词都作为分类特征。同样的,对这句话,我也可以选择它的双词搭配(Bigrams)作为特征。比如“手机 非常”,“非常 好用”,“好用 !”这三个搭配作为分类的特征。以此类推,三词搭配(Trigrams),四词搭配都是可以被作为特征的。三、再之后特征要降维。特征降维说白了就是减少特征的数量。这有两个意义,一个是特征数量减少了之后可以加快算法计算的速度(数量少了当然计算就快了),另一个是如果用一定的方法选择信息量丰富的特征,可以减少噪音,有效提高分类的准确率。所谓信息量丰富,可以看回上面这个例子“手机非常好用!”,很明显,其实不需要把“手机”,“非常”,“好用”,“!”这4个都当做特征,因为“好用”这么一个词,或者“非常 好用”这么一个双词搭配就已经决定了这个句子是“积极”的。这就是说,“好用”这个词的信息量非常丰富。那要用什么方法来减少特征数量呢?答案是通过一定的统计方法找到信息量丰富的特征。统计方法包括:词频(Term Frequency)、文档频率(Document Frequency)、互信息(Pointwise Mutual Information)、信息熵(Information Entropy)、卡方统计(Chi-Square)等等。在情感分类中,用词频选择特征,也就是选在语料库中出现频率高的词。比如我可以选择语料库中词频最高的2000个词作为特征。用文档频率选特征,是选在语料库的不同文档中出现频率最高的词。而其它三个,太高端冷艳,表示理解得还不清楚,暂且不表。。。不过意思都是一样的,都是要通过某个统计方法选择信息量丰富的特征。特征可以是词,可以是词组合。四、把语料文本变成使用特征表示。在使用分类算法进行分类之前,第一步是要把所有原始的语料文本转化为特征表示的形式。还是以上面那句话做例子,“手机非常好用!”如果在NLTK 中,如果选择所有词作为特征,其形式是这样的:[ {“手机”: True, “非常”: True, “好用”: True, “!”: True} , positive]如果选择双词作为特征,其形式是这样的:[ {“手机 非常”: True, “非常 好用”: True, “好用 !”: True} , positive ]如果选择信息量丰富的词作为特征,其形式是这样的:[ {“好用”: True} , positive ](NLTK需要使用字典和数组两个数据类型,True 表示对应的元素是特征。至于为什么要用True 这样的方式,我也不知道。。。反正见到的例子都是这样的。。。有空再研究看是不是可以不这样的吧)无论使用什么特征选择方法,其形式都是一样的。都是[ {“特征1”: True,“特征2”: True,“特征N”: True,}, 类标签 ]五、把用特征表示之后的文本分成开发集和测试集,把开发集分成训练集和开发测试集。机器学习分类必须有数据给分类算法训练,这样才能得到一个(基于训练数据的)分类器。有了分类器之后,就需要检测这个分类器的准确度。根据《Python 自然语言处理》的方法,数据可以分为开发集合测试集。开发集专门用于不断调整和发现最佳的分类算法和特征维度(数量),测试集应该一直保持“不被污染”。在开发集开发完毕之后,再使用测试集检验由开发集确定的最佳算法和特征维度的效果。具体如图:图2:开发集和测试集(摘自《Natural Language Processing withPython》)一般来说,训练集的数量应该远大于测试集,这样分类算法才能找出里面的规律,构建出高效的分类器。用回前面的例子。假设2000条已经标注了积极和消极的评论数据,开发集可以是随机的1600条,测试集是剩余的随机400条。然后开发集中,训练集可以是随机的1400条,开发测试集是200条。六、用不同的分类算法给训练集构建分类器,用开发测试集检验分类器的准确度(选出最佳算法后可以调整特征的数量来测试准确度)。这个时候终于可以使用各种高端冷艳的机器学习算法啦!我们的目标是:找到最佳的机器学习算法。可以使用朴素贝叶斯(NaiveBayes),决策树(Decision Tree)等NLTK 自带的机器学习方法。也可以更进一步,使用NLTK 的scikit-learn 接口,这样就可以调用scikit-learn 里面的所有,对,是所有机器学习算法了。我已经忍不住的泪流满面。其实方法很容易。只要以下五步。1. 仅仅使用开发集(Development Set)。2. 用分类算法训练里面的训练集(Training Set),得出分类器。3. 用分类器给开发测试集分类(Dev-Test Set),得出分类结果。4. 对比分类器给出的分类结果和人工标注的正确结果,给出分类器的准确度。5. 使用另一个分类算法,重复以上三步。在检验完所有算法的分类准确度之后,就可以选出最好的一个分类算法了。在选出最好的分类算法之后,就可以测试不同的特征维度对分类准确度的影响了。一般来说,特征太少则不足以反映分类的所有特点,使得分类准确率低;特征太多则会引入噪音,干扰分类,也会降低分类准确度。所以,需要不断的测试特征的数量,这样才可以得到最佳的分类效果。七、选择出开发集中最佳的分类算法和特征维度,使用测试集检验得出情感分类的准确度。在终于得到最佳分类算法和特征维度(数量)之后,就可以动用测试集。直接用最优的分类算法对测试集进行分类,得出分类结果。对比分类器的分类结果和人工标注的正确结果,给出分类器的最终准确度。用Python 进行机器学习及情感分析,需要用到两个主要的程序包:nltk 和 scikit-learnnltk 主要负责处理特征提取(双词或多词搭配需要使用nltk 来做)和特征选择(需要nltk 提供的统计方法)。scikit-learn 主要负责分类算法,评价分类效果,进行分类等任务。接下来会有四篇文章按照以下步骤来实现机器学习的情感分析。1.2.3.4.首先是特征提取和选择一、特征提取方法1. 把所有词作为特征def bag_of_words(words):return dict([(word, True) for word in words])返回的是字典类型,这是nltk 处理情感分类的一个标准形式。2. 把双词搭配(bigrams)作为特征import nltkfrom nltk.collocations import BigramCollocationFinderfrom nltk.metrics import BigramAssocMeasuresdef bigram(words, score_fn=BigramAssocMeasures.chi_sq, n=1000):bigram_finder = BigramCollocationFinder.from_words(words) #把文本变成双词搭配的形式bigrams = bigram_finder.nbest(score_fn, n) #使用了卡方统计的方法,选择排名前1000的双词return bag_of_words(bigrams)除了可以使用卡方统计来选择信息量丰富的双词搭配,还可以使用其它的方法,比如互信息(PMI)。而排名前1000也只是人工选择的阈值,可以随意选择其它值,可经过测试一步步找到最优值。3. 把所有词和双词搭配一起作为特征def bigram_words(words, score_fn=BigramAssocMeasures.chi_sq, n=1000):bigram_finder = BigramCollocationFinder.from_words(words)bigrams = bigram_finder.nbest(score_fn, n)return bag_of_words(words + bigrams) #所有词和(信息量大的)双词搭配一起作为特征二、特征选择方法有了提取特征的方法后,我们就可以提取特征来进行分类学习了。但一般来说,太多的特征会降低分类的准确度,所以需要使用一定的方法,来“选择”出信息量最丰富的特征,再使用这些特征来分类。特征选择遵循如下步骤:1. 计算出整个语料里面每个词的信息量2. 根据信息量进行倒序排序,选择排名靠前的信息量的词3. 把这些词作为特征1.计算出整个语料里面每个词的信息量1.1 计算整个语料里面每个词的信息量from nltk.probability import FreqDist, ConditionalFreqDistdef create_word_scores():posWords = pickle.load(open("D:/code/sentiment_test/pos_review.pkl","r")).....return word_scores #包括了每个词和这个词的信息量1.2 计算整个语料里面每个词和双词搭配的信息量def create_word_bigram_scores():posdata = pickle.load(open("D:/code/sentiment_test/pos_review.pkl","r"))negdata = pickle.load(open("D:/code/sentiment_test/neg_review.pkl","r")).....return word_scores2.根据信息量进行倒序排序,选择排名靠前的信息量的词def find_best_words(word_scores, number):best_vals = sorted(word_scores.iteritems(), key=lambda (w, s): s, reverse=True)[:number] #把词按信息量倒序排序。number是特征的维度,是可以不断调整直至最优的best_words = set([w for w, s in best_vals])return best_words然后需要对find_best_words 赋值,如下:word_scores_1 = create_word_scores()word_scores_2 = create_word_bigram_scores()3.把选出的这些词作为特征(这就是选择了信息量丰富的特征)def best_word_features(words):return dict([(word, True) for word in words if word in best_words])三、检测哪中特征选择方法更优见第一步,载入数据。要做情感分析,首要的是要有数据。数据是人工已经标注好的文本,有一部分积极的文本,一部分是消极的文本。文本是已经分词去停用词的商品评论,形式大致如下:[[word11, word12, ... word1n], [word21, word22, ... , word2n], ... , [wordn1, wordn2, ... , wordnn]]这是一个多维数组,每一维是一条评论,每条评论是已经又该评论的分词组成。#! /usr/bin/env python2.7#coding=utf-8pos_review = pickle.load(open("D:/code/sentiment_test/pos_review.pkl","r"))neg_review = pickle.load(open("D:/code/sentiment_test/neg_review.pkl","r"))我用pickle 存储了相应的数据,这里直接载入即可。第二步,使积极文本的数量和消极文本的数量一样。from random import shuffleshuffle(pos_review) #把积极文本的排列随机化size = int(len(pos_review)/2 - 18)pos = pos_review[:size]neg = neg_review我这里积极文本的数据恰好是消极文本的2倍还多18个,所以为了平衡两者数量才这样做。第三步,赋予类标签。def pos_features(feature_extraction_method):posFeatures = []....negFeatures.append(negWords)return negFeatures这个需要用特征选择方法把文本特征化之后再赋予类标签。第四步、把特征化之后的数据数据分割为开发集和测试集train = posFeatures[174:]+negFeatures[174:]devtest = posFeatures[124:174]+negFeatures[124:174]test = posFeatures[:124]+negFeatures[:124]这里把前124个数据作为测试集,中间50个数据作为开发测试集,最后剩下的大部分数据作为训练集。在把文本转化为特征表示,并且分割为开发集和测试集之后,我们就需要针对开发集进行情感分类器的开发。测试集就放在一边暂时不管。开发集分为训练集(Training Set)和开发测试集(Dev-Test Set)。训练集用于训练分类器,而开发测试集用于检验分类器的准确度。为了检验分类器准确度,必须对比“分类器的分类结果”和“人工标注的正确结果”之间的差异。所以第一步,是要把开发测试集中,人工标注的标签和数据分割开来。第二步是使用训练集训练分类器;第三步是用分类器对开发测试集里面的数据进行分类,给出分类预测的标签;第四步是对比分类标签和人工标注的差异,计算出准确度。一、分割人工标注的标签和数据dev, tag_dev = zip(*devtest) #把开发测试集(已经经过特征化和赋予标签了)分为数据和标签二到四、可以用一个函数来做def score(classifier):classifier = SklearnClassifier(classifier) #在nltk 中使用scikit-learn 的接口classifier.train(train) #训练分类器pred = classifier.batch_classify(testSet) #对开发测试集的数据进行分类,给出预测的标签return accuracy_score(tag_test, pred) #对比分类预测结果和人工标注的正确结果,给出分类器准确度之后我们就可以简单的检验不同分类器和不同的特征选择的结果import sklearn.....print "NuSVC`s accuracy is %f" %score(NuSVC())1. 我选择了六个分类算法,可以先看到它们在使用所有词作特征时的效果:BernoulliNB`s accuracy is 0.790000MultinomiaNB`s accuracy is 0.810000LogisticRegression`s accuracy is 0.710000SVC`s accuracy is 0.650000LinearSVC`s accuracy is 0.680000NuSVC`s accuracy is 0.7400002. 再看使用双词搭配作特征时的效果(代码改动如下地方即可)posFeatures = pos_features(bigrams)negFeatures = neg_features(bigrams)结果如下:BernoulliNB`s accuracy is 0.710000MultinomiaNB`s accuracy is 0.750000LogisticRegression`s accuracy is 0.790000SVC`s accuracy is 0.750000LinearSVC`s accuracy is 0.770000NuSVC`s accuracy is 0.7800003. 再看使用所有词加上双词搭配作特征的效果posFeatures = pos_features(bigram_words)negFeatures = neg_features(bigram_words)结果如下:BernoulliNB`s accuracy is 0.780000MultinomiaNB`s accuracy is 0.780000LogisticRegression`s accuracy is 0.780000SVC`s accuracy is 0.600000LinearSVC`s accuracy is 0.790000NuSVC`s accuracy is 0.790000可以看到在不选择信息量丰富的特征时,仅仅使用全部的词或双词搭配作为特征,分类器的效果并不理想。接下来将使用卡方统计量(Chi-square)来选择信息量丰富的特征,再用这些特征来训练分类器。4. 计算信息量丰富的词,并以此作为分类特征word_scores = create_word_scores()best_words = find_best_words(word_scores, 1500) #选择信息量最丰富的1500个的特征posFeatures = pos_features(best_word_features)negFeatures = neg_features(best_word_features)结果如下:BernoulliNB`s accuracy is 0.870000MultinomiaNB`s accuracy is 0.860000LogisticRegression`s accuracy is 0.730000SVC`s accuracy is 0.770000LinearSVC`s accuracy is 0.720000NuSVC`s accuracy is 0.780000可见贝叶斯分类器的分类效果有了很大提升。5. 计算信息量丰富的词和双词搭配,并以此作为特征word_scores = create_word_bigram_scores()best_words = find_best_words(word_scores, 1500) #选择信息量最丰富的1500个的特征posFeatures = pos_features(best_word_features)negFeatures = neg_features(best_word_features)结果如下:BernoulliNB`s accuracy is 0.910000MultinomiaNB`s accuracy is 0.860000LogisticRegression`s accuracy is 0.800000SVC`s accuracy is 0.800000LinearSVC`s accuracy is 0.750000NuSVC`s accuracy is 0.860000可以发现贝努利的贝叶斯分类器效果继续提升,同时NuSVC 也有很大的提升。此时,我们选用BernoulliNB、MultinomiaNB、NuSVC 作为候选分类器,使用词和双词搭配作为特征提取方式,测试不同的特征维度的效果。dimension = ["500","1000","1500","2000","2500","3000"]for d in dimension:word_scores = create_word_scores_bigram()best_words = find_best_words(word_scores, int(d))posFeatures = pos_features(best_word_features)negFeatures = neg_features(best_word_features)train = posFeatures[174:]+negFeatures[174:]devtest = posFeatures[124:174]+negFeatures[124:174]test = posFeatures[:124]+negFeatures[:124]dev, tag_dev = zip(*devtest)print "Feature number %f" %dprint "BernoulliNB`s accuracy is %f" %score(BernoulliNB())print "MultinomiaNB`s accuracy is %f" %score(MultinomialNB())print "LogisticRegression`s accuracy is %f" %score(LogisticRegression())print "SVC`s accuracy is %f" %score(SVC())print "LinearSVC`s accuracy is %f" %score(LinearSVC())print "NuSVC`s accuracy is %f" %score(NuSVC())print结果如下(很长。。):Feature number 500BernoulliNB`s accuracy is 0.880000MultinomiaNB`s accuracy is 0.850000LogisticRegression`s accuracy is 0.740000SVC`s accuracy is 0.840000LinearSVC`s accuracy is 0.700000NuSVC`s accuracy is 0.810000Feature number 1000BernoulliNB`s accuracy is 0.860000MultinomiaNB`s accuracy is 0.850000LogisticRegression`s accuracy is 0.750000SVC`s accuracy is 0.800000LinearSVC`s accuracy is 0.720000NuSVC`s accuracy is 0.760000Feature number 1500BernoulliNB`s accuracy is 0.870000MultinomiaNB`s accuracy is 0.860000LogisticRegression`s accuracy is 0.770000SVC`s accuracy is 0.770000LinearSVC`s accuracy is 0.750000NuSVC`s accuracy is 0.790000Feature number 2000BernoulliNB`s accuracy is 0.870000MultinomiaNB`s accuracy is 0.850000LogisticRegression`s accuracy is 0.770000SVC`s accuracy is 0.690000LinearSVC`s accuracy is 0.700000NuSVC`s accuracy is 0.800000Feature number 2500BernoulliNB`s accuracy is 0.850000MultinomiaNB`s accuracy is 0.830000LogisticRegression`s accuracy is 0.780000SVC`s accuracy is 0.700000LinearSVC`s accuracy is 0.730000NuSVC`s accuracy is 0.800000Feature number 3000BernoulliNB`s accuracy is 0.850000MultinomiaNB`s accuracy is 0.830000LogisticRegression`s accuracy is 0.780000SVC`s accuracy is 0.690000LinearSVC`s accuracy is 0.710000NuSVC`s accuracy is 0.800000把上面的所有测试结果进行综合可汇总如下:不同分类器的不同特征选择方法效果bag_of_wordsbigramsbigram_wordsbest_word_featurebest_word_bigram_featureBernoulliNB0.790.710.780.870.91MultinomiaNB0.810.750.780.860.86LogisticRegression0.710.790.780.730.8SVC0.650.750.60.770.8LinearSVC0.680.770.790.720.75NuSVC0.740.780.790.780.86候选分类器在不同特征维度下的效果50010001500200025003000BernoulliNB0.880.860.870.870.850.85MultinomiaNB0.850.850.860.850.830.83NuSVC0.810.760.790.70.80.8综合来看,可以看出特征维数在500 或 1500的时候,分类器的效果是最优的。所以在经过上面一系列的分析之后,可以得出如下的结论:Bernoulli 朴素贝叶斯分类器效果最佳词和双词搭配作为特征时效果最好当特征维数为1500时效果最好为了不用每次分类之前都要训练一次数据,所以可以在用开发集找出最佳分类器后,把最佳分类器存储下来以便以后使用。然后再使用这个分类器对文本进行分类。一、使用测试集测试分类器的最终效果word_scores = create_word_bigram_scores() #使用词和双词搭配作为特征best_words = find_best_words(word_scores, 1500) #特征维度1500posFeatures = pos_features(best_word_features)negFeatures = neg_features(best_word_features)trainSet = posFeatures[:500] + negFeatures[:500] #使用了更多数据testSet = posFeatures[500:] + negFeatures[500:]test, tag_test = zip(*testSet)def final_score(classifier):classifier = SklearnClassifier(classifier)classifier.train(trainSet)pred = classifier.batch_classify(test)return accuracy_score(tag_test, pred)print final_score(BernoulliNB()) #使用开发集中得出的最佳分类器其结果是很给力的:0.979166666667二、把分类器存储下来(存储分类器和前面没有区别,只是使用了更多的训练数据以便分类器更为准确)word_scores = create_word_bigram_scores()best_words = find_best_words(word_scores, 1500)posFeatures = pos_features(best_word_features)negFeatures = neg_features(best_word_features)trainSet = posFeatures + negFeaturesBernoulliNB_classifier = SklearnClassifier(BernoulliNB())BernoulliNB_classifier.train(trainSet)pickle.dump(BernoulliNB_classifier, open("D:/code/sentiment_test/classifier.pkl","w"))在存储了分类器之后,就可以使用该分类器来进行分类了。三、使用分类器进行分类,并给出概率值给出概率值的意思是用分类器判断一条评论文本的积极概率和消极概率。给出类别也是可以的,也就是可以直接用分类器判断一条评论文本是积极的还是消极的,但概率可以提供更多的参考信息,对以后判断评论的效用也是比单纯给出类别更有帮助。1. 把文本变为特征表示的形式要对文本进行分类,首先要把文本变成特征表示的形式。而且要选择和分类器一样的特征提取方法。#! /usr/bin/env python2.7#coding=utf-8moto = pickle.load(open("D:/code/review_set/senti_review_pkl/moto_senti_seg.pkl","r")) #载入文本数据def extract_features(data):feat = []for i in data:feat.append(best_word_features(i))return featmoto_features = extract_features(moto) #把文本转化为特征表示的形式注:载入的文本数据已经经过分词和去停用词处理。2. 对文本进行分类,给出概率值import pickleimport sklearnclf = pickle.load(open("D:/code/sentiment_test/classifier.pkl")) #载入分类器pred = clf.batch_prob_classify(moto_features) #该方法是计算分类概率值的p_file = open("D:/code/sentiment_test/score/Motorala/moto_ml_socre.txt","w") #把结果写入文档for i in pred:p_file.write(str(i.prob("pos")) + " " + str(i.prob("neg")) + "\n")p_file.close()最后分类结果如下图:前面是积极概率,后面是消极概率折腾了这么久就为了搞这么一个文件出来。。。这伤不起的节奏已经无人阻挡了吗。。。不过这个结果确实比词典匹配准确很多,也算欣慰了。。。via : http://rzcoding.blog.163.com/blog/static/2228101720131020105621180/

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。

http://image95.pinlue.com/image/70.jpg

python实现情感分析_使用python+机器学习方法进行情感分析(详细步骤)相关推荐

  1. python情感分析步骤_使用python+机器学习方法进行情感分析(详细步骤)

    不是有词典匹配的方法了吗?怎么还搞多个机器学习方法. 因为词典方法和机器学习方法各有千秋. 机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会.而且它可使用 ...

  2. python+机器学习方法进行情感分析

    不是有词典匹配的方法了吗?怎么还搞多个机器学习方法. 因为词典方法和机器学习方法各有千秋. 机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会.而且它可使用 ...

  3. 情感分析算法 python_使用python+机器学习方法进行情感分析(详细步骤)

    不是有词典匹配的方法了吗?怎么还搞多个机器学习方法. 因为词典方法和机器学习方法各有千秋. 机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会.而且它可使用 ...

  4. python实现文本情感分析_用python实现简单的文本情感分析

    很久没在公众号发布新内容,在这段时间内没想到有这么多python爱好者关注了我,港真的,心里很兴奋激动. 今天给大家带来我刚刚实现了的简单多文本情感分析代码,代码环境python3.5 原理 比如这么 ...

  5. python实现情感分析_利用python实现简单情感分析

    最近选修的大数据挖掘课上需要做关于情感分析的pre,自己也做了一些准备工作,就像把准备的内容稍微整理一下写出来,下次再做类似项目的时候也有个参考. 情感分析是什么? 文本情感分析是指用自然语言处理(N ...

  6. python细粒度情感分析_用SenticNet库做细粒度情感分析

    细粒度情感分析 说细粒度情感分析,先说传统的情感分析(即粗粒度分析). 粗粒度情感分析只是简单的积极或消极情感的划分,并计算出情感的强度.但是情绪更细的维度层次,应该还可以对正负情绪进行划分.比如,积 ...

  7. python新闻情感分析_对知乎数据进行情感分析

    关于编码问题:'utf-8' codec can't decode byte 0xb7 in position 0: invalid start byte参见这篇博文:https://www.cnbl ...

  8. 用python进行营销分析_用python进行covid 19分析

    用python进行营销分析 Python is a highly powerful general purpose programming language which can be easily l ...

  9. anaconda中的python如何进行关联分析_浅析python,PyCharm,Anaconda三者之间的关系

    一.它们是什么? Python是一种跨平台的计算机程序设计语言,简单来说,python就是类似于C,Java,C++等,一种编程语言. 2.Anaconda Anaconda指的是一个开源的Pytho ...

最新文章

  1. Python基本语法_基本数据类型_序列类型详解
  2. 复杂数据权限设计方案
  3. java中接口的定义与实现
  4. mysql的主从复制原理
  5. lex 词法分析 linux,lex语言词法分析
  6. Canvas2~茜色的调色盘可奈线12月2日剧情翻译
  7. 【LightOJ - 1123】Trail Maintenance(在线维护最小生成树,删边思维)
  8. python浙江大学城市学院_GitHub - teribsandy/zjcs-tf-code: 浙江大学城市学院的tensorflow项目教学代码(部分)...
  9. Django外键关系:一对一、一对多,多对多
  10. 决策树(十)--GBDT及OpenCV源码分析
  11. ubuntu退出mysql sql语句_Ubuntu 16.04安装、卸载mysql及怎么使用SQL常用操作语句
  12. WPF|一个比较简单带点设计的登录界面
  13. oracle 拼音首字母查询,用Oracle的NLSSORT获取拼音首字母
  14. python批量下载bilibili视频_python批量提取哔哩哔哩bilibili视频
  15. 第6周作业1-闰年之循环判断(网络131黄宇倩)
  16. 微信小程序wx.getLocation()报错以及解决方法
  17. 我叫小M,立志建立MySQL帝国。
  18. 丰巢后撤,便宜了菜鸟驿站、京东快递柜?
  19. SQL分析阿里云淘宝电商数据
  20. 【自用】simetrix/simplis使用体验及问题分析(3)

热门文章

  1. CMMI五大成熟度定义及过程管理类详解
  2. Android 8.1中Settings中恢复出厂设置流程
  3. html5 签名,canvas在线签名插件Tablet
  4. 组态王软件与200smart无线以太网通信方案详解
  5. Nginx优化之长连接/https/负载均衡
  6. C语言 : 标准库 - <ctype.h>
  7. 北华大学计算机学院2020校历,关于2020年学校元旦、寒假放假及假期值班安排的通知...
  8. VS2013基于对话框的MFC串口通信简单案例教程
  9. 建筑工程造价常见的41个问题
  10. python vue admin_vue-admin和后端(flask)分离结合的例子