自然语言处理NLP（一）

NLP

自然语言：指一种随着社会发展而自然演化的语言，即人们日常交流所使用的语言；
自然语言处理：通过技术手段，使用计算机对自然语言进行各种操作的一个学科；

NLP研究的内容

词意消歧；
指代理解；
自动生成语言；
机器翻译；
人机对话系统；
文本含义识别；

NLP处理

语料读入
- 网络
- 本地
分词

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018-9-28 22:21
# @Author  : Manu
# @Site    :
# @File    : python_base.py
# @Software: PyCharmimport urllib
from nltk import word_tokenize
from bs4 import BeautifulSoup# 在线文档下载
url = 'http://www.gutenberg.org/files/2554/2554-0.txt'
res = urllib.request.urlopen(url)
raw = res.read().decode('utf8')
print('length', len(raw))
print('type', type(raw))
print(raw[:100])# 分词
tokens = word_tokenize(raw)
print(tokens[:50])
print('length:' + str(len(tokens)))
print('type:', type(tokens))# 创建文本
text = nltk.Text(tokens)
print('type', type(text))
print('length', len(text))
print(text)

基于此单位的文本分析
- 正则表达式
分割
- 断句
- 分词
规范化输出

中文分词及相应算法

基于字典、词库匹配；
- 正向最大匹配；
- 逆向最大匹配；
- 双向最大匹配；
- 设立切分表执法；
- 最佳匹配；
基于词频度统计；
- N-gram模型；
- 隐马尔科夫模型；
- 基于字标注的中文分词方法；
基于知识理解；

分词方法比较

结巴分词

安装
在控制台使用pip install jieba即可安装；
功能
- 分词；
  - jieba.cut、jieba.cut_for_search；
- 添加自定义词典；
  - jieba.load_userdict(file_name)、add_word(word, freq=None, tag=None)、jieba.del_word(word)、jieba.suggest_freq(segmen, tune=True)；
- 关键词提取；
  - jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())；
  - jieba.analyse.set_idf_path(file_name)；
  - jieba.analuse.set_stop_words(file_name)；
- 词性标注；
  - jieba.tokenize()；
  - jieba.posseg.cut()；
- 并行分词；
- 词汇搜索；

转载于:https://blog.51cto.com/13473568/2289534

自然语言处理NLP（一）相关推荐

【组队学习】【29期】9. 基于transformers的自然语言处理(NLP)入门
9. 基于transformers的自然语言处理(NLP)入门航路开辟者:多多.erenup.张帆.张贤.李泺秋.蔡杰.hlzhang 领航员:张红旭.袁一涵航海士:多多.张红旭.袁一涵.童鸣基 ...
【组队学习】【28期】基于transformers的自然语言处理(NLP)入门
基于transformers的自然语言处理(NLP)入门论坛版块: http://datawhale.club/c/team-learning/39-category/39 开源内容: https: ...
自然语言处理(NLP)之用深度学习实现命名实体识别(NER)
几乎所有的NLP都依赖一个强大的语料库,本项目实现NER的语料库如下(文件名为train.txt,一共42000行,这里只展示前15行,可以在文章最后的Github地址下载该语料库): played ...
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度所用数据集:ChnSentiCorp_htl_all.csv 语料库即存放稀疏向量的列表. 要注意的是,搜索文本text与被检索的文档共用一 ...
自然语言处理(NLP)之gensim中的TF-IDF的计算方法
自然语言处理(NLP)之gensim中的TF-IDF的计算方法 step 1. 去掉所有文本中都会出现的词 texts = [['这是', '一个', '文本'], ['这是', '第二个', '文 ...
自然语言处理NLP之语义相似度、语言模型、doc2vec
自然语言处理NLP之语义相似度.语言模型.doc2vec 目录自然语言处理NLP之语义相似度.语言模型.doc2vec 语义相似度
自然语言处理NLP之BERT、BERT是什么、智能问答、阅读理解、分词、词性标注、数据增强、文本分类、BERT的知识表示本质
自然语言处理NLP之BERT.BERT是什么.智能问答.阅读理解.分词.词性标注.数据增强.文本分类.BERT的知识表示本质目录
自然语言处理NLP之文本蕴涵、智能问答、语音识别、对话系统、文本分类、情感计算
自然语言处理NLP之文本蕴涵.智能问答.语音识别.对话系统.文本分类.情感计算目录
自然语言处理NLP之文本摘要、机器翻译、OCR、信息检索、信息抽取、校对纠错
自然语言处理NLP之文本摘要.机器翻译.OCR.信息检索.信息抽取.校对纠错目录
自然语言处理NLP之自然语言生成、文本相似性、看图说话、说话生图、语音合成、自然语言可视化
自然语言处理NLP之自然语言生成.文本相似性.看图说话.说话生图.语音合成.自然语言可视化目录

自然语言处理NLP（一）

NLP

NLP研究的内容

NLP处理

中文分词及相应算法

分词方法比较

结巴分词

自然语言处理NLP（一）相关推荐

最新文章

热门文章