【NLP】计算所汉语词性标记集
原文:http://ictclas.nlpir.org/nlpir/html/readme.htm#_Toc34628493
制订人:刘群 张华平 张浩
说明
计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:
1. 北大《人民日报》语料库词性标记集;
2. 北大2002新版词性标记集(草稿);
3. 清华大学汉语树库词性标记集;
4. 教育部语用所词性标记集(国家推荐标准草案2002版);
5. 美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;
由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本
词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
本标记集在制定过程中主要考虑了以下几方面的因素:
1. 有助于提高汉语词法分析器的切分和标注正确率;
2. 有助于提高汉语句法分析器的正确率;
3. 有助于汉英机器翻译系统进行翻译;
4. 易于从北大《人民日报》语料库词性标记集进行转换;
5. 对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。
基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。
在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。
对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。
另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。
名词 (1个一类,7个二类,5个三类)
名词分为以下子类:
n 名词
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
nl 名词性惯用语
ng 名词性语素
时间词(1个一类,1个二类)
t 时间词
tg 时间词性语素
处所词(1个一类)
s 处所词
方位词(1个一类)
f 方位词
动词(1个一类,9个二类)
v 动词
vd 副动词
vn 名动词
vshi 动词“是”
vyou 动词“有”
vf 趋向动词
vx 形式动词
vi 不及物动词(内动词)
vl 动词性惯用语
vg 动词性语素
形容词(1个一类,4个二类)
a 形容词
ad 副形词
an 名形词
ag 形容词性语素
al 形容词性惯用语
区别词(1个一类,1个二类)
b 区别词
bl 区别词性惯用语
状态词(1个一类)
z 状态词
代词(1个一类,4个二类,6个三类)
r 代词
rr 人称代词
rz 指示代词
rzt 时间指示代词
rzs 处所指示代词
rzv 谓词性指示代词
ry 疑问代词
ryt 时间疑问代词
rys 处所疑问代词
ryv 谓词性疑问代词
rg 代词性语素
数词(1个一类,1个二类)
m 数词
mq 数量词
量词(1个一类,2个二类)
q 量词
qv 动量词
qt 时量词
副词(1个一类)
d 副词
介词(1个一类,2个二类)
p 介词
pba 介词“把”
pbei 介词“被”
连词(1个一类,1个二类)
c 连词
cc 并列连词
助词(1个一类,15个二类)
u 助词
uzhe 着
ule 了 喽
uguo 过
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一样 一般 似的 般
udh 的话
uls 来讲 来说 而言 说来
uzhi 之
ulian 连 (“连小学生都会”)
叹词(1个一类)
e 叹词
语气词(1个一类)
y 语气词(delete yg)
拟声词(1个一类)
o 拟声词
前缀(1个一类)
h 前缀
后缀(1个一类)
k 后缀
字符串(1个一类,2个二类)
x 字符串
xe Email字符串
xs 微博会话分隔符
xm 表情符合
xu 网址URL
标点符号(1个一类,16个二类)
w 标点符号
wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wyz 左引号,全角:“ ‘ 『
wyy 右引号,全角:” ’ 』
wj 句号,全角:。
ww 问号,全角:? 半角:?
wt 叹号,全角:! 半角:!
wd 逗号,全角:, 半角:,
wf 分号,全角:; 半角: ;
wn 顿号,全角:、
wm 冒号,全角:: 半角: :
ws 省略号,全角:…… …
wp 破折号,全角:―― -- ――- 半角:--- ----
wb 百分号千分号,全角:% ‰ 半角:%
wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
【NLP】计算所汉语词性标记集相关推荐
- (自然语言处理文档系列)Penn Treebank词性标记集
Penn Treebank词性标记集 在进行自然语言处理时,常见的任务是对单词进行词性标注,但对于标注的结果我们有时候不是很明白,文章介绍了对于常见的标注结果的中文含义: 编号 缩写 英文 中文 1 ...
- Penn Treebank词性标记集
转载的 编号 缩写 英文 中文 1 CC Coordinating conjunction 并列连接词 2 CD Cardinal number 基数 3 DT Determiner 限定词 4 EX ...
- Penn Treebank词性标记集(符号说明)
编号 缩写 英文 中文 1 CC Coordinating conjunction 并列连接词 2 CD Cardinal number 基数 3 DT Determiner 限定词 4 EX Exi ...
- 英文语料库词性标记表(TreeTagger) 附TreeTagger软件包
词性标记(TreeTagger) VV 动词(基本形式) VVP 动词(现在时态,非第三人称单数) VVZ 动词(现在时态,第三人称单数) VVD 动词(过去时态) VVN 动词(过去分词) VVG ...
- 【NLP】Penn Treebank Tagset 宾州树库 词性标记说明
转自:http://blog.csdn.net/wskings/article/details/17607021 最近在做命名实体识别,用到Stanford-CoreNlp词性标记,由于不是语言学专业 ...
- viterbi算法词性标注_使用Viterbi算法深入研究词性标记
viterbi算法词性标注 by Sachin Malhotra 由Sachin Malhotra 使用Viterbi算法深入研究词性标记 (A deep dive into part-of-spee ...
- NLP文本情感分析:测试集loss比训练集loss大很多,训练集效果好测试集效果差的原因
NLP情感分析:测试集loss比训练集loss大很多 一.前言 二.原因 一.前言 最近在学习神经网络自然语言处理的相关知识,发现运行的之后测试集的loss比训练集的loss大很多,而accuracy ...
- 词性标记说明(Penn Treebank Tagset 宾州树库)
转自:http://blog.csdn.net/wskings/article/details/17607021 最近在做命名实体识别,用到Stanford-CoreNlp词性标记,由于不是语言学专业 ...
- NLP之汉语自动分词
汉语自动分词就是让计算机识别出汉语文本中的'词',在词与词之间自动加上空格或其他边界标记. 目录 一.汉语自动分词中的基本问题 1.1分词规范问题 2.2歧义切分问题 3.未登录词问题 二.汉语分词方 ...
- 自然语言处理(NLP)之英文单词词性还原
词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似. 简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同 ...
最新文章
- socket的系统调用
- 初识ES-安装IK分词器
- reorder-list
- 网站检测之防注入绕过的十一种技巧
- python __call__或者说func()()的理解
- 代码整洁之道 垃圾编码收集
- VS2010SP1安装失败解决方法
- 小程序报错:Error: errCode: -404011 cloud function execution error | errMsg: cloud.callFunction:fail req..
- c++ 开发虚拟摄像头_开发板有了,但我们要怎么玩?
- 多元统计分析朱建平pdf_应用多元统计分析 朱建平.pdf
- 有定位的含有 input的弹框,在有些手机光标乱跳
- 【文件管理】-如何规范文件及文件夹命名
- 制作的excel表格如何放到微信公众平台文章中?
- 【Python数据清洗】numpy.take()用法
- java 字符串中判断字母大小写方法
- 黑群辉DSM 6.2.3 系统安装
- 数据分析02-线性回归
- Kafka 的 replica 同步机制(ISR与OSR列表数据相互转换)
- 在计算机系统中 屏幕的显示分辨率为,屏幕分辨率调不了怎么办 电脑分辨率显示不正确时应该怎么做...
- 【自学笔记】天地图添加标注