ICTCLAS 汉语词性标注
汉语文本词性标注标记集
Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。
a 形容词 取英语形容词adjective的第1个字母。
ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词conjunction的第1个字母。
Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。
d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。
e 叹词 取英语叹词exclamation的第1个字母。
f 方位词 取汉字“方”
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h 前接成分 取英语head的第1个字母。
i 成语 取英语成语idiom的第1个字母。
j 简称略语 取汉字“简”的声母。
k 后接成分
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m 数词 取英语numeral的第3个字母,n,u已有他用。
Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。
n 名词 取英语名词noun的第1个字母。
nr 人名 名词代码n和“人(ren)”的声母并在一起。
ns 地名 名词代码n和处所词代码s并在一起。
nt 机构团体 “团”的声母为t,名词代码n和t并在一起。
nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。
o 拟声词 取英语拟声词onomatopoeia的第1个字母。
p 介词 取英语介词prepositional的第1个字母。
q 量词 取英语quantit的第1个字母。
r 代词 取英语代词pronoun的第2个字母,因p已用于介词。
s 处所词 取英语space的第1个字母。
Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。
t 时间词 取英语time的第1个字母。
u 助词 取英语助词auxiliary
Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。
v 动词 取英语动词verb的第一个字母。
vd 副动词 直接作状语的动词。动词和副词的代码并在一起。
vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。
w 标点符号
x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。
y 语气词 取汉字“语”的声母。
z 状态词 取汉字“状”的声母的前一个字母。
-------------------------------------------------------------------------------
a: 形容词
b: 区别词
c: 连词
d: 副词
e: 叹词
g: 语素字
h: 前接成分
i: 习用语
j: 简称
k: 后接成分
m: 数词
n: 普通名词
nd: 方位名词
nh: 人名
ni: 机构名
nl: 处所名词
ns: 地名
nt: 时间词
nz: 其他专名
o: 拟声词
p: 介词
q: 量词
r: 代词
u: 助词
v: 动词
wp: 标点符号
ws: 字符串
x: 非语素字
ICTCLAS官网 www.ictclas.org
更多资料详见官方doc
转载于:https://www.cnblogs.com/kennyhr/p/3579722.html
ICTCLAS 汉语词性标注相关推荐
- 中科院分词ICTCLAS汉语分词系统简单配置
汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名:支持词典,多级词性标注,支持人 ...
- Python【jieba】词性标注表
文章目录 jieba词性标注表(0.39版) 读取jieba词库,生成词性标注表,保存为excel 带词性的分词 词与词性间映射 en2cn字典映射 0.42版后paddle模式词性和专名类别标签 其 ...
- 系统学习NLP(十)--词性标注算法综述
词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...
- 实现中文分词、词性标注、关键词提取、句法分析等智能预处理
实现中文分词.词性标注.关键词提取.句法分析等智能预处理的一个简单的小实验作业 实验报告 一.实验目的 二.实验环境 三. 实验内容(内容以txt1分析为例) 1.文本素材自动分词 (1)分词初步处理 ...
- jieba分词原理 ‖ 词性标注
jieba分词原理 | 基于前缀词典及动态规划的分词实现 jieba分词原理 | 基于汉字成词能力的HMM模型识别未登录词实现 jieba分词原理 | 词性标注 jieba分词原理 | 关键词抽取 1 ...
- jieba分词-词性标注
结巴分词4--词性标注 作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 1 简介 词性(part-of-speech)是词汇基本的语法范畴,通常也称为 ...
- Python大数据-电商产品评论情感数据分析
目录 一.项目背景 二.项目目标 三.分析方法与分析过程 四.数据清洗 数据抓取 评论去重 分词 停用词 词云图绘制 五. 数据分析 评论数据情感倾向分析 匹配情感词 修正情感倾向 LDA模型进行主题 ...
- 【RNG vs SKT】弹幕的自然语言的初步分析
前排 @皇族电子竞技俱乐部 ================================== S7中RNG对阵SKT,想必是全世界LOL玩家关注的重点.在比赛开始前,使用小葫芦把斗鱼S7直播间的弹 ...
- 序列标注的BIO标注体系
1.什么是序列标注 输入和输出都是序列 输入和输出序列是一一对应的 是一种结构化的分类,分类问题的一种推广 输出序列用的是BIO标注体系 序列标注是NLP中最基础的任务,应用十分广泛,如分词.词性标注 ...
- R语言中文分词包jiebaR
R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可 ...
最新文章
- 为什么Java的main方法必须是public static void?
- vue-element-admin 1.4问题及解决方案
- 在MVC3项目中结合NInject实现依赖注入
- pbc是什么材料_职道漫谈 | 华为的绩效跟你们公司的绩效,有什么区别?
- 闭包/Block当成函数参数实现回调
- 完全理解Gson(1):简单入门
- Vision Transformer中的自监督学习
- Chrome 浏览器将登陆 Fuchsia OS
- 计算十进制转为二进制后1的个数
- MAC系统上grep使用办法
- linux系统安装wine关关采集,在Ubuntu 20.04系统上安装和使用Wine 5的方法
- 【学习】无刷直流电机的基本结构及工作原理
- 如何发送工资条通知短信
- java8的stream流编程的sorted排序方法
- IDEA 2020.2 部署JSF项目
- 移动端html网页真机调试,Mac端调试iphone移动端网页
- sina获取股票代码java
- 常规工具类:GeneralUtils.java
- oracle 创建表定义主键,Oracle 学习----:创建表(主键自增)
- 计算机扫描的文件保存在哪,电脑教程:文件扫描后自动保存哪里去了
热门文章
- 主机甲和乙已建立了 TCP 连接,甲始终以 MSS=1KB 大小的段发送数据,并一直有数据 发送;乙每收到一个数据段都会发出一个接收窗口为 10KB 的确认段。若甲在 t 时刻发生超 时时拥塞窗口为
- 解决Mac无法睡眠问题
- php mov格式转换,mov格式怎么转换成mp4 如何将mov转换成mp4
- linux下解压rpm包,linux下 各种解压文件使用方法
- Win10运行红色警戒2尤里的复仇联机技巧+防守地图
- [译] 为什么加密货币泡沫会破裂?
- 2018款macbook pro如何安装windows双系统
- MBR和 GPT互转导致Windows无法开机,镜像备份找不到
- html页面填充颜色,div填充颜色 怎么用css定义部分背景颜色
- 最低报酬率计算机公式,股票报酬率计算公式