汉语文本词性标注标记集

Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。

a 形容词 取英语形容词adjective的第1个字母。

ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。

an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。

b 区别词 取汉字“别”的声母。

c 连词 取英语连词conjunction的第1个字母。

Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。

d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。

e 叹词 取英语叹词exclamation的第1个字母。

f 方位词 取汉字“方”

g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h 前接成分 取英语head的第1个字母。

i 成语 取英语成语idiom的第1个字母。

j 简称略语 取汉字“简”的声母。

k 后接成分

l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。

m 数词 取英语numeral的第3个字母,n,u已有他用。

Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。

n 名词 取英语名词noun的第1个字母。

nr 人名 名词代码n和“人(ren)”的声母并在一起。

ns 地名 名词代码n和处所词代码s并在一起。

nt 机构团体 “团”的声母为t,名词代码n和t并在一起。

nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。

o 拟声词 取英语拟声词onomatopoeia的第1个字母。

p 介词 取英语介词prepositional的第1个字母。

q 量词 取英语quantit的第1个字母。

r 代词 取英语代词pronoun的第2个字母,因p已用于介词。

s 处所词 取英语space的第1个字母。

Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。

t 时间词 取英语time的第1个字母。

u 助词 取英语助词auxiliary

Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。

v 动词 取英语动词verb的第一个字母。

vd 副动词 直接作状语的动词。动词和副词的代码并在一起。

vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。

w 标点符号

x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。

y 语气词 取汉字“语”的声母。

z 状态词 取汉字“状”的声母的前一个字母。
-------------------------------------------------------------------------------
a:        形容词
b:        区别词
c:        连词
d:        副词
e:        叹词
g:        语素字
h:        前接成分
i:        习用语
j:        简称
k:        后接成分
m:        数词
n:        普通名词
nd:        方位名词
nh:        人名
ni:        机构名
nl:        处所名词
ns:        地名
nt:        时间词
nz:        其他专名
o:        拟声词
p:        介词
q:        量词
r:        代词
u:        助词
v:        动词
wp:        标点符号
ws:        字符串
x:        非语素字

ICTCLAS官网 www.ictclas.org

更多资料详见官方doc

转载于:https://www.cnblogs.com/kennyhr/p/3579722.html

ICTCLAS 汉语词性标注相关推荐

  1. 中科院分词ICTCLAS汉语分词系统简单配置

    汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名:支持词典,多级词性标注,支持人 ...

  2. Python【jieba】词性标注表

    文章目录 jieba词性标注表(0.39版) 读取jieba词库,生成词性标注表,保存为excel 带词性的分词 词与词性间映射 en2cn字典映射 0.42版后paddle模式词性和专名类别标签 其 ...

  3. 系统学习NLP(十)--词性标注算法综述

    词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...

  4. 实现中文分词、词性标注、关键词提取、句法分析等智能预处理

    实现中文分词.词性标注.关键词提取.句法分析等智能预处理的一个简单的小实验作业 实验报告 一.实验目的 二.实验环境 三. 实验内容(内容以txt1分析为例) 1.文本素材自动分词 (1)分词初步处理 ...

  5. jieba分词原理 ‖ 词性标注

    jieba分词原理 | 基于前缀词典及动态规划的分词实现 jieba分词原理 | 基于汉字成词能力的HMM模型识别未登录词实现 jieba分词原理 | 词性标注 jieba分词原理 | 关键词抽取 1 ...

  6. jieba分词-词性标注

    结巴分词4--词性标注 作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 1 简介 词性(part-of-speech)是词汇基本的语法范畴,通常也称为 ...

  7. Python大数据-电商产品评论情感数据分析

    目录 一.项目背景 二.项目目标 三.分析方法与分析过程 四.数据清洗 数据抓取 评论去重 分词 停用词 词云图绘制 五. 数据分析 评论数据情感倾向分析 匹配情感词 修正情感倾向 LDA模型进行主题 ...

  8. 【RNG vs SKT】弹幕的自然语言的初步分析

    前排 @皇族电子竞技俱乐部 ================================== S7中RNG对阵SKT,想必是全世界LOL玩家关注的重点.在比赛开始前,使用小葫芦把斗鱼S7直播间的弹 ...

  9. 序列标注的BIO标注体系

    1.什么是序列标注 输入和输出都是序列 输入和输出序列是一一对应的 是一种结构化的分类,分类问题的一种推广 输出序列用的是BIO标注体系 序列标注是NLP中最基础的任务,应用十分广泛,如分词.词性标注 ...

  10. R语言中文分词包jiebaR

    R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可 ...

最新文章

  1. 为什么Java的main方法必须是public static void?
  2. vue-element-admin 1.4问题及解决方案
  3. 在MVC3项目中结合NInject实现依赖注入
  4. pbc是什么材料_职道漫谈 | 华为的绩效跟你们公司的绩效,有什么区别?
  5. 闭包/Block当成函数参数实现回调
  6. 完全理解Gson(1):简单入门
  7. Vision Transformer中的自监督学习
  8. Chrome 浏览器将登陆 Fuchsia OS
  9. 计算十进制转为二进制后1的个数
  10. MAC系统上grep使用办法
  11. linux系统安装wine关关采集,在Ubuntu 20.04系统上安装和使用Wine 5的方法
  12. 【学习】无刷直流电机的基本结构及工作原理
  13. 如何发送工资条通知短信
  14. java8的stream流编程的sorted排序方法
  15. IDEA 2020.2 部署JSF项目
  16. 移动端html网页真机调试,Mac端调试iphone移动端网页
  17. sina获取股票代码java
  18. 常规工具类:GeneralUtils.java
  19. oracle 创建表定义主键,Oracle 学习----:创建表(主键自增)
  20. 计算机扫描的文件保存在哪,电脑教程:文件扫描后自动保存哪里去了

热门文章

  1. 主机甲和乙已建立了 TCP 连接,甲始终以 MSS=1KB 大小的段发送数据,并一直有数据 发送;乙每收到一个数据段都会发出一个接收窗口为 10KB 的确认段。若甲在 t 时刻发生超 时时拥塞窗口为
  2. 解决Mac无法睡眠问题
  3. php mov格式转换,mov格式怎么转换成mp4 如何将mov转换成mp4
  4. linux下解压rpm包,linux下 各种解压文件使用方法
  5. Win10运行红色警戒2尤里的复仇联机技巧+防守地图
  6. [译] 为什么加密货币泡沫会破裂?
  7. 2018款macbook pro如何安装windows双系统
  8. MBR和 GPT互转导致Windows无法开机,镜像备份找不到
  9. html页面填充颜色,div填充颜色 怎么用css定义部分背景颜色
  10. 最低报酬率计算机公式,股票报酬率计算公式