Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings
Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings
一、研究对象:中文社交媒体信息的命名实体识别。命名实体识别是一个非常重要的组成部分,是关系抽取和实体联系的第一步
二、对象特点:
三、问题描述:
1.NER for Chinese Social Media:和其他语言一样,社交媒体信息对于命名实体识别存在很多问题,例如贫血错误,新颖词汇,没有语法结构。而汉语存在更多的挑战。1.缺少一个此时名字的标志,2.缺少明确的次界限导致更深的命名实体识别混肴。3.此外,普通中文文本要么是简体中文,要么是繁体中文,而社交信息可能温和两种字体。
2.Embeddings for Chinese Text:词嵌入能够用一个低维的连续想来那个表示,能够捕获句法和语义相似度。1.预训练作为特征能够提高命名实体识别,2.对于较小的训练数据,嵌入能够显著的帮助。因为他们能够在大规模的未标记数据上进行训练。
四、现有方法:一种方法是使用词汇嵌入(lexical embeddings)去提高命名实体识别系统
五、方法缺陷:然而,对中文使用embedding仍然是个挑战。以往最好的命名实体是没有标签词,直接替换了标签特征。
六、本文对策:
一、本文提出了几个嵌入方法和他们在中文社交媒体命名实体识别上的作用。这些embeddings会作为特征用于NER系统中。
1.Word embedding
2.character embedding:消除了对文本进行预训练的依赖。更好的满足了本文的目的:在字符上添加NER标签。相比于words embedding,character embedding有更少的参数。但参数的减少也会导致紧固带的损失
3.character and position embedding:character embedding不能够区别不同位置上的相同字符。而Word embedding 不能够使用字符。此方法对每个character添加了位置标签。
二、微调 Fine Tuning
对于每一个嵌入,微调预训练的embedding。这就相当于使用预训练模型初始化embeddings参数,然后在反向传播梯度更新过程中修改参数
三、联合训练对象
微调的缺陷:可能任意偏离在未加工过得文本中国获得的参数。本文提出了联合学习embedding for both language models and the NER task。
四、参数估计。使用w2c的skip-gram 训练对象和负采样训练embeddings。
本文主要贡献:
1.第一次在中文社交媒体上使用命名实体识别。
2.评估了三种嵌入方式用于中文文本。
3.提出了同时 为命名实体识别和语言模型训练embedding的联合目标。
Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings相关推荐
- A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Medi
摘要 中文社交媒体中的命名实体识别(NER)因其非正规性和强噪声性而显得重要而困难.以往的方法只关注领域内的有监督学习,这因为标注数据很少而受到限制.然而,在形式域中有足够的语料库和大量的域内未标注文 ...
- PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition
Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition 文章目录 摘要 结论 ...
- 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition
论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...
- TENER: Adapting Transformer Encoder for Named Entity Recognition 笔记
TENER: Adapting Transformer Encoder for Named Entity Recognition Abstract(摘要) 1 Introduction(介绍) 2 R ...
- NER项目--github--A Unified MRC Framework for Named Entity Recognition
A Unified MRC Framework for Named Entity Recognition项目代码 简述 项目结构 models model_config.py classifier.p ...
- 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...
- [论文阅读笔记05]Deep Active Learning for Named Entity Recognition
一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...
- Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Att
论文名称:Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture wit ...
- MRC Framework for Named Entity Recognition【代码解读】
一.预备知识 介绍文章 A Unified MRC Framework for Named Entity Recognition[文章学习]:https://blog.csdn.net/qq_1694 ...
最新文章
- Main函数中参数argc,argv说明
- 谈“技术含量”的问题
- 松下机器人找原点步骤_桁架机器人在汽车座椅安装生产线中的应用
- OpenLDAP的安装和配置(含TLS和复制)
- 语音识别结合应用场景 各位大咖也有一些精彩论点
- 可以插卡的ipad_如何使用Mac或者ipad打电话
- 华住:移动时代,自主可控的架构秘密
- 用python做计算器
- ISO/IEC 27000官方文档
- 游戏上云?-游戏设计与开发(2)
- 华为+android+root权限获取root,如何获得华为手机的root权限?华为root权限获取教程...
- Mac 下如何添加网段
- CAD梦想画图中的“绘图工具——椭圆弧”
- 面试题:数组和链表的区别
- 回车与换行符的区别及python中使用
- Perfect Office Manner for Secretary 完美文秘办公礼仪
- 第5章第26节:如何放映制作完成的演示文稿 [PowerPoint精美幻灯片实战教程]
- Pytorch nn.Parameter()
- 网络与信息安全产品(一)
- 使用adb命令查看手机日志