集合语义空间提高动提取同义词能力

  1. 文章出发点:医学界需要统一医学文章的专用词语言,从而针对医学文本同义词提取精度有限的问题,进行提高同义词从其他语义关系中分离开的能力。
  2. 方法概括:(1)语料库预处理 (2)从两个语料库(和联合语料库)构建语义空间,(3)识别最有利的单个语料库(和联合语料库))组合,(4)识别最有利(不相交)的多语料组合,(5)单个语料库(包括联合语料库)和多个语料库组合的评估,(6)候选术语的后处理,和(7)频率阈值实验。
  3. 具体步骤:
    运用材料:(1)临床语料库,包括健康记录的注释,和 (2)医学语料库,包括医学期刊文章
    主要概念:RI随机索引:RI是LSA的增量,通过分配稀疏的、内部的和随机生成的d维索引向量来实现 给予某一术语静态的唯一表示值,为每个唯一术语分配相同维度d的初始空上下文向量。然后通过添加目标术语出现的上下文的(加权)索引向量,用上下文信息递增地填充上下文向量。
    【然而LSA是什么呢】LSA是潜在语义分析,具体说来就是对一个大型的文档集合使用一个合理的维度建模,并将词和文档都表示到该空间,而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。

具体的做法是将词项文档矩阵做SVD分解,其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把的r个对角元素的前k个保留(最大的k个保留), 后面最小的r-k个奇异值置0, 得到;最后计算一个近似的分解矩阵,则在最小二乘意义下是的最佳逼近。由于最多包含k个非零元素,所以的秩不超过k。通过在SVD分解近似,我们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重,将不太重要的权重置为0,只保留最重要的维度信息,去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。【这段我看懂了,但我实在概括不下来】
【然而SVD奇异值分解和降维又是什么呢】【这个我研究了一下午,步骤非常繁琐,不知道可不可以引用其他博主的文,好想把链接直接放上来】

RP随机排列:RP是RI的修改,其通过在将索引向量添加到上下文向量之前简单地置换(即移位)索引向量中的元素根据它们的方向和与目标项的距离来编码项顺序信息。

一、从临床和医学语料库中诱导语义空间

每个单独的语义空间使用一种模型类型构建,使用预定义的上下文窗口大小并从单个语料库类型诱导。使用JavaSDM[49](文章用的是java)用随机索引(RI)和随机排列(RP)构造语义空间。对于所有语义空间,使用1000的维度(在索引向量中具有8个非零,随机分布的元素:4个1和4个-1)。当使用RI模型时,索引向量根据它们与目标项的距离进行加权,即下式,其中distit是到目标项的距离。当采用RP模型时,索引向量的元素反而根据它们与目标项的方向和距离移位;不执行加权。


对于所有模型,使用围绕术语的两个(1+1),四个(2+2)和八个(4+4)的窗口大小。此外,为了研究显着更宽的上下文定义是否可能有利,诱导窗口大小为20(10+10)的RI空间。
创建每个语料库的两个版本:一个保留终止词的版本和一个删除它们的版本

两个语料库的统计数据如表1所示。总共诱导了30个语义空间-每种语料库类型10个,联合语料库10个。从每种语料库类型(总共12个)诱导四个RI空间,差异是使用的上下文定义(1+1,2+2,4+4,10+10)。从每种语料库类型(总共18个)产生六个RP空间,差异是使用的上下文定义(1+1,2+2,4+4)以及停止词是否已被删除或保留(sw)。

二、来自单个语料库的语义空间的组合

因为组合RI和RP空间可以增强捕获同义词的可能性,于是设计和评估了将基于RI的语义空间与RP空间组合的三种不同策略。对每个语料库评估30种组合,即总共60种(表2)。三种组合策略是:

•RI⊂RP30 找到RI空间中排名前十位的术语,这些术语属于RP空间中排名前三十位的术语。

•RP⊂RI30 找到RP空间中排名前十位的术语,这些术语属于RI空间中排名前三十位的术语。

•RI+RP 对每个候选项的两个空间中的余弦相似性得分求和
前两种策略根据给定的查询生成单词的初始排名。然后使用在相同语料库上训练的另一种模型类型根据其内部排名重新排列第一模型产生的前30个单词。
第三种策略(RI+RP)中,我们应用生成的相似性分数的直接求和。

三、 来自多个语料库的语义空间的组合

除了组合从一个和同一个语料库诱导的语义空间之外,从多个语料库诱导的语义空间的组合可能在提取同义词和缩写扩展对的任务上产生甚至更好的性能,组合策略可以有效地分为两组方法
第一个方法是一步到位的方法

首先通过使用排序而不是余弦相似性来对每个语义空间的输出进行归一化;然后将每个候选术语在每个语义空间中的归一化分数求和;最后将该值平均在该术语存在的语义空间的数量上。返回此列表中的前十个术语。

下面是两步的

【写到这里的时候我意识到了一个问题,那就是这篇文章并没有像其他同学的那样细讲每一步,并且在处理上直接上升到几个大库的同义词处理,并且后面两个步骤文章中并没有确切的步骤描述,而是直接讨论了运用上述两组方法处理完数据,于是,转变心态,开始做摘抄…】

四、候选词的后处理

对于同义词提取,已使用秩和余弦相似性的截止值。这些截止值在不影响回忆的情况下,被设置为引用标准的开发子集合中最佳语义空间组合的最大化指定(见图2、3和4)。对于临床语料,使用的截止值如等式5所示,对于医学语料库,并在公式7中为两个语料库的组合。在等式7中,cos表示余弦值的组合,这意味着它的最大值为4,而不是1。


【然后就是基于上述研究的调试了这一段我就更懵了,太高深了,我觉得也跟我没有很好地理解RI和RP的形态有关,感觉整个文章研究的东西在我脑子里还是很抽象,看了一下午,觉得第七步探究步还是不知从何下手,太崩溃了。】

五 、频率阈值实验

还是概括一下我理解的第七步,该步是将RI和RP整理完,利用余弦相似性的排列,调整阈值以取到两个语料库中的引用和术语的调用和所需的最小发生频率,并以此讨论其之间的关系。

总结

以上是我的文章总结笔记了,作为第一次看论文写读后笔记,我觉得挺失败的,首先是在看论文时候没有先粗略浏览全文而是直接从要点开始死磕,结果开始套娃似的各种百度学下来也云里雾里,看到群里面大家的博客后才意识到自己看的论文可能并不能很好地贴切这次研讨的问题,这个方法给我的感觉就是它不难但没理解透最基础几个观念就很难开始读懂它,第二点是耐心问题,看到长篇的文章就有点发怵,不敢下手,有一种 不会也可以 的潜意识,这也是到了文章最后一步啥也看不懂的最大原因吧。而这些问题出现的原因,就是我轻率地直接拿了篇文章就自个研究而不去询问有经验的教授还有其他小姐姐,至少了解一下学习论文的流程给自己心里打个谱啊…总而言之,是一次很惨痛的教训了。

集合语义空间提高动提取同义词能力相关推荐

  1. 如何才能提高文档编写能力呢[转]

    如何才能提高文档编写能力呢 该如何才能提高文档编写能力呢,可以采用了以下几种方法,只要坚持不懈的做下去,相信会有提高. 1.尝试编写个人简历和经历,用文字来认识自己是不错的方法.要想别人认识你,首先自 ...

  2. 发现一个好问题胜过一切!如何提高发现问题的能力

    一直在讲学术能力,问题太大太宽泛.很多读者听到这个概念,也许会想到我们之前讲到的逻辑思维.批判性思维.记笔记等等. 这些都是,但笔者认为,最基础的,是提出问题的能力. 爱因斯坦曾说过:"如果 ...

  3. 前沿重器[10] | bert语义空间的思考

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[5] | ...

  4. 如何提高小学生的阅读能力1

    如何提高小学生的阅读能力1 2010年03月16日 ㈠浅谈如何提高的阅读能力 唯一的方法就是大量的阅读 理解能力只能靠孩子的自身了 他智力只要不差我相信是一点问题都没有的 随着年龄的增长和阅历的增长理 ...

  5. 如何提高自己的阅读能力和理解能力?

    本文摘自如何高效学习一书. 首先介绍一种阅读方法,指读法. 在读书时,你的眼睛不会总是停留在书上的某个地方,眼睛会不断地运动,这会降低阅读速度.使用手指会让眼睛停留在你要阅读的地方,这样简单的办法也会 ...

  6. python diango 并发_利用gunicorn提高django的并发能力

    引言 手头上的项目有一些采用django框架编写, 如果说并发量比较小的时候简单的runserver是可以应对的. 那么当并发达到一两千的时候,该怎么提高django的并发能力呢? Overview ...

  7. 学生如何提高专业英文阅读能力(施一公)

    学生如何提高专业英文阅读能力 [ 序:此文针对本科生和一.二年级的博士.硕士生,对高年级的博士生和博士后也应该有参考价值.该文的一些背景可以参考我此前关于提高英文写作能力的博文:http://www. ...

  8. 如何提高思维能力和逻辑能力?

    1. 形成一个合理的思考框架的能力? 提高思考框架的能力 what-why-how 是一种框架 目标-现状-挑战-行动是一个框架 2. 在框架里填充什么内容的能力? 1)读和看 吸收书籍文章课程中的思 ...

  9. 怎样提高自己的分析能力

    分析能力是对事物本质属性以及事物之间的内在联系的深刻揭示能力.事物的现象是纷繁复杂,变化万千的,要对这些现象进行加工整理,从中找出内在的联系和规律,就必须掌握一套科学的分析方法,提高自己的分析能力. ...

最新文章

  1. Numpy入门教程:09. 输入和输出
  2. 根据FileUpload控件名获取上传文件(大小)类型
  3. 第十讲 二阶齐次常系数线性ODE(续)
  4. kafka-topics.sh topic主题crud
  5. 每日程序C语言3-三个数大小排序
  6. 柱状图中最大的矩形—leetcode84
  7. 查看android数据库sqlite3中的表及数据、直接编辑数据库
  8. 两列布局 html5,CSS两列布局的N种实现
  9. pajek软件使用方法_双全科技|管家婆管理库存必备“序列号”,管家婆软件的使用方法...
  10. IT 技能发展:10 大基本 IT 技能(精通一半你就是人才)
  11. MATLAB代码:基于分时电价条件下家庭能量管理策略研究
  12. SPSS25 软件安装教程(附带网盘资源)
  13. 字符个数统计 java
  14. MySQL主从复制-基于binlog
  15. sony电视遥控器android,听说,索尼电视遥控器还能控制机顶盒!
  16. tomcat在45秒内没有启动,启动超时
  17. 初探Java设计模式4:JDK中的设计模式
  18. 快速排序的那些事儿(Kotlin)
  19. java poi解析excel_Java 利用POI 解析Excel
  20. Choosing Teams

热门文章

  1. 【考试记录】Apsara Clouder云计算技能认证:云数据库管理与数据迁移
  2. 【读书笔记】Android开发艺术探索
  3. 吴承恩竟在《西游记》中埋下这么一大伏笔!
  4. 收藏 | 最最最最简单、最最最最详细的Python和Pandas安装教程
  5. html flex布局换行,flex布局换行后间隙问题
  6. 支付宝 自动发货 php,ecshop支付宝自动发货接口用法示例
  7. 血腥大地-第一季-张立铜-专题视频课程
  8. 【深度学习】python矩阵乘积运算(multiply/maumul/*/@)
  9. 网络技能大赛-2019年国赛真题[2019年全国职业技能大赛高职组计算机网络应用赛项真题-H卷]AC/AP/EG部分答案详解
  10. 华中科技大学计算机系帅哥,华科帅哥为啥没人理?!