互联网文本的法律法条引用跟踪分析
目录
互联网文本的法律法条引用跟踪分析 1
一.任务介绍 1
二.核心算法介绍 3
2.1 整体模型概览 3
2.2 法律法条识别确定有限自动机 5
2.3 历史版本区分 5
(3)历史版本中没有对应的法条。 7
(1) 7
(3) 7
2.4 特征词序列匹配 7
(4) 10
(6) 11
2.5 文本分段匹配 11
三.结论 13
一.任务介绍
我们致力于提出一种能够有效解决法律相关特有问题的高准确度的法律法条引用信息抽取算法。由于互联网文本和法律条文并不属于 同一类型的文本,两者在篇幅、用词、表达规范方面具有显著的区别, 互联网文本中通常只有一小部分包含法律内容,而传统的文本匹配方 法中,根据词汇相似度判别的词袋模型(BOW)和未考虑词序的向量 空间模型(VSM)无法简单地应用于引用法条的抽取问题。近来,深度匹配模型取得较多进展,然而这类模型训练需要大量标注的文本数 据,而且由于一部法律往往有上百条法条,能够匹配成功的法条数绝 大部分在 1 至 2 条,正例与负例的比例相差太大,直接标注全部法条数据得到的训练集数据不均衡,文本和法条的匹配过于稀疏,难以直 接训练出有效匹配的模型。
基于前述任务特点,我们提出了一种融合确定有限自动机(DFA)、特征词序列和深度匹配的混合层次抽取模型 DS-LSTM。首先使用DFA 从文本中进行初步匹配,通过法律名和法条号来初步筛选和过滤可能匹配的法条。对于已经抽取了法条号的文本,进一步通过比较各个历史版本的法条,做到精确分类;对于没有获取法条号的文本, 通过构建特征词序列来表示文本,计算序列之间的相似度来衡量文本和法条的匹配程度,据此给出候选的法条,再使用 MV-LSTM 模型计算文本与候选法条之间的语义相似度,根据语义相似度来判断法条与文本是否匹配。
本研究的主要贡献是根据法律法规文本匹配问题,提出了融合多 种抽取方法的混合层次抽取模型,而不是单纯使用深度模型或者 DFA 进行简单的匹配。虽然目前存在许多效果较好的深度匹配模型,但是 在文本的法律法条抽取任务中,待匹配的文本引用的法律法条数量不 同、表达方式不同造成需要大量各种类型训练数据的问题,以及待匹 配的法律法条数量众多,实际匹配数量只有一两条法条造成的数据倾 斜问题,直接使用深度文本匹配模型并不能实现高精度的抽取质量, 而引入 DFA 进行抽取可以很好地缩小可能匹配的法律以及法条范围。同时根据识别结果区分出多种不同类型的文本,可以有效地避免训练
数据倾斜的问题。使用 DFA 抽取出文本中可能包含的多部法律名以 及法条号,同时将文本按照法律以及法条出现的位置分割成文本片段, 避免了多部法律在匹配过程中相互影响的问题。我们的方法在法律以 及法条级别匹配结果的

基于Python的互联网文本法律法条引用跟踪分析相关推荐

  1. 基于python的爬虫系统金融数据_基于Python的互联网金融数据采集

    基于Python的互联网金融数据采集 □文/王 蕾1安英博1刘佳杰2 [提要] 互联网金融数据中潜藏着未知的知识价值,但也存在着巨量的数据冗余.通过Python可以进行互联网金融数据的获取.解析.提取 ...

  2. 基于PYTHON的超大文本分割工具

    "记事本"作为一款保存信息的载体,基本上每个网民都见过或使用过它.它不但读取方便,使用起来也是得心应手.不过,对于存放有超大数据的TXT文本,我们对它又爱又恨.爱它是因为我们的信息 ...

  3. 计算机毕业论文内容参考|基于Python的互联网金融产品交易平台的设计与实现

    文章目录 导文 摘要 前言 绪论 课题背景 国内外现状与趋势 课题内容 相关技术与方法介绍 技术分析 需求分析 技术分析 技术设计 系统架构 技术实现 产品管理模块 订单管理模块 支付管理模块 总结与 ...

  4. kettle大于0的转换成1_第一期实训周:基于Python+MySQL+Kettle+R的某网站数据采集分析...

    ↓ 基于Python+MySQL+Kettle+R的 某网站数据采集分析 哈喽!各位学员们 咱们第一期课程就要开始了 下面划重点! 一 高校院系 齐鲁工业大学数学与统计学院应用统计系 二 实训日期 2 ...

  5. 基于 Python 的全国空气质量监测与可视化分析平台

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目背景 空气质量优劣程度与一个城市的综合竞争力密切相关,它直接影响到投资环境和居民健康,因此越来越受到政府和 ...

  6. 基于python的汽车信息爬取与可视化分析系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 本项目利用网络爬虫技术从某汽车门户网站采集汽车数据,并利用 Flask + Echarts 前后端框 ...

  7. 【计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩】 https://b23.tv/jRN6MVh

    [计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩] https://b23.tv/jRN6MVh https://b23.tv/jRN6MVh

  8. 【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析

    [大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...

  9. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

最新文章

  1. CF70D Professor's task(动态凸包)
  2. java 减法_java 加减法2
  3. Qt学习笔记之国际化
  4. uchome 数据库结构 数据库字典
  5. 小程序实现局部元素隐藏
  6. 查找占用内存最大进程所在路径命令
  7. 吃瓜笔记 | Momenta王晋玮:让深度学习更高效运行的两个视角
  8. Safari 快捷键
  9. java健身房管理系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
  10. linux文件名补全,Linux中10个关于命令行自动补全的技巧
  11. matlab plotyy 坐标轴设置,[转载]Matlab plotyy画双纵坐标图实例
  12. 移动机器人 | 同时定位与建图
  13. 服务器计算技术解决远程接入速度困扰
  14. python3 cookie_Python3标准库:http.cookies HTTP cookie
  15. 怎么保护地球生物多样性
  16. vmware启动报错Entering emergency mode
  17. ZCMU-1635- 超大型 LED 显示屏
  18. [AV1] AV1技术专栏(正在更新中)
  19. 相机计算坐标公式_机器视觉系统坐标标定与计算方法
  20. SQL常用基础语句(SQL常用增删改查语句及案例)

热门文章

  1. 众筹网站项目第一天之项目环境搭建和环境测试
  2. 基于微信小程序的ACG文化交流平台
  3. Life of a Packet in Kubernetes - Calico网络进阶(注解版)
  4. 【调剂】东南大学无锡校区2020年相关专业调剂信息
  5. 蓄电池与超级电容混合储能并网matlab simulink仿真模型,混合储能采用低通滤波器进行功率分配
  6. bypy报错Error 140: Maximum retries reached解决办法
  7. python如何安装Dlib库(超简单的方法,亲测有效)
  8. 廖雪峰python教程学习:装饰器@小结
  9. 大数据专业成新宠, 232 所高校竞相布局大数据相关专业
  10. 如何在UEFI模式下安装64位win7系统