目录

  • 1 会议论文数据集
    • 1.1 爬虫获取paper基本信息
    • 1.2 爬虫下载论文pdf
  • 2 数据分析
    • 2.1 关键词提取
    • 2.2 可视化词云图
  • 3 会议信息

1 会议论文数据集

1.1 爬虫获取paper基本信息

我们可以自己写一个简单爬虫,将2022年ACL收录的论文信息download下来,代码如下:

import sys
import requests
import pandas as pd
import numpy as np
import json
import re
import urllib
import fileinputdef get_information(url):try:req = requests.get(url, timeout=200)if req.status_code != 200:print('网页异常')returndata = req.textexcept Exception as e:print(e)return None# get paper title, author, pdf link, abstract信息# 正则提取符合条件的内容,打开网页源码,定位title_p = re.compile(r'title = "(.*?)&#34')author_p = re.compile(r'author = "([\s\S]*?)&#34')link_p = re.compile(r'meta content=(https.*?pdf)')abs_p = re.compile(r'Abstract</h5><span>(.*?)</span></div>') # 获取内容title = title_p.findall(data)author = author_p.findall(data)link = link_p.findall(data)abstract = abs_p.findall(data)# checkif len(title)!=0 and len(author)!=0 and len(link)!=0 and len(abstract)!=0:author[0] = author[0].replace('\n','')return [title[0], author[0], link[0], abstract[0]]return Nonedef get_pdf(filename, url):#下载pdftry:data = urllib.request.Request(url)data = urllib.request.urlopen(data).read()f = open(filename, "wb")f.write(data)f.close()except Exception as e:print(e)if __name__=='__main__':# 论文基本信息存储f = open('2022ACL.txt','w')for i in range(1,604): #总录取604篇论文url = 'https://aclanthology.org/2022.acl-long.%d/' % iresult = information(url)if result is None:print (url)else:f.write('\t'.join(result)+'\n')# 下载pdf论文name = result[0]+'.pdf'url = result[2]get_pdf(name, url)

上面代码就是对2022 ACL中的论文进行信息提取和下载pdf论文,从上面代码来看,也比较简单,通过url访问,定位网页中论文的基本信息(标题,摘要,论文下载链接等),保存这些基本信息到2022ACL.txt文件中,同时下载每篇pdf论文,标题的形式为title.pdf。

1.2 爬虫下载论文pdf

执行上述脚本代码,我们就可以得到每篇论文的基本信息,2022ACL.txt文件的内容如下:

每行包含论文的title (红色标识部分),论文的作者 (蓝色标识部分),pdf下载url (绿色标识部分)以及论文摘要 (黄色标识部分)。这些信息接下来将用来做关键词分析。同时下载的论文pdf内容如下:

可以在百度网盘直接获取全部内容信息:链接:https://pan.baidu.com/s/1wunFwAuNOrl0vKkBiUw7uA 密码:bnxm

2 数据分析

2.1 关键词提取

接下来我们可以用一个很简单的方法进行关键词提取,基本步骤如下:

  • 对每篇论文的title进行unigram, bigram以及triple生成候选关键词
  • 对词进行规范化处理(词的不同式以及大小写等归一化)
  • 通过unigram,bigram以及triple获取关键词候选集,根据词频以及关键词包含的单词数量等计算权重分值
    我们简单的可以看下提取的效果:
    unigram:

    bigram:

    triple:

2.2 可视化词云图

对提取的关键词,根据词权重大小,我们生成词云图代码如下:

# -*-coding:utf8 -*-
import collections
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
from pyecharts import options as opts
from pyecharts.globals import ThemeType, CurrentConfig
import sysdef vision(filename, savename):#读取词频文件 keyword \t frequencyf = open(filename)result = dict()for line in f:terms = line.strip().split('\t')result.setdefault(terms[0], terms[1])result_sorted = sorted(result.items(), key=lambda x: x[1], reverse=True)WC = WordCloud(init_opts=opts.InitOpts(width='1350px',height='750px', theme=ThemeType.MACARONS))WC.add( series_name='frequency', data_pair=result_sorted, shape=SymbolType.DIAMOND,word_gap=5,rotate_step=15,word_size_range=[10,100],   textstyle_opts=opts.TextStyleOpts(font_family='KaiTi'),pos_left = '100',pos_top = '50')WC.set_global_opts(title_opts=opts.TitleOpts('关键词词云图'),toolbox_opts=opts.ToolboxOpts(is_show=True, orient='vertical'),tooltip_opts=opts.TooltipOpts(is_show=True, background_color='red', border_color='yellow'))WC.render(savename)if __name__=='__main__':filename, savename = sys.argv[1:]vision(filename, savename)

生成的关键词词云图如下:

从上图可以看出在机器翻译(Machine Translation),预训练 (Pre-training)以及问答 (Question Answering)等领域备受研究人员的研究热潮。

3 会议信息

ACL (https://www.aclweb.org/portal)学术会议论文是自然语言处理与计算语言学领域的最高级别的学术会议之一,还有EMNLP (https://2022.emnlp.org/) 以及NACAL (http://naacl.org/)等也是大家所熟悉的。2022 ACL第60届大会于2022 年 5 月 22 日至 27 日在爱尔兰都柏林召开。本次会议共接收了604篇长论文,98篇短论文。其中最佳论文 (Best Paper) 来自加州大学伯克利分校研究团队,该研究提出了一种增量句法表示: Learned Incremental Representations for Parsing。论文摘要:该研究提出了一种增量句法表示,该表示包括为句子中的每个单词分配一个离散标签,其中标签是使用句子前缀的严格增量处理来预测的,并且句子标签序列完全确定了解析树,这种表示方法区别于标准表示。

2022 ACL accepted论文集资料以及关键词分析相关推荐

  1. 2022年度“十大基础研究关键词”在深发布

    来源:读特客户端 11月27日,"青年科学家50²论坛"发布2022年度"十大基础研究关键词".这些关键词由"科学探索奖"的获奖人提名.投票 ...

  2. 2022细胞生物学实验原理复习资料汇总

    2022细胞生物学实验原理复习资料汇总 1.2022年考试复习题及参考答案 2.2021年考试复习题及参考答案 3.2020年之前考试复习题汇总 4.复习重点(汇总) 5.排版好的PDF高清版 获取途 ...

  3. 很好很强大的六个SEO关键词分析工具

    最近关键词在SEO界炒的很热,这里放出我整理的几个分析工具和简要说明.写得挺辛苦的,觉得有用的兄弟帮忙顶一下 1 百度搜索风云榜 - http://top.baidu.com/ 最新最热的核心关键词都 ...

  4. 2022 ACL 最全事件抽取和关系抽取相关论文

    2022 ACL 最全事件抽取和关系抽取相关论文 事件触发词抽取 Saliency as Evidence: Event Detection with Trigger Saliency Attribu ...

  5. 搜索关键词分析——以个人博客网站为例

    背景 我做了一个个人博客网站,希望能够记录自己的学习,工作和成长笔记.同时为更多有相同需求的人提供帮助和支持.那么用户应该怎么来找到我这个博客网站呢?通过什么关键词能够快速找到这个博客网站呢? 接下来 ...

  6. 关键词热度分析工具_谷歌SEO推广排名的关键要素(一)利用谷歌关键词分析工具分析关键词...

    大家好,我是谷歌鸿飞,到今年算起,从业谷歌SEO,已经十一个年头了.服务过的外贸企业也有几百家,接触和操作过外贸产品也有上千种.这么多的企业,这么多的产品,思绪万千,不知如何下笔. 回想一下整个的谷歌 ...

  7. kernel32.dll已加载但找不到入口点_关键词分析法和工具,关键词分析包括哪几个方面(已帮助1376人)...

    内容导读关键词分析是极其重要的环节,如果关键词分析做好了,优化工作就能事半功倍.大家在做关键词分析的时候,可以参考本文提到的这些方面,应该能够得到很多有用的启示和指导. 做网站优化或者是百度竞价等,分 ...

  8. 2022年生鲜电商行业竞争分析

    中国报告大厅网讯,生鲜电商竞争激烈但是行业集中度并不高,当下的市场主要以每日优鲜和叮咚买菜市场渗透率和业务布局比较大引领者生鲜电商市场.以下是2022年生鲜电商行业竞争分析.   生鲜电商一般指生鲜产 ...

  9. 关键词分析工具-免费关键词分析软件

    选择正确的关键词对于搜索引擎优化至关重要.使用正确的关键词可以让你的结果页或广告页展现给正确的受众.(避免非目标受众点击造成的经济损失,以及提高自然搜索的意图匹配)每个产出的关键词都可以直观的了解,突 ...

最新文章

  1. 你有什么技能是公司离不开你
  2. 如何写出一份优秀的软件设计文档
  3. C++STL总结笔记(三)—— 常见算法
  4. 第七章数组答案C语言,C语言复习题及答案-第七章-数组
  5. apache实验报告 linux_Linux实验报告
  6. Redis集群搭建使用
  7. 小微企业——客户借款原因分析
  8. Iphone 开发常用代码
  9. 统计学考试带计算机,统计学试题
  10. 【Python - OpenCV】数字图像项目实战(四) - 位姿估计
  11. 网站被腾讯停止访问人工服务器,网站被腾讯屏蔽怎么办?实测多种解封方式
  12. python配置MySQL,需安装MySQL-pyt…
  13. 使用IDEA编写Java程序时遇到的小提醒Common part can be extracted from ‘if‘
  14. canvas教程5-绘制路径
  15. 配置fedora 33
  16. py樱花代码_Python如何画出美丽浪漫的樱花
  17. 适用vue的html前台页面打印插件
  18. 解决android键盘顶布局导致布局错乱(华为 oppo手机弹框问题)
  19. 画图软件visio安装
  20. Acne Scarring Treatment

热门文章

  1. Python读写mdb文件的实战代码
  2. JS中数组查询的方法indexOf()、lastIndexOf()、includes()、find()、findIndex()、filter()、every()
  3. php获取session路径,php session文件修改路径
  4. QQ群无法上传文件,离线传送文件都可以的解决办法
  5. 计算机魔数或内涵词(如何起一个优雅的网名)
  6. 【下载】前端JS下载文件的三种方法。FileSaver解决了PDF下载会先预览的问题。
  7. [summ]network traffic measurement and analysis-challenges and solutions
  8. python用matplotlib画表格_Python图表绘制工具:Matplotlib_Part 1
  9. NBA球星来华 打短工还是掠夺性开发?
  10. linux 下搭建opengl