第三节：论文代码统计-学习笔记

任务说明

任务主题：论文代码统计，统计所有论文出现代码的相关统计；
任务内容：使用正则表达式统计代码连接、页数和图表数据；
任务成果：学习正则表达式统计；

数据处理步骤

在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接，所以我们需要从这些字段里面找出代码的链接。

确定数据出现的位置；
使用正则表达式完成匹配；
完成相关的统计；

正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

普通字符：大写和小写字母、所有数字、所有标点符号和一些其他符号

字符	描述
[ABC]	匹配 […] 中的所有字符，例如 [aeiou] 匹配字符串 “google runoob taobao” 中所有的 e o u a 字母。
[^ABC]	匹配除了 […] 中字符的所有字符，例如 [^aeiou] 匹配字符串 “google runoob taobao” 中除了 e o u a 字母的所有字母。
[A-Z]	[A-Z] 表示一个区间，匹配所有大写字母，[a-z] 表示所有小写字母。
.	匹配除换行符（\n、\r）之外的任何单个字符，相等于 [^\n\r]。
[\s\S]	匹配所有。\s 是匹配所有空白符，包括换行，\S 非空白符，包括换行。
\w	匹配字母、数字、下划线。等价于 [A-Za-z0-9_]

特殊字符：有特殊含义的字符

特别字符	描述
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 ( 和 )。
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 *。
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 +。
.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 . 。
[	标记一个中括号表达式的开始。要匹配 [，请使用 [。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 ?。
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\’ 匹配 “”，而 ‘(’ 则匹配 “(”。
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身，请使用 ^。
{	标记限定符表达式的开始。要匹配 {，请使用 {。
\	指明两项之间的一个选择。要匹配 ,请使用 \。

限定符

字符	描述
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，‘zo+’ 能匹配 “zo” 以及 “zoo”，但不能匹配 “z”。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，“do(es)?” 可以匹配 “do” 、 “does” 中的 “does” 、 “doxy” 中的 “do” 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，‘o{2}’ 不能匹配 “Bob” 中的 ‘o’，但是能匹配 “food” 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，‘o{2,}’ 不能匹配 “Bob” 中的 ‘o’，但能匹配 “foooood” 中的所有 o。‘o{1,}’ 等价于 ‘o+’。‘o{0,}’ 则等价于 ‘o*’。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，“o{1,3}” 将匹配 “fooooood” 中的前三个 o。‘o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。

具体代码实现以及讲解

首先我们来统计论文页数，也就是在comments字段中抽取pages和figures和个数，首先完成字段读取。

# 导入所需的包
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具

    '''定义读取文件的函数path: 文件路径columns: 需要选择的列count: 读取行数'''
def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi','report-no', 'categories', 'license', 'abstract', 'versions','update_date', 'authors_parsed'], count=None):data  = []with open(path, 'r') as f: for idx, line in enumerate(f): if idx == count:breakd = json.loads(line)d = {col : d[col] for col in columns}data.append(d)data = pd.DataFrame(data)return datadata = readArxivFile('arxiv-metadata-oai-snapshot.json', ['id', 'abstract', 'categories', 'comments'])
data.head()

	id	abstract	categories	comments
0	0704.0001	A fully differential calculation in perturba...	hep-ph	37 pages, 15 figures; published version
1	0704.0002	We describe a new algorithm, the $(k,\ell)$-...	math.CO cs.CG	To appear in Graphs and Combinatorics
2	0704.0003	The evolution of Earth-Moon system is descri...	physics.gen-ph	23 pages, 3 figures
3	0704.0004	We show that a determinant of Stirling cycle...	math.CO	11 pages
4	0704.0005	In this paper we show how to compute the $\L...	math.CA math.FA	None

对pages进行抽取：

# 使用正则表达式匹配，XX pages，新生成pages列
# [1-9]第一个数字，[0-9]第二个数字，* 匹配前面的子表达式零次或多次
data['pages'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* pages', str(x)))
data.head()
# 这里不太能理解figures这列 怎么出来的。

	id	abstract	categories	comments	pages	figures
0	0704.0001	A fully differential calculation in perturba...	hep-ph	37 pages, 15 figures; published version	[37 pages]	15.0
2	0704.0003	The evolution of Earth-Moon system is descri...	physics	23 pages, 3 figures	[23 pages]	3.0
5	0704.0006	We study the two-particle wave function of p...	cond-mat	6 pages, 4 figures, accepted by PRA	[6 pages]	4.0
9	0704.0010	Partial cubes are isometric subgraphs of hyp...	math	36 pages, 17 figures	[36 pages]	17.0
15	0704.0016	In this work, we evaluate the lifetimes of t...	hep-ph	17 pages, 3 figures and 1 table	[17 pages]	3.0

# 将问题拆出来看，上个cell的操作应该是以下的结果，不应该有figures这列。
# 如果有这列应该是还需要增加同样的正则操作，命名为data['figures']
l= "37 pages, 15 figures; published version"
re.findall('[1-9][0-9]* pages',str(l))

['37 pages']

# 筛选出有pages的论文
data = data[data['pages'].apply(len) > 0]# 由于匹配得到的是一个list，如['19 pages']，需要进行转换
data['pages'] = data['pages'].apply(lambda x: float(x[0].replace(' pages', '')))

data.dtypes # 查看类型

id             object
abstract       object
categories     object
comments       object
pages         float64
figures       float64
dtype: object

# 对pages进行统计
data['pages'].describe().astype(int)# 转化为整数类型

count    1089180
mean          17
std           22
min            1
25%            8
50%           13
75%           22
max        11232
Name: pages, dtype: int32

统计结果：论文平均的页数为17页，75%的论文在22页以内，最长的论文有11232页。

接下来按照分类统计论文页数，选取了论文的第一个类别的主要类别：

%matplotlib inline # 将图形展示到notebook里
# 选择主要类别
data['categories'] = data['categories'].apply(lambda x: x.split(' ')[0])
data['categories'] = data['categories'].apply(lambda x: x.split('.')[0])# 每类论文的平均页数
plt.figure(figsize=(12, 6))
data.groupby(['categories'])['pages'].mean().plot(kind='bar')

接下来对论文图表个数进行抽取：

data['figures'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* figures', str(x)))
data = data[data['figures'].apply(len) > 0]
data['figures'] = data['figures'].apply(lambda x: float(x[0].replace(' figures', '')))

data.head()

	id	abstract	categories	comments	pages	figures
0	0704.0001	A fully differential calculation in perturba...	hep-ph	37 pages, 15 figures; published version	37.0	15.0
2	0704.0003	The evolution of Earth-Moon system is descri...	physics	23 pages, 3 figures	23.0	3.0
5	0704.0006	We study the two-particle wave function of p...	cond-mat	6 pages, 4 figures, accepted by PRA	6.0	4.0
9	0704.0010	Partial cubes are isometric subgraphs of hyp...	math	36 pages, 17 figures	36.0	17.0
15	0704.0016	In this work, we evaluate the lifetimes of t...	hep-ph	17 pages, 3 figures and 1 table	17.0	3.0

最后我们对论文的代码链接进行提取，为了简化任务我们只抽取github链接：

# 筛选包含github的论文
data_with_code = data[(data.comments.str.contains('github')==True)|(data.abstract.str.contains('github')==True)
]
data_with_code['text'] = data_with_code['abstract'].fillna('') + data_with_code['comments'].fillna('')# 使用正则表达式匹配论文
pattern = '[a-zA-z]+://github[^\s]*'
data_with_code['code_flag'] = data_with_code['text'].str.findall(pattern).apply(len)并对论文按照类别进行绘图：```python
data_with_code = data_with_code[data_with_code['code_flag'] == 1]
plt.figure(figsize=(12, 6))
data_with_code.groupby(['categories'])['code_flag'].count().plot(kind='bar')

第三节：论文代码统计-学习笔记相关推荐

第一节：论文数据统计学习笔记
任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量: 任务内容:赛题的理解.使用 Pandas 读取数据并进行统计: 任务成果:学习 Pandas 的基础操作: 可参考的学习 ...
【算法竞赛学习】学术前沿趋势-论文代码统计
任务3:论文代码统计 3.1 任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计: 任务内容:使用正则表达式统计代码连接.页数和图表数据: 任务成果:学习正则表达式统计: 3.2 数据处 ...
步步为营 .NET 代码重构学习笔记九
步步为营 .NET 代码重构学习笔记系列步步为营 .NET 代码重构学习笔记一.为何要代码重构步步为营 .NET 代码重构学习笔记二.提炼方法(Extract Method) 步步为营 .NE ...
步步为营 .NET 代码重构学习笔记十一
步步为营 .NET 代码重构学习笔记系列步步为营 .NET 代码重构学习笔记一.为何要代码重构步步为营 .NET 代码重构学习笔记二.提炼方法(Extract Method) 步步为营 .NE ...
步步为营 .NET 代码重构学习笔记十
步步为营 .NET 代码重构学习笔记系列步步为营 .NET 代码重构学习笔记一.为何要代码重构步步为营 .NET 代码重构学习笔记二.提炼方法(Extract Method) 步步为营 .NE ...
高维统计学习笔记1——LASSO和Oracle性质
高维统计学习笔记1--LASSO和Oracle性质主要参考资料:Sara Van De Geer<Estimation and Testing Under Sparsity> 前言当年 ...
monodepth-pytorch代码实现学习笔记（一）
monodepth-pytorch代码实现学习笔记(一) 前言一.前期准备 1. 数据集 2. 训练与测试二.数据预处理 1. data_loader.py 1.1 __init__(self,r ...
【统计学习笔记】最大似然法
[统计学习笔记]最大似然法最大似然原理随机试验有若干个可能的结果,如果在一次试验中结果A发生,而导致结果A发生的原因有很多,在分析导致结果A发生的原因时,使结果A发生的概率最大的原因,推断为导致结 ...
【统计学习笔记】泛化误差上界
[统计学习笔记]泛化误差上界 1. 泛化误差 2. 泛化误差上界 1. 泛化误差学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质.测试误差是依赖于测试数据集 ...