70G年报pdf数据集

数据下载说明

所有pdf均来自上海证券交易所官网,使用shreport库进行的下载。

报告信息汇总文件

summary.xlsx内字段

  • company 上市公司企业名
  • code 股票代码
  • type 报告类型
  • year 报告年份
  • date 报告发布日期
  • pdf 报告pdf文件下载链接
import pandas as pd
from pathlib import Path#报告汇总文件summary.xlsx
df = pd.read_excel('summary.xlsx')
df.head()

一共有报告71126份

len(df)
71149

一共有上市公司1486家

len(df['company'].unique())
1486

summary文件夹

summary文件夹内是每家公司的报告披露情况

df1 = pd.read_excel('summary/600000.xlsx')
df1.head()

浦发银行一共有75份定期报告

len(df1)
75

reports文件夹

reports文件夹存放着以各各公司股票代码命名的文件夹

文件夹内是该公司所有定期报告

读取pdf报告

可使用pdfdocx库读取pdf,

pdfdocx文档链接 https://github.com/thunderhit/pdfdocx

from pdfdocx import read_pdfp_text = read_pdf('reports/600000/600000_2012_1.pdf')
p_text

Run

上海浦东发展银行股份有限公司 \n\n2012 年第一季度报告 \n\n \n\n \n\n§1 重要提示 \n\n1.1 公司董事会、监事会及其董事、监事、高级管理人员保证本报告所载资料不存在任何虚假记载、\n\n误导性陈述或者重大遗漏,并对其内容的真实性、准确性和完整性承担个别及连带责任。\n\n1.2 公司于 2012 年 4 月 26 日以通讯表决的方式召开第四届董事会第二十六次会议审议通过本报告,\n\n1.4 公司董事长、行长吉晓辉、财务总监刘信义及财务机构负责人傅能声明:保证本季度报告中财务\n\n公司全体董事出席董事会会议并行使表决权。\n\n1.3 公司第一季度财务报告未经审计。\n\n报告的真实、完整。\n\n \n§2 公司基本情况 \n\n2.1 主要会计数据及财务指标 \n\n本报告期末 \n\n上年度期末 \n\n币种:人民币 \n\n本报告期末比上年\n度期末增减(%) \n\n总资产(千元) \n\n归属于上市公司股东的所有者权益(千元) \n\n2,804,646,567\n\n157,055,724\n\n2,684,693,689 \n148,891,235 \n\n归属于上市公司股东的每股净资产(元) \n\n8.420\n\n7.982 \n\n4.47 \n5.48 \n5.49 \n\n经营活动产生的现金流量净额(千元) \n\n每股经营活动产生的现金流\n\n \n\n \n \n母公司现金流量表 \n \n2012 年 1—3 月 \n \n编制单位: 上海浦东发展银行股份有限公司....

python免费学习资料以及群交流解答点击即可加入, 可获得该数据集

Wow~70G上市公司定期报告数据集!相关推荐

  1. python批量下载深交所上市公司定期报告

    python代码 import os import math import json import requests from copy import deepcopyURL = 'http://ww ...

  2. 手把手教你用Python网络爬虫实现上海证券交易所定期报告pdf文件下载(附代码)...

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 青山隐隐水迢迢, 秋尽江南草未凋. ...

  3. 低保定期报告系统服务器出错怎么办,乌兰察布低保定期报告认证系统

    本地区所有居民们都可以通过这个平台来查询有关于低保的所有信息浏览掌握,并且还能够在线进行办理业务,可以说非常的方便.灵活,同时使用操作也是很方便的,另外平台内还提供了许多功能服务供大家使用,操作什么的 ...

  4. 上市公司营业收入数据集(1990-2021第三季度)

    1.数据来源:各公司年报 2.时间跨度:1990-2021年第三季度 3.区域范围:所有上市公司 4.指标说明: 详细指标说明以及代码附在分享文件中 部分数据如下: 相关研究: [1]岳树民, 陈博天 ...

  5. 2000-2020年上市公司常用指标数据集

    1.数据来源:Wind 2.时间跨度:2000-2020年 3.区域范围:沪深A股,不包含已退市的上市公司,不包含上市以前的数据 4.指标包括: stkcd.year.证券代码.其他应收款净额.非流动 ...

  6. 用R语言做词频统计_R语言 | 词频统计

    Python网络爬虫与文本数据分析 本章内容 导入停用词 读数据,分词 剔除停用词 导入停用词表 library(dplyr) ## [1] "?" "." & ...

  7. android控制音量加减命令 python_盘点5种基于Python生成的个性化语音方法

    腾讯课堂 | Python网络爬虫与文本分析(戳一戳)~~ 小编在很小的时候就特别喜欢搞怪,模仿别人的声音,尤其是老头老太太模仿的那是一个出神入化. 今天小编就带大家模仿一下个性化的声音,不过不是用小 ...

  8. r语言ggplot2 多线图绘制图例_plotnine: Python版的ggplot2作图库

    腾讯课堂 | Python网络爬虫与文本数据分析 同样的基本作图任务,plotnine比matplotlib和seaborn代码量少,更美观.所以我又重新发一遍,大家可以先收藏起来,后面总有用到的时候 ...

  9. 实体词典 情感词典_tidytextpy包 | 对三体进行情感分析

    腾讯课堂 | Python网络爬虫与文本分析 TidyTextPy 前天我分享了 tidytext | 耳目一新的R-style文本分析库 但是tidytext不够完善,我在tidytext基础上增加 ...

  10. Pingouin: 基于pandas和numpy的统计包

    Python网络爬虫与文本数据分析 pingouin是基于Pandas和numpy开发的Python3统计包.主要统计功能有 方差分析 多元线性回归 中介效应分析 卡方检验 Q-Q图 贝叶斯因子 信效 ...

最新文章

  1. Delegate(QLabel和QComboBox)
  2. SAP CRM Fiori note automatic delete deletion scenario
  3. com.google.gson.JsonSyntaxException: java.lang.IllegalStateException: Expected a string but was BEGI
  4. 【网络流24题----09】方格取数问题
  5. javascript从url中获取请求参数
  6. 2999元起!Redmi K40系列不止骁龙888:还将标配双扬声器
  7. python学习之旅(入门)
  8. hdu1161 欧拉路
  9. C#.NET学习笔记11,12---布尔表达式2组合,if语句
  10. ubuntu 環境下 bochs 的安裝
  11. CAVLC基于上下文自适应的可变长编码
  12. android仿微信播放视频播放器,vue DPlayer 仿微信朋友圈视频播放效果
  13. resin服务器部署项目,Resin服务器部署
  14. java打飞机游戏完整代码
  15. 迅视财经 五条特色大街上线
  16. 使用RT-Thread Studio DIY 迷你桌面时钟(一)| 基于STM32芯片创建HelloWorld工程
  17. OpenGL绘制一个圆锥
  18. php转mp3的工厂,魔影工厂怎么转成mp3 魔影工厂转换mp3教程
  19. 【stm32入门】第二天环境搭建、RCC时钟、GPIO、闪烁实验与有源蜂鸣器实验
  20. 易语言 股票CCI指标 源码

热门文章

  1. docker安装,阿里云镜像配置
  2. 数据同步,数据库实时迁移同步方案,数据库同步软件
  3. 关于软件快捷方式显示异常,任务栏小图标模糊的解决方案
  4. ERNIE-Enhanced Language Representation with Informative Entities 阅读笔记
  5. 高等数学基础06:方向导数
  6. mysql临时表在哪找_MySQL 中的临时表
  7. 如何使用rclone从AWS S3迁移到IBM COS - part 2 - 同步腾讯云对象存储
  8. java 将html转为word导出 (富文本内容导出word)
  9. 南京软件测试女薪资2019,2019年第一扎!南京最新平均工资最新出炉,看完不敢过年!...
  10. linux没有cpufreq目录,【原创】Linux cpufreq framework