【修改版】10行代码爬取A股上市公司信息
简述
前几天在网上看了一份代码,非常认真地学习了一波。
对于一些瑕疵做了修改。
旧版本的问题
- 下载下来的文件每隔20行就出现一个column
- 然后下载次数较多的话,会被别人给禁一会
- 之前的代码真的是10行。。
新版本中修复了这样的bug
import pandas as pd
import requests
import randomurl = 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%d'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Referer': 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=178'
}
IPs = [{'HTTP': 'HTTP://118.190.95.35:9001'},{'HTTP': 'HTTP://61.135.217.7:80'},{'HTTP': 'HTTP://116.1.11.19:80'}]
for i in range(1, 179):# 返回整个网页中的表格列表dflist = pd.read_html(requests.get(url % i, headers=headers, proxies=random.choice(IPs)).text)# 经观察可以发现是第四个就是我们想要的表格df = dflist[3]df.to_csv('askci.csv', mode='a', header=1 if i == 1 else None, index=0, encoding='utf_8_sig')
【修改版】10行代码爬取A股上市公司信息相关推荐
- python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息
实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...
- 10行代码爬取全国所有A股/港股/新三板上市公司信息
参加 2018 AI开发者大会,请点击 ↑↑↑ 作者 | 高级农民工 本文已获原作者授权,如需转载,请联系原作者. 摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外, ...
- 10行代码爬取英雄联盟皮肤全套。6不6?
引言 王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. ...
- Python用10行代码爬取大批美女图片
说到美女,第一个想到的就是美女云集的相亲网站了.所以今天也是选取某个相亲网站作为素材,爬取美女图片. 1.准备工作 首先需要一个相亲网站的账号,我这里选取的是"我主良缘".注册登陆 ...
- 50 行代码爬取链家租房信息
最近自己开始学习数据分析的技术,但数据分析最重要的就是数据.没有数据怎么办?那就自己爬一些数据.大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数据,那么爬去下来的数据是 ...
- Python爬虫利用18行代码爬取虎牙上百张小姐姐图片
Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...
- 简单20行代码爬取王者荣耀官网1080p壁纸
简单20行代码爬取王者荣耀官网1080p壁纸 # -*- coding: utf-8 -*- # @Time : 2020/12/13 18:08 # @Author : ningfangcong i ...
- Python25行代码爬取豆瓣排行榜数据
Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...
- python:利用20行代码爬取网络小说
文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...
最新文章
- SharePoint 工作流解决方案(一):顺序工作流和状态机工作流
- HDU2108(凹多边形还是凸多边形)
- idea 查看jsp是否被引用_全网最全的IDEA热部署方案,看完再也不用加班了!
- java读取数据,2,2,1方式读取
- Android官方开发文档Training系列课程中文版:构建第一款安卓应用之入门指南
- as点击发送广播_Apache Flink 中广播状态的实用指南
- Web安全——正方教务系统自主选课非正常退课解决方案(危险操作,仅用于学习)
- 主题:Centos6.4安装JDK
- h5实现网页内容跟随窗口大小移动_h5页面能流行于各大社交平台必定有其原因的...
- leetcode 190. 颠倒二进制位(位运算)
- Jenkins在Windows下的安装与配置
- linux运行级别0-6的各自含义(考试题答案系列)
- 浅析智能视频分析技术及其作用
- 计算机基础知识教程函数,EXCEL函数教程_电脑基础知识_IT计算机_专业资料.ppt
- BlackBerry7290上网精髓
- 【Android音视频开发】【007】SurfaceView实现H264播放器
- 《Revisiting Pre-trained Models for Chinese Natural Language Processing》(MacBERT)阅读记录
- 获取mac最高root权限登录系统
- 打王者荣耀还不过瘾,腾讯绝悟AI这次还拿下了足球世界冠军
- 一个AI小白如何理解近似匹配检索
热门文章
- WINCE开发更安全可靠设备驱动的最佳实践
- 在CentOS6.8下安装Docker
- 回调函数、Java接口回调 总结
- samba linux文件服务器 changepassword + httpd 实现用户web自行修改密码
- SQL server 2005中无法新建作用(Job)的问题
- 调用webservice查询手机号码归属地信息
- 使 IDEA 的 termina l可以使用 Linux 下的终端命令
- 【Python-ML】聚类的性能评价指标
- 进程——Windows核心编程学习手札系列之四
- LeetCode 496. 下一个更大元素 I 解题思路及C++实现