简述

前几天在网上看了一份代码,非常认真地学习了一波。
对于一些瑕疵做了修改。

旧版本的问题

  • 下载下来的文件每隔20行就出现一个column
  • 然后下载次数较多的话,会被别人给禁一会
  • 之前的代码真的是10行。。

新版本中修复了这样的bug

import pandas as pd
import requests
import randomurl = 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%d'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Referer': 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=178'
}
IPs = [{'HTTP': 'HTTP://118.190.95.35:9001'},{'HTTP': 'HTTP://61.135.217.7:80'},{'HTTP': 'HTTP://116.1.11.19:80'}]
for i in range(1, 179):# 返回整个网页中的表格列表dflist = pd.read_html(requests.get(url % i, headers=headers, proxies=random.choice(IPs)).text)# 经观察可以发现是第四个就是我们想要的表格df = dflist[3]df.to_csv('askci.csv', mode='a', header=1 if i == 1 else None, index=0, encoding='utf_8_sig')

【修改版】10行代码爬取A股上市公司信息相关推荐

  1. python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息

    实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...

  2. 10行代码爬取全国所有A股/港股/新三板上市公司信息

    参加 2018 AI开发者大会,请点击 ↑↑↑ 作者 | 高级农民工 本文已获原作者授权,如需转载,请联系原作者. 摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外, ...

  3. 10行代码爬取英雄联盟皮肤全套。6不6?

    引言    王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. ...

  4. Python用10行代码爬取大批美女图片

    说到美女,第一个想到的就是美女云集的相亲网站了.所以今天也是选取某个相亲网站作为素材,爬取美女图片. 1.准备工作 首先需要一个相亲网站的账号,我这里选取的是"我主良缘".注册登陆 ...

  5. 50 行代码爬取链家租房信息

    最近自己开始学习数据分析的技术,但数据分析最重要的就是数据.没有数据怎么办?那就自己爬一些数据.大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数据,那么爬去下来的数据是 ...

  6. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  7. 简单20行代码爬取王者荣耀官网1080p壁纸

    简单20行代码爬取王者荣耀官网1080p壁纸 # -*- coding: utf-8 -*- # @Time : 2020/12/13 18:08 # @Author : ningfangcong i ...

  8. Python25行代码爬取豆瓣排行榜数据

    Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...

  9. python:利用20行代码爬取网络小说

    文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...

最新文章

  1. SharePoint 工作流解决方案(一):顺序工作流和状态机工作流
  2. HDU2108(凹多边形还是凸多边形)
  3. idea 查看jsp是否被引用_全网最全的IDEA热部署方案,看完再也不用加班了!
  4. java读取数据,2,2,1方式读取
  5. Android官方开发文档Training系列课程中文版:构建第一款安卓应用之入门指南
  6. as点击发送广播_Apache Flink 中广播状态的实用指南
  7. Web安全——正方教务系统自主选课非正常退课解决方案(危险操作,仅用于学习)
  8. 主题:Centos6.4安装JDK
  9. h5实现网页内容跟随窗口大小移动_h5页面能流行于各大社交平台必定有其原因的...
  10. leetcode 190. 颠倒二进制位(位运算)
  11. Jenkins在Windows下的安装与配置
  12. linux运行级别0-6的各自含义(考试题答案系列)
  13. 浅析智能视频分析技术及其作用
  14. 计算机基础知识教程函数,EXCEL函数教程_电脑基础知识_IT计算机_专业资料.ppt
  15. BlackBerry7290上网精髓
  16. 【Android音视频开发】【007】SurfaceView实现H264播放器
  17. 《Revisiting Pre-trained Models for Chinese Natural Language Processing》(MacBERT)阅读记录
  18. 获取mac最高root权限登录系统
  19. 打王者荣耀还不过瘾,腾讯绝悟AI这次还拿下了足球世界冠军
  20. 一个AI小白如何理解近似匹配检索

热门文章

  1. WINCE开发更安全可靠设备驱动的最佳实践
  2. 在CentOS6.8下安装Docker
  3. 回调函数、Java接口回调 总结
  4. samba linux文件服务器 changepassword + httpd 实现用户web自行修改密码
  5. SQL server 2005中无法新建作用(Job)的问题
  6. 调用webservice查询手机号码归属地信息
  7. 使 IDEA 的 termina l可以使用 Linux 下的终端命令
  8. 【Python-ML】聚类的性能评价指标
  9. 进程——Windows核心编程学习手札系列之四
  10. LeetCode 496. 下一个更大元素 I 解题思路及C++实现