python3爬虫实战(一)爬取创业邦创投库
- 从创业邦网站拉取创业公司数据
- 入口链接:http://www.cyzone.cn/event/list-764-0-1-0-0-0-0/,要求抓取前30页。
- 抓取以下信息:公司名称,详情URL,当前融资轮次,行业,投资方和更新时间。
# -*- coding: utf-8 -*-
"""
Created on Sat Oct 14 15:17:52 2017
@author: ESRI
"""
import requests
import time
from bs4 import BeautifulSoup
import pandas as pd
# 导入pandas库
# 设置列表页面URL的固定部分
url = 'https://bj.lianjia.com/ershoufang/'
BASE_URL_U1 = "http://www.cyzone.cn/event/list-764-0-"
BASE_URL_U2 = "-0-0-0-0/"
# 最好在http请求中设置一个头部信息,否则很容易被封ip
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept':'text/html;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding':'gzip',
'Connection':'close',
'Referer':'http://www.baidu.com/link?url=_andhfsjjjKRgEWkj7i9cFmYYGsisrnm2A-TN3XZDQXxvGsM9k9ZZSnikW2Yds4s&wd=&eqid=c3435a7d00146bd600000003582bfd1f'
}
# 循环抓取列表页信息
for i in range(1,31): # 分页
if i == 1:
i=str(1)
var_url = (BASE_URL_U1 + i + BASE_URL_U2)
r = requests.get(url=var_url, headers=headers)
html = r.content
#print(html)
else:
i=str(i)
var_url=(BASE_URL_U1 + i + BASE_URL_U2)
var_url=requests.get(url=var_url,headers=headers)
html2=r.content
html = html + html2
# 每次间隔1秒
time.sleep(1)
# 解析抓取的页面内容
res = BeautifulSoup(html, 'html.parser')
# 获取感兴趣目标信息:
# 提取公司名称
# table>tbody>tr.table-plate3>td.tp2>span.tp2_tit>a
companys = res.find_all('span', 'tp2_tit')
cnames = []
print(len(companys))
for item in companys:
cname = item.a.string
cnames.append(cname)
#print(cnames)
# 获取感兴趣目标信息:
# 提取公司详情url
companys = res.find_all('span', 'tp2_tit')
urls = []
for item in companys:
url = item.a['href']
urls.append(url)
# 获取感兴趣目标信息:
# 提取当前融资轮次,行业,投资方和更新时间
# res = BeautifulSoup(html, 'html5lib')
# finances = res.select('div#main > div.list-table3 > table > tbody > tr')
finances = res.find_all('tr', 'table-plate3')
# 融资轮次,行业,投资方,更新时间
financing_rounds, businesses, investors, update_times = [],[],[],[]
#print(len(finances))
for i in range(0, len(finances)):
# 获取第一行数据(范围)
items = finances[i].find_all('td')
# print(items)
# 获取融资轮次
fround = items[-5].text.strip()
#获取行业
business = items[-4].text.strip()
#获取投资方
investor = items[-3].text.strip()
#获取更新时间
update_time = items[-2].text.strip()
financing_rounds.append(fround)
businesses.append(business)
investors.append(investor)
update_times.append(update_time)
# 将获取的数据进行汇总:
#print(len(cnames))
#print(len(urls))
#print(len(financing_rounds))
#print(len(financing_rounds))
#print(len(businesses))
#print(len(investors))
#print(len(update_times))
# 创建数据表
resultsDatas = pd.DataFrame({'公司名称':cnames,'详情URL':urls,'融资轮次':financing_rounds,'行业':businesses,'投资方':investors,'更新时间':update_times})
# 查看数据表内容
print(resultsDatas)
结果:
公司名称 投资方 更新时间 融资轮次 行业 \
0 Future Go智晓未来 881万人民币 天使轮 天使轮 158笔
1 懒猫社长 生活消费 2017-10-13 A轮 同方厚持
2 乐刻运动 医疗健康 2017-10-13 C轮 高瓴资本 华晟资本-华兴资本 IDG资本
3 WAVE浪 生活消费 2017-10-13 天使轮 创丰资本 赤子基金
4 一粒传媒 文体娱乐 2017-10-13 天使轮 投资方未透露
5 MIOTECH妙盈科技 金融支付 2017-10-13 A轮 Horizons Ventures维港投资 真格基金
6 玖富咨询9FBank 金融支付 2017-10-13 B轮 投资方未透露
7 娱加娱乐 内容产业 2017-10-13 战略投资 芒果文创基金
8 洒哇地咔 硬件 2017-10-13 A轮 奋达科技(泓锦文基金) 水木资本
9 武汉飞渡教育 教育 2017-10-13 战略投资 小站教育
10 作业盒子 教育 2017-10-13 B+轮 贝塔斯曼亚洲投资基金 好未来(学而思) 百度风投 ····
11 Vingt Ans 电子商务 2017-10-13 A轮 彬复资本
12 123GO 生活消费 2017-10-13 Pre-A 九万资本 吴波
13 HoloMatic禾多科技 交通出行 2017-10-13 天使轮 IDG资本 四维图新 贝塔斯曼亚洲投资基金····
。。。。。。。。。。。。。。。。。。。
python3爬虫实战(一)爬取创业邦创投库相关推荐
- Python3爬虫实战之爬取京东图书图片
假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网络爬虫实现,这类爬虫称为图片爬虫,接下来,我们将实现该爬虫. 首先,打开要爬 ...
- Python3[爬虫实战] scrapy爬取汽车之家全站链接存json文件
昨晚晚上一不小心学习了崔庆才,崔大神的博客,试着尝试一下爬取一个网站的全部内容,福利吧网站现在已经找不到了,然后一不小心逛到了汽车之家 (http://www.autohome.com.cn/beij ...
- python3 爬虫实战之爬取网易新闻APP端
(一)使用工具 这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用 (二)爬虫操作步骤: 百度 网易新闻并选择 步骤一: 步骤二: 步骤三: 步骤四: 最后一步: 注意点: ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- 携程ajax,Python爬虫实战之爬取携程评论
一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...
- Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...
- Python【爬虫实战】爬取美女壁纸资源
Python[爬虫实战]爬取美女壁纸资源 一:首先选取一个网站,这里我们选择了一个壁纸网站 二:进入网站,我们可以看到很多图片放在一页里 三:按下F12开发者工具,点击Elments查看网页的代码 四 ...
- [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
- [day1]python网络爬虫实战:爬取美女写真图片
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
最新文章
- 数据结构--队列(数组)的一种实现
- python之路径拼接urljoin
- 三分钟Docker-推送本地镜像到仓库
- java jdbc连接oracle数据库连接 不抛出异常,JDBC连接Oracle发生异常的原因
- 用汇编的眼光看C++(之const属性)
- Asp.Net高级知识回顾_HttpModule及应用程序生命周期_1
- [转载] python中callable_Python callable() 函数
- 机器学习Sklearn学习总结
- dns遭到劫持_关于网站pr劫持的问题,PR劫持是如何实现的呢?
- 中南大学计算机学院考研好考吗,中南大学or湖南大学:我考研选学校的心路历程...
- python数据处理(招聘信息薪资字段的处理)
- 政务云迁移服务项目预算制定
- 55、如何制作API
- SAP smartforms打印图片
- mysql工作原理学习
- CCD工业相机电脑连接正常但无法采集图像的相关设置
- 【育儿】计算宝宝的生辰八字
- ROS人机交互软件开发
- 招商银行信用卡卡号识别项目(第一篇),Python OpenCV 图像处理取经之旅第 53 篇
- unity开发日记之火箭发射