python3爬取网页数据学习笔记—

数据来源网站：2016中国企业500强排行榜(完整名单)→买购网 (maigoo.com)

参考资料：python3 爬取网页表格例子_快乐糖果屋的博客-CSDN博客

右键数据部分，选择检查

观察到需要的数据的父节点包含关键字'mod_table table1 fcolor30'，而子节点中包含了'td'的项都是要爬取的内容，故可得出XPath路径表达式为：

//table[contains(@class, 'mod_table table1')]//td/text()"

完整代码：

from lxml import html
import requests
import csv

打包访问函数：

def check_link(url):
try:
r = requests.get(url)
r.encoding = "utf-8"
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print('无法链接服务器！！！')

打包爬取函数。这里如果用了上面所写的xpath路径的话，最后输入到表格中会呈现一个字一格的奇怪现象，故观察网页源代码后对路径稍作修改（注释是另一种写法）：

def get_contents(ulist,rurl):
tree = html.fromstring(rurl)
trs = tree.xpath("//table[contains(@class, 'mod_table table1')]//tr")
for tr in trs:
ui = tr.xpath("./td/text()")
# ui = []
# tr1 = tr.xpath("./td")
# for td in tr1:
# ui.append(td.text)
ulist.append(ui)

将数据输入csv表格中（注释是另一种写法）：

def save_contents(urlist):
try:
with open("test.csv",'w') as f:
writer = csv.writer(f)
writer.writerow(['2016年中国企业500强排行榜'])
writer.writerows(urlist)
# for row in urlist:
# writer.writerow(row)
except:
pass

定义主函数：

def main():
urli = []
url = "http://www.maigoo.com/news/463071.html"
rs = check_link(url)
get_contents(urli,rs)
save_contents(urli)

main()

python3爬取网页数据学习笔记——XPath篇相关推荐

python3和burpsuite组合爬取网页数据并存储在excel表格(需要登录后才能看到的大量数据)
python3和burpsuite组合爬取网页数据并存储在excel表格作者:ch4nge 时间:2020.12.18 前言最近在工作中遇到一个问题:渗透进入某网站后台,发现大量的用户数据(某恶意 ...
python爬取网页汉字_程序小技巧：Python3借助requests类库3行代码爬取网页数据！快来...
爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...
python爬虫教程：实例讲解Python爬取网页数据
这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...
如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析
引言随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...
pycharm查看html页面,pycharm爬取网页数据
1 python环境的配置 1.1 安装python文件包,放到可以找到的位置 1.2 右键计算机->属性->高级环境设置->系统变量->Path->编辑->复制p ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
Jsoup：用Java也可以爬虫，怎么使用Java进行爬虫，用Java爬取网页数据，使用Jsoup爬取数据，爬虫举例：京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索一.资源为什么接下来的代码中要使用el.getElementsByTa ...
python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

python3爬取网页数据学习笔记——XPath篇

python3爬取网页数据学习笔记——XPath篇相关推荐

最新文章

热门文章