python爬虫爬取简历模板

简介：爬取“个人简历网”中的简历模板并存储到本地（http://www.gerenjianli.com/moban/index.html）
代码：

import requests
from lxml import etree
import os
if __name__ == '__main__':# 这是只爬取一页数据# url = 'http://www.gerenjianli.com/moban/index.html'## headers = {#     'User-Agent':'这里放自己浏览器的UA就行啦'# }# # page_text = requests.get(url=url,headers=headers).text# response = requests.get(url=url, headers=headers)# # response.encoding = 'utf-8'# page_text = response.text## tree = etree.HTML(page_text)# li_list = tree.xpath('//div[@class="list_boby"]/ul[@class="prlist"]/li')# # print(li_list)## #创建文件夹# if not os.path.exists('./resumeLibs'):#     os.mkdir('./resumeLibs')# for li in li_list:#     a = li.xpath('./div/a/@href')[0]#     name = li.xpath('./div/a/img/@alt')[0]#     name = name.encode('iso-8859-1').decode('gbk')#     download_text = requests.get(url=a,headers=headers).text#     tree = etree.HTML(download_text)#     download_href = tree.xpath('//div[@class="donwurl2"]/a/@href')[0]##     doc_data = requests.get(url=download_href,headers=headers).content#     doc_path = 'resumeLibs/' + name + '.docx'#     with open(doc_path,'wb') as fp:#         fp.write(doc_data)#         print(name,'下载成功！')# 爬取多页数据headers = {'User-Agent': '这里放自己浏览器的UA就行啦'}# 创建文件夹if not os.path.exists('./resumeLibs'):os.mkdir('./resumeLibs')for pagenum in range(1,4):#这里爬取了1-3页中的简历模板if pagenum == 1:url = 'http://www.gerenjianli.com/moban/index.html'else:url = 'http://www.gerenjianli.com/moban/index_' + str(pagenum) + '.html'# page_text = requests.get(url=url,headers=headers).textresponse = requests.get(url=url, headers=headers)# response.encoding = 'utf-8'page_text = response.texttree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="list_boby"]/ul[@class="prlist"]/li')# print(li_list)for li in li_list:a = li.xpath('./div/a/@href')[0]name = li.xpath('./div/a/img/@alt')[0]name = name.encode('iso-8859-1').decode('gbk')download_text = requests.get(url=a, headers=headers).texttree = etree.HTML(download_text)download_href = tree.xpath('//div[@class="donwurl2"]/a/@href')[0]doc_data = requests.get(url=download_href, headers=headers).contentdoc_path = 'resumeLibs/' + name + '.docx'with open(doc_path, 'wb') as fp:fp.write(doc_data)print(name, '下载成功！')

python爬虫爬取简历模板相关推荐

Python批量爬取简历模板
文章目录前言一.需求二.分析 1. 查看网页源码(ctrl+u) 2.进一步分析三.处理四.运行效果前言为了更好的掌握数据处理的能力,因而开启Python网络爬虫系列小项目文章. 小项目 ...
Python爬虫-爬取wallhaven壁纸
Python爬虫-爬取wallhaven壁纸前言可行性分析功能介绍效果展示基本思路 1.获取每页(1页24张)壁纸的url 2.获取每张壁纸缩略图的url 3.获取壁纸原图下载的url 4. ...
在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬 ...
python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐需要使用的模块只需要requests模块和os模块即可开始工作先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...
使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip instal ...
python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

python爬虫爬取简历模板

python爬虫爬取简历模板相关推荐

最新文章

热门文章

python爬虫 爬取简历模板

python爬虫 爬取简历模板相关推荐

最新文章

热门文章

python爬虫爬取简历模板

python爬虫爬取简历模板相关推荐