python爬虫 爬取简历模板
简介:爬取“个人简历网”中的简历模板并存储到本地(http://www.gerenjianli.com/moban/index.html)
代码:
import requests
from lxml import etree
import os
if __name__ == '__main__':# 这是只爬取一页数据# url = 'http://www.gerenjianli.com/moban/index.html'## headers = {# 'User-Agent':'这里放自己浏览器的UA就行啦'# }# # page_text = requests.get(url=url,headers=headers).text# response = requests.get(url=url, headers=headers)# # response.encoding = 'utf-8'# page_text = response.text## tree = etree.HTML(page_text)# li_list = tree.xpath('//div[@class="list_boby"]/ul[@class="prlist"]/li')# # print(li_list)## #创建文件夹# if not os.path.exists('./resumeLibs'):# os.mkdir('./resumeLibs')# for li in li_list:# a = li.xpath('./div/a/@href')[0]# name = li.xpath('./div/a/img/@alt')[0]# name = name.encode('iso-8859-1').decode('gbk')# download_text = requests.get(url=a,headers=headers).text# tree = etree.HTML(download_text)# download_href = tree.xpath('//div[@class="donwurl2"]/a/@href')[0]## doc_data = requests.get(url=download_href,headers=headers).content# doc_path = 'resumeLibs/' + name + '.docx'# with open(doc_path,'wb') as fp:# fp.write(doc_data)# print(name,'下载成功!')# 爬取多页数据headers = {'User-Agent': '这里放自己浏览器的UA就行啦'}# 创建文件夹if not os.path.exists('./resumeLibs'):os.mkdir('./resumeLibs')for pagenum in range(1,4):#这里爬取了1-3页中的简历模板if pagenum == 1:url = 'http://www.gerenjianli.com/moban/index.html'else:url = 'http://www.gerenjianli.com/moban/index_' + str(pagenum) + '.html'# page_text = requests.get(url=url,headers=headers).textresponse = requests.get(url=url, headers=headers)# response.encoding = 'utf-8'page_text = response.texttree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="list_boby"]/ul[@class="prlist"]/li')# print(li_list)for li in li_list:a = li.xpath('./div/a/@href')[0]name = li.xpath('./div/a/img/@alt')[0]name = name.encode('iso-8859-1').decode('gbk')download_text = requests.get(url=a, headers=headers).texttree = etree.HTML(download_text)download_href = tree.xpath('//div[@class="donwurl2"]/a/@href')[0]doc_data = requests.get(url=download_href, headers=headers).contentdoc_path = 'resumeLibs/' + name + '.docx'with open(doc_path, 'wb') as fp:fp.write(doc_data)print(name, '下载成功!')
python爬虫 爬取简历模板相关推荐
- Python批量爬取简历模板
文章目录 前言 一.需求 二.分析 1. 查看网页源码(ctrl+u) 2.进一步分析 三.处理 四.运行效果 前言 为了更好的掌握数据处理的能力,因而开启Python网络爬虫系列小项目文章. 小项目 ...
- Python爬虫-爬取wallhaven壁纸
Python爬虫-爬取wallhaven壁纸 前言 可行性分析 功能介绍 效果展示 基本思路 1.获取每页(1页24张)壁纸的url 2.获取每张壁纸缩略图的url 3.获取壁纸原图下载的url 4. ...
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
- python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
- python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...
- 使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...
- python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
最新文章
- 关于机器学习,不可不知的15个概念
- Python应用实战案例-Python实现K线图绘制
- CentOS7中安装图形界面
- poj 2831(次小生成树)
- ux设计师怎样找同类产品_没有预算? 别找借口。 便宜的UX上的UX 2:让我们开始构建。...
- 奇怪的DNS问题,虚拟机下可以,真实的环境却出错,希望大家帮助下
- 隐式类型转换与转换操作符operator T
- AI给你安利了一个职位,猜猜它觉得你适合做什么?
- hadoop常用的端口配置
- 正则邮箱_正则表达式再进级
- 9个Console命令
- mysql 中国省份城市数据库表
- Android 打造万能网络解析框架
- 夜晚网速变慢与网站服务器开机数量减少有关,【网络】网速慢的原因与对策
- 名企笔试:2015小米暑期实习(风口的猪-中国牛市)(2017-04-09 算法爱好者)
- 加强银行余额调节表在财务管理中的作用
- 前端显示和隐藏div的方法 / 判断
- 应聘Java笔试时可能出现问题库及其答案(最全版)
- Mac下Qt for android 环境配置
- 感谢各位博友的关注和支持!