简介:爬取“个人简历网”中的简历模板并存储到本地(http://www.gerenjianli.com/moban/index.html)
代码:

import requests
from lxml import etree
import os
if __name__ == '__main__':# 这是只爬取一页数据# url = 'http://www.gerenjianli.com/moban/index.html'## headers = {#     'User-Agent':'这里放自己浏览器的UA就行啦'# }# # page_text = requests.get(url=url,headers=headers).text# response = requests.get(url=url, headers=headers)# # response.encoding = 'utf-8'# page_text = response.text## tree = etree.HTML(page_text)# li_list = tree.xpath('//div[@class="list_boby"]/ul[@class="prlist"]/li')# # print(li_list)## #创建文件夹# if not os.path.exists('./resumeLibs'):#     os.mkdir('./resumeLibs')# for li in li_list:#     a = li.xpath('./div/a/@href')[0]#     name = li.xpath('./div/a/img/@alt')[0]#     name = name.encode('iso-8859-1').decode('gbk')#     download_text = requests.get(url=a,headers=headers).text#     tree = etree.HTML(download_text)#     download_href = tree.xpath('//div[@class="donwurl2"]/a/@href')[0]##     doc_data = requests.get(url=download_href,headers=headers).content#     doc_path = 'resumeLibs/' + name + '.docx'#     with open(doc_path,'wb') as fp:#         fp.write(doc_data)#         print(name,'下载成功!')# 爬取多页数据headers = {'User-Agent': '这里放自己浏览器的UA就行啦'}# 创建文件夹if not os.path.exists('./resumeLibs'):os.mkdir('./resumeLibs')for pagenum in range(1,4):#这里爬取了1-3页中的简历模板if pagenum == 1:url = 'http://www.gerenjianli.com/moban/index.html'else:url = 'http://www.gerenjianli.com/moban/index_' + str(pagenum) + '.html'# page_text = requests.get(url=url,headers=headers).textresponse = requests.get(url=url, headers=headers)# response.encoding = 'utf-8'page_text = response.texttree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="list_boby"]/ul[@class="prlist"]/li')# print(li_list)for li in li_list:a = li.xpath('./div/a/@href')[0]name = li.xpath('./div/a/img/@alt')[0]name = name.encode('iso-8859-1').decode('gbk')download_text = requests.get(url=a, headers=headers).texttree = etree.HTML(download_text)download_href = tree.xpath('//div[@class="donwurl2"]/a/@href')[0]doc_data = requests.get(url=download_href, headers=headers).contentdoc_path = 'resumeLibs/' + name + '.docx'with open(doc_path, 'wb') as fp:fp.write(doc_data)print(name, '下载成功!')

python爬虫 爬取简历模板相关推荐

  1. Python批量爬取简历模板

    文章目录 前言 一.需求 二.分析 1. 查看网页源码(ctrl+u) 2.进一步分析 三.处理 四.运行效果 前言 为了更好的掌握数据处理的能力,因而开启Python网络爬虫系列小项目文章. 小项目 ...

  2. Python爬虫-爬取wallhaven壁纸

    Python爬虫-爬取wallhaven壁纸 前言 可行性分析 功能介绍 效果展示 基本思路 1.获取每页(1页24张)壁纸的url 2.获取每张壁纸缩略图的url 3.获取壁纸原图下载的url 4. ...

  3. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  4. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  5. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

  6. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

  7. python网易云_用python爬虫爬取网易云音乐

    标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

  8. 使用Python爬虫爬取网络美女图片

    代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...

  9. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

最新文章

  1. 关于机器学习,不可不知的15个概念
  2. Python应用实战案例-Python实现K线图绘制
  3. CentOS7中安装图形界面
  4. poj 2831(次小生成树)
  5. ux设计师怎样找同类产品_没有预算? 别找借口。 便宜的UX上的UX 2:让我们开始构建。...
  6. 奇怪的DNS问题,虚拟机下可以,真实的环境却出错,希望大家帮助下
  7. 隐式类型转换与转换操作符operator T
  8. AI给你安利了一个职位,猜猜它觉得你适合做什么?
  9. hadoop常用的端口配置
  10. 正则邮箱_正则表达式再进级
  11. 9个Console命令
  12. mysql 中国省份城市数据库表
  13. Android 打造万能网络解析框架
  14. 夜晚网速变慢与网站服务器开机数量减少有关,【网络】网速慢的原因与对策
  15. 名企笔试:2015小米暑期实习(风口的猪-中国牛市)(2017-04-09 算法爱好者)
  16. 加强银行余额调节表在财务管理中的作用
  17. 前端显示和隐藏div的方法 / 判断
  18. 应聘Java笔试时可能出现问题库及其答案(最全版)
  19. Mac下Qt for android 环境配置
  20. 感谢各位博友的关注和支持!

热门文章

  1. 随笔——初学编程,急而不慌
  2. Python爬取视频网站弹幕,并做成词云图
  3. 一种具有肤质保留功能的磨皮算法
  4. 论文笔记《Selective Search for object recognition》
  5. nohup挂起运行时无效
  6. UG模具设计主要学习哪些内容?
  7. vue3.0 父子组件通信
  8. OKLink区块链浏览器连续升级,欧科云链持续推动区块链技术创新
  9. 给孩子们(抄书转贴,80年代看的,影响我一生的文章)
  10. SAP 库存转储(五)—STO Stock transfer Order