一. urllib

urllib是python中自带的一个基于爬虫的模块

作用:可以使用代码模拟浏览器发起请求

使用流程:

  • 指定url
  • 发起请求
  • 获取页面数据
  • 持久化存储

1. 第一个urllib爬虫程序

# 需求: 爬取搜狗首页的页面数据
import urllib.request
# 1. 指定url
url = 'https://www.sogou.com/'# 2. 发起请求:urlopen可以根据指定的url发起请求,并返回一个响应对象
response = urllib.request.urlopen(url=url)# 3. 获取页面数据:read函数返回的就是响应对象中存储的页面数据
page_text = response.read()# 4. 进行持久化存储
with open('./sougou.html', 'wb') as f:f.write(page_text)print("Done")

2. urllib编码处理

# 需求:爬去指定词条所对应的页面数据
import urllib.request
import urllib.parse# 指定url
url = 'https://www.sogou.com/web?query='# url特性:url不可以存在非ASCII编码的字符数据,汉字并不在ASCII编码当中
word = urllib.parse.quote("宝马")
url +

玩转python爬虫,从简易到复杂相关推荐

  1. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  2. 由浅到深玩转Python爬虫(一)初识爬虫

    文章目录 前言 1. Python版本如何选择? 2. IDE如何选择? 3. 初识爬虫 4. 爬虫前景怎么样? 5. 怎么编写爬虫? 6. 来!我们上道具 7. 致谢 前言   由于自身对爬虫技术的 ...

  3. python爬虫经典段子_玩转python爬虫之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  4. 利用python爬虫与数据分析,打造最强玩法,轻松成为大神级玩家!

    前言: 最近迷上了一款游戏,但是作为一名程序员的我是不可能只玩游戏的,我必须把它的官网数据采集下来! 环境: windows python3.6.5 模块: requests jsonpath pyg ...

  5. 玩转python网络爬虫-清华大学出版社-图书详情-《玩转Python网络爬虫》

    前 言 随着大数据和人工智能的普及,Python的地位也变得水涨船高,许多技术人员投身于Python开发,其中网络爬虫是Python最为热门的应用领域之一.在爬虫领域,Python可以说是处于霸主地位 ...

  6. 推荐一位玩自动化、爬虫的 Python 硬核爱好者

    今天给大家推荐一位 Python 类的公众号「AirPython」,作者:星安果,果哥有 7 年的编程学习经验,热爱 Python 爬虫.自动化实战.软件测试.Web.数据分析及软件测试,平时喜欢分享 ...

  7. 【游戏开发进阶】带你玩转模型法线,实验一下大胆的想法(法线贴图 | shader | Unity | python | 爬虫)

    文章目录 一.前言 二.直观感受法线贴图 三.表面法线 1.表面法线的概念 2.空间与坐标系 2.1.世界空间--世界坐标系 2.2.局部空间--局部坐标系 2.3.切线空间--切线坐标系 2.4.小 ...

  8. 小白学 Python 爬虫(42):春节去哪里玩(系列终篇)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. Python 爬虫瞎玩系列(1) —— Bilibili的前100个上古巨坟考古

    Python 爬虫瞎玩系列(1) -- Bilibili的前100个上古巨坟考古 现在是2017年5月25日13:29:56,嗯,神志正常. Python爬虫很难?不存在的. 只要学习我的课程< ...

最新文章

  1. android 之 Intent、broadcast
  2. V神又在操心区块链技术落地,以太坊大涨!
  3. 提高ASP.net性能的十种方法
  4. ldap radius mysql_radius vs ldap
  5. 文件I0通用的IO模型
  6. 【转载】这次拆库 应是微服务化的拆分方式
  7. 中级php工程师书籍,中级PHP工程师
  8. win7 nginx php 环境,win7下docker环境搭建nginx+php-fpm+easyswoole+lavarel开发环境
  9. JQuery Ajax 在asp.net中使用总结
  10. xp虚拟服务器设置,VMWare的XP虚拟机网络设置
  11. php ip纯真数据库Dat,PHP获取IP地址所在地信息的实例(使用纯真IP数据库qqwry.dat)
  12. git lfs mac 安装_Git LFS
  13. 比尔盖茨的十条“金玉良言”
  14. CSS中的四种定位以及top和margin-top的区别
  15. 关于数据可视化图表的制作,你需要关注的30个小技巧
  16. (附源码)springboot校园购物网站APP 毕业设计041037
  17. element-ui表格行不对齐
  18. 使用Latex进行中文排版
  19. [cocos2dx开发技巧4]工具CocosBuilder的使用--复杂动画
  20. B.ljw 养蔷薇(普通莫队)

热门文章

  1. 博途v13打开软件时显示连接不到服务器,博图软件 搜索在线设备 提示“到通讯服务器连接已中止”...
  2. 腾讯云智前端暑期实习面经
  3. imbinarize与im2bw两者异同
  4. [转] 乔布斯的真正伟大之处在哪里
  5. css flex布局自动换行
  6. 深度学习最新工作CookNet
  7. 如何去掉麦克风的杂音?
  8. 微电子新手入门之ADS常用操作——ADS的port与layout不能相连
  9. AStar 算法 ---在Unity当中实现
  10. Java小项目——房屋出租系统