爬虫【1】打开网站,获取信息

如何向网站发起请求并获取响应对象?

urllib.request.urlopen

  • 作用

向网站发起请求并获取响应对象

  • 参数
url:需要爬取的URL地址
timeout: 设置等待超时时间,指定时间内未得到响应抛出超时异常
  • 第一个爬虫程序

打开浏览器,输入百度地址(http://www.baidu.com/),得到百度的响应

import urllib.request# urlopen() : 向URL发请求,返回响应对象
response=urllib.request.urlopen('http://www.baidu.com/')
# 提取响应内容
html = response.read().decode('utf-8')
# 打印响应内容
print(html)
  • 响应对象(response)方法
1、bytes = response.read() # read()得到结果为 bytes 数据类型
2、string = response.read().decode() # decode() 转为 string 数据类型
3、url = response.geturl() # 返回实际数据的URL地址
4、code = response.getcode() # 返回HTTP响应码
# 补充
5、string.encode() # bytes -> string
6、bytes.decode()  # string -> bytes

爬虫【1】打开网站,获取信息相关推荐

  1. python已打开页面获取信息_python+selenium实现自动登录网页获取信息(一)

    我用的是一个教师继续教育的网站,进行演示和模拟,网站:http://cas.study.yanxiu.jsyxsq.com/auth/login?service=http%3A%2F%2Fwww.17 ...

  2. 【Python】爬虫案例——租房网站房间信息的全量抓取

      这里对爬虫的基础知识就不过多的阐述了,直接上案例.当数据需求被激发后,怎样利用爬虫技术区获取数据?那么,顺藤摸瓜是最好的方法.所需数据是互联网数据吗?该数据是公开的吗?数据是什么格式?数据的位置有 ...

  3. 利用Python爬虫获取招聘网站职位信息

    当你学会使用Python爬虫之后就会发现想要得到某些数据再也不用自己费力的去寻找,今天小千就给大家介绍一个很实用的爬虫案例,获取Boss直聘上面的招聘信息,同学们一起来学习一下了. Boss直聘爬虫案 ...

  4. Java爬虫 爬取某招聘网站招聘信息

    Java爬虫 爬取某招聘网站招聘信息 一.系统介绍 二.功能展示 1.需求爬取的网站内容 2.实现流程 2.1数据采集 2.2页面解析 2.3数据存储 三.获取源码 一.系统介绍 系统主要功能:本项目 ...

  5. Python爬虫——12306网站车次信息

    Python爬虫--12306网站车次信息 相信每一个人都听说过谷歌.百度等浏览器,我们在在输入栏中输入我们想要的关键字,便会出现与我们输入关键字有关的网页.那么这些数据时是怎么来的呢?其实这跟网络爬 ...

  6. 爬虫:利用cookie获取人人网登录后网页信息

    爬虫:利用cookie获取人人网登录后网页信息 思路: 1.首先创建一个自动获取登录cookie的实例,创建请求管理器opener 2.分析网页源码,获取登录的form信息,并写入data,访问登录界 ...

  7. Python爬虫实战—2345影视获取经典电影信息

    爬虫提前准备包 1)安装解析库lxml lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高. 命令行进行安装:pip install lxml ...

  8. 从东方财富网站获取动态市盈率和市净率的爬虫代码

    之前一直采用tushare.get_today_all() 获取市盈率和市净率,不知道是不是因为接口不再维护,获取的信息跟软件上的信息存在出入,刚好这段时间学习爬虫,因此写了段从东方财富网站获取市盈率 ...

  9. Python Scrapy爬虫实战(1):豆瓣网站图书信息案例- Scrapy初体验

    Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.Scrapy吸引人的 ...

最新文章

  1. Imec推出高性能芯片的低成本冷却解决方案
  2. 机器学习Basics-第九期-CNN卷积神经网络详解
  3. ansible代码发布系统
  4. Swift版音乐播放器(简化版),swift音乐播放器
  5. linux 系统监控、诊断工具之 top 详解
  6. Shell 脚本——测试命令
  7. JDK5.0新特性系列---11.5.3线程 同步装置之CyclicBarrier
  8. 使用FileUpload上传图片到数据库
  9. 【优化算法】粒子群算法和混沌搜索协同优化算法【含Matlab源码 1299期】
  10. Java 标准 IO 流编程一览笔录( 下 )
  11. LCD显示屏与OLED屏幕对比分析
  12. PA 调试心得(一个电容引发的问题)
  13. 15051:小Biu的区间和
  14. 更新wlan.bin文件
  15. xmanager显示linux7桌面,Xmanager 5远程连接CentOS7图形化界面
  16. LQ0018 顺子日期【枚举+日期】
  17. 雪晴数据网 - 在线学习数据科学技术
  18. 什么是矩阵java_java矩阵
  19. 021-MongoDB数据库从入门到放弃
  20. python数据分析之DataFrame的数据抽取

热门文章

  1. Android版本兼容性问题
  2. 中国地面气候资料日值数据集(V3.0)
  3. atan、atanf、atanl、atan2、atan2f、atan2l
  4. php单链表检测有没有环,写一段代码判断单向链表中有没有形成环,如果形成环,请找出环的入口处,即P点...
  5. 视频剪辑自学怎么入门?借助这款软件可以达到意想不到的效果
  6. 虚拟机由于硬盘存储空间过满导致启动异常+虚拟机扩容
  7. adb 命令模拟点击事件
  8. Kurento-6.7.1 媒体服务器搭建详细教程(Kurento-Media-Server)
  9. Ubuntu 16.04 tf-faster-rcnn 在CPU下训练数据
  10. Linux安装mql