★Python爬虫 ※ 入门详解
目录
※一、理解网页结构
★1.1查看网页源代码
★1.2检查
※二、获取网页数据
★2.1 安装requests库
★2.2 使用requests发生网络请求
★2.3伪装成普通用户
※2.4获取豆瓣电影标题
※参考:
※一、理解网页结构
一个网页通常由三部分代码组成:HTML代码、CSS代码和Javascript代码。
★1.1查看网页源代码
★1.2检查
鼠标移动到任意位置,右击选择检查,可以看到鼠标移动到的位置对应的代码
※二、获取网页数据
要提取网页信息,需要把网页数据下载下来
使用requests库可以实现
首先
★2.1 安装requests库
打开cmd命令提示符,输入pip install requests,回车
★2.2 使用requests发生网络请求
输入以下代码显示baidu.com的网络数据内容
import requests
res = requests.get('https://www.baidu.com/')
print(res.content.decode())
★2.3伪装成普通用户
如果直接获取豆瓣网的数据
>>> import requests
>>> res=requests.get('https://movie.douban.com/subject/35205446/?from=showing')
>>> print(res.content.decode())
发现没有任何结果,因为豆瓣网识别了我们的程序是一个爬虫,而豆瓣网不允许爬虫访问
解决办法:伪装成普通用户
要伪装成普通用户可以设置一个 headers
参数
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"}
import requests
res=requests.get('https://movie.douban.com/subject/35205446/?from=showing',headers=headers)
print(res.content.decode())
如何获取headers?请参考python爬取时怎么获取头部header_z2431435的博客-CSDN博客_pythonheaders怎么获取
※2.4获取豆瓣电影标题
可以看出标题格式
<span property="v:itemreviewed">铁道英雄</span>
知道了标题的格式,就可以用正则表达式获取标题的内容
正则表达式是什么呢?python 正则表达式_m0_52043808的博客-CSDN博客
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"}
import requests
res=requests.get('https://movie.douban.com/subject/35205446/?from=showing',headers=headers)
page=res.content.decode()
import re
title=re.search(r'<span property="v:itemreviewed">(.*?)</span>',page,re.S)#(.*?)是要搜索的内容
print(title.group(1))#读取第一组数组
※参考:
编程胶囊-打造学习编程的最好系统
★Python爬虫 ※ 入门详解相关推荐
- python语言编程基础-Python语言入门详解!快速学成Python!
原标题:Python语言入门详解!快速学成Python! 很多技能是被职场所需要的,但很可惜... 这些技能在大学中并学习不到. 大学和职场现实存在的横沟对大部分同学来说难以跨越或碰得头破血流... ...
- python语言入门-Python语言入门详解!快速学成Python!
原标题:Python语言入门详解!快速学成Python! 很多技能是被职场所需要的,但很可惜... 这些技能在大学中并学习不到. 大学和职场现实存在的横沟对大部分同学来说难以跨越或碰得头破血流... ...
- python语言入门详解-python初级教程:入门详解
python初级教程:入门详解 Crifan Li 目录 前言 .................................................................... ...
- Python 网络爬虫入门详解
什么是网络爬虫 网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序.众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容. 优先申明:我们使用 ...
- python爬虫程序详解_Python网络爬虫之三种数据解析方式
指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析.因为大多数情况下的需求,我们都会指 ...
- Python爬虫xpath详解
目录 一.xpath介绍 二.安装lxml 三.xpath解析原理 四.实例化一个etree对象 五.xpath表达式 六.爬虫实战 一.xpath介绍 xpath是一门在 XML 文档中查找信息的语 ...
- python编程入门详解_python编程入门知识练习
python 入门基础知识练习 1编写第一个程序,目前使用的都是python 3 # print('hello world!') 2.查看当前python编辑器的版本号 # python -v 3.使 ...
- Python爬虫实战详解:爬取图片之家
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 如何使用python去实现一个爬虫? 模拟浏览器 请求并获取网站数据 在原始 ...
- Python爬虫:详解Appium如何爬取手机App数据以及模拟用户操作手势
目录 Appium 模拟操作 屏幕滑动 屏幕点击 屏幕拖动 屏幕拖拽 文本输入 动作链 实战:爬取微博首页信息 Appium 在前文的讲解中,我们学会了如何安装Appium,以及一些基础获取App元素 ...
最新文章
- libgdx 1.4.1公布
- HALCON Progress
- c语言多线编程程序,C语言之多线编程 来看看?
- 浅析去中化区块链游戏资产交易平台
- POJ2777(线段树裸题)
- 新款苹果电脑_苹果真牛!iPhone的软件,苹果电脑上也照样可用了
- php如何复制一个对象,PHP中的对象复制及__clone() 函数
- 吴恩达机器学习(十六)机器学习流水线、上限分析
- IOS中,在两个ViewController之间传值
- sqllite开发安卓项目_安卓学习笔记(一)
- WCF分布式开发必备知识(4):Web Service(转)
- 分享OUTLOOK的定时发送功能
- 计算机单机管理软件,小财迷电脑收银系统(收银记账软件) 单机版
- 2022年最新计算机专业毕业设计选题 - 选题推荐 毕设开题 简单易过 题目新颖
- 51.La网站统计邀您认知数据可视化
- 前端九年老司机的一天作息
- Spring官宣,干掉原生 JVM!硬气啊!
- 基于UDP的企业级大文件传输体系
- 小实验----Cobbler自动化部署装机
- 关于Paxos的历史