爬虫的概念简述

爬虫有什么分类

通用网络爬虫
聚焦网络爬虫
增量式网络爬虫
Deep Web 爬虫

爬虫的基本流程

发起请求
获取响应内容
解析内容
即
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储

爬取网站需要注意什么

爬取网页具有三大风险，即性能骚扰，法律风险，隐私泄露。我们应遵守Robots协议。
Robots协议：
obots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。遵守Robots协议能减少违法风险。

什么是数据解析？爬虫一般用什么来处理？

数据解析：

有耐心有耐心的一步一步查找、排除就会提取出目标信息。

处理方式：

一是通过正则表达式，在python中就是利用re模块；二是xpath；三是利用BeautifulSoup。

爬取网站首页

用百度和搜狗来举例子
百度爬取首页会出现乱码，需要在获取数据后对其的编码格式修改成utf-8。

爬取搜狗首页

import  requests"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储"""
url = 'https://www.sogou.com/'response = requests.get(url)
text = response.textprint(text)with open('./sogou.html','w',encoding='utf-8') as  f :f.write(text)print("数据爬取结束!!!!!")

爬取百度首页

import  requests"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储"""
url = 'https://www.baidu.com/'response = requests.get(url)
text = response.textprint(text)with open('./baidu.html','w',encoding='utf-8') as  f :f.write(text)print("数据爬取结束!!!!!")

爬虫概念以及网站首页爬取相关推荐

python爬虫反爬机制_浅谈爬虫及绕过网站反爬取机制之Python深度应用
我们中公优就业的老师希望能给那些面临困境的朋友们带来一点帮助!(相关阅读推荐:Python学习就看这里!) 爬虫是什么呢,简单而片面的说,爬虫就是由计算机自动与服务器交互获取数据的工具.爬虫的最基本就 ...
Scrapy爬虫之热门网站数据爬取--------第2关
第2关:小说网站玄幻分类第一页小说爬取任务描述本关任务:爬目标网页的3本小说保存到本地MySQL数据库,目标网页为全书网玄幻分类首页. 注:考虑到单机(非分布式)爬虫的爬取时间和测试平台的压力,我 ...
Python爬虫应用实战-网站数据爬取及数据分析
实战一:中国大学排名前言由于上一篇文章中教会了大家如何存储数据,但是由于篇幅过大,就没有加入实战篇.想必大家也等着急了吧,所以今天就为大家带来两篇实战内容,希望可以帮助到各位更好的认识到爬虫与My ...
Python之Scrapy爬虫（热门网站数据爬取）
第一关:猫眼电影排行TOP100信息爬取代码: item.py文件 import scrapy class MaoyanItem(scrapy.Item):#********** Begin *** ...
[Python]网站数据爬取任务
Python爬虫作业:网站数据爬取任务从以下网址(包括但不限于下列网络或应用)中爬取数据,以核实的形式存储数据,并进行分析(不一定是计算机角度的分析,可写分析报告),或制作词云图. 一.文本数据酷 ...
爬虫实战（1）————百度首页爬取
百度首页爬取提供我的爬取页面的思路,不一定是正确的但是我都是按照这个思路走的第一步(页面分析) 可以看到页面非常简单那么我们的需求就是首先构造url 然后观察我们想要爬取的对象我们的需求是 ...
爬虫实战：链家租房数据爬取，实习僧网站数据爬取
前面已经进行了爬虫基础部分的学习,于是自己也尝试爬了一些网站数据,用的策略都是比较简单,可能有些因素没有考虑到,但是也爬取到了一定的数据,下面介绍两个爬过的案例. 爬虫实战链家网站爬取实习僧网站爬 ...
Java爬虫历险记 -- （1）爬取百度首页的logo
Java爬虫历险记 – (1)爬取百度首页的logo 在这篇文章里,介绍两种方式来获取百度网页的logo: (1)Httpclient (2) jsoup + Httpclient ,详细的运行结果可 ...
【EduCoder答案】Scrapy爬虫（二）热门网站数据爬取
简介答案查询的入口网页版并不是所有的关卡都有答案,有些只有部分关卡有不要直接复制答案哦 Scrapy爬虫(二)热门网站数据爬取 >>>查看第1关:猫眼电影排行TOP100信息 ...

爬虫概念以及网站首页爬取