现在的博主正在发呆,无意之中打开了扇贝Python必背词汇的网址。那么既然打开了,再加上博主挺无聊的。那么就尝试爬取一下这个网页!

一、网页分析

我们打开此网站之后,通过以往爬取网页的经验,会发现此网页特别容易爬取。

大概查看了网页,我们只需爬取单词和含义即可。首先我们先来查看网页源码

下面分别把他们解析出来:

,分析完毕后,我们就可以通过代码进行实现了。

etree_obj = etree.HTML(html)

word_list = etree_obj.xpath('//strong/text()')

explain_list = etree_obj.xpath('//td[@class="span10"]/text()')

item_zip = zip(word_list,explain_list)

for item in item_zip:

items.append(item)

分析完内容,下面就开始分析分页。鉴于此URL只有三页URL,因此,博主就使用最简单的方式,把Url拼接出来

base_url = "https://www.shanbay.com/wordlist/110521/232414/?page={}"

for i in range(1, 4):

url = base_url.format(i)

print(url)

二、代码实现

# encoding: utf-8

'''

@author 李华鑫

@create 2020-10-08 8:10

Mycsdn:https://buwenbuhuo.blog.csdn.net/

@contact: 459804692@qq.com

@software: Pycharm

@file: 作业:爬扇贝Python必背词汇.py

@Version:1.0

'''

import csv

import requests

from lxml import etree

"""

https://www.shanbay.com/wordlist/110521/232414/?page=1

https://www.shanbay.com/wordlist/110521/232414/?page=2

https://www.shanbay.com/wordlist/110521/232414/?page=3

//strong # en

//td[@class="span10"] # cn

"""

base_url = "https://www.shanbay.com/wordlist/110521/232414/?page={}"

headers={

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

}

items =[]

def parse_url(url):

"""解析url,得到响应内容"""

response = requests.get(url=url,headers=headers)

return response.content.decode("utf-8")

def parse_html(html):

"""使用xpath解析html"""

etree_obj = etree.HTML(html)

word_list = etree_obj.xpath('//strong/text()')

explain_list = etree_obj.xpath('//td[@class="span10"]/text()')

item_zip = zip(word_list,explain_list)

for item in item_zip:

items.append(item)

def svae():

"""将数据保存到csv中"""

with open("./shanbei.csv", "a", encoding="utf-8") as file:

writer = csv.writer(file)

for item in items:

writer.writerow(item)

def start():

"""开始爬虫"""

for i in range(1, 4):

url = base_url.format(i)

html = parse_url(url)

parse_html(html)

svae()

if __name__ == '__main__':

start()

三、运行结果

美好的日子总是短暂的,虽然还想继续与大家畅谈,但是本篇博文到此已经结束了,如果还嫌不够过瘾,不用担心,我们下篇见!

如果是对Python爬虫感兴趣的,点击卡片可以和我们一起交流:正在跳转​jq.qq.com

扇贝python_Python爬虫入门经典 | 简单一文教你如何爬取扇贝单词相关推荐

  1. 爬虫入门经典(九) | 简单一文教你如何爬取扇贝单词

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  2. 爬虫入门经典(十四) | 使用selenium尝试爬取豆瓣图书

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  3. 爬虫入门经典(十一) | 一文带你爬取传统古诗词(超级简单!)

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  4. 爬虫入门实战第一站——梨视频视频爬取

    爬虫入门实战第一站--梨视频视频爬取 简介 博主最近重新开始了解爬虫,想以文字方式记录自己学习和操作的过程.本篇文章主要是使用爬虫爬取梨视频网站中的视频并下载到本地,同时将视频简介和视频网站保存在ex ...

  5. 爬虫入门经典(十三) | 一文教你简单爬取腾讯招聘

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  6. Python爬虫入门(四):实战,爬取4399小游戏首页

    目录 robots.txt robots协议 robots.txt 语法 君子协定 何时需要robots协议? 查看4399.com的robots.txt 设定并分析目标 代码 urllib2& ...

  7. python爬图片代码大全_爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据

    经过了前面的努力,我们成功获取到了数据,并且学会了保存,但是只是用网页展示出来,是不是有一些不够美观呢? 所以本节的内容是:数据的可视化.拿到了数据却不能使其简单易懂并且足够突出,那就是不是好的数据工 ...

  8. python爬虫入门练习,使用正则表达式和requests爬取LOL官网皮肤

    刚刚python入门,学会了requests模块爬取简单网页,然后写了个爬取LOL官网皮肤的爬虫,代码奉上 #获取json文件 #获取英雄ID列表 #拼接URL #下载皮肤 #导入re request ...

  9. Python爬虫入门教程 14-100 All IT eBooks多线程爬取

    All IT eBooks多线程爬取-写在前面 对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...

最新文章

  1. 值得收藏!16段代码入门Python循环语句
  2. Python3 不换行打印
  3. Python TypeError: takes no arguments
  4. 驰骋工作流程引擎,ccflow,如何把子线程的数据汇总到合流节点表单中去?
  5. matlab system object,通过 System object 实现模块
  6. Androidの网络Http之判断是否连接服务器
  7. jeecg下实现自动默认模糊查询
  8. deployment:声明式的升级应用
  9. mongodb安装、远程访问设置、管理命令、增删改查操作以及GUI
  10. Social Engineering Data
  11. ovito在linux下安装教程,linux下超详细教程安装phonopy
  12. 微信公众号前端html,微信公众号开发(前端)
  13. 计算机硬盘模式,详细教你bios设置硬盘模式
  14. 什么是聚合页面?网站优化做聚合页面的好处
  15. 设置笔记本电脑插入USB鼠标时,自动禁用触摸板
  16. FPGA平台开发基础
  17. SQL Server之创建数据库和表
  18. Python数据科学环境配置
  19. 囧,现在才只QQ有远程控制
  20. java indexeddb_indexedDB 基本使用

热门文章

  1. 阿里云服务器ECS安装MySQL并远程连接
  2. DoubleTake for Mac(全景拼图软件)
  3. 详细介绍链表原理即应用(Java语言)
  4. 【合新通信】40G QSFP+光口转化10G SFP+光口
  5. Forth GPON OLT Internet业务配置指导
  6. vue项目实现定时刷新和关闭刷新功能
  7. vim Vundle
  8. 将外网机器python环境迁移到内网机器中
  9. 解读《阿里巴巴 Java 开发手册》背后的思考
  10. Redis主从理论概述