菜鸟自学python记录

初级爬虫学习(在B站上看的“黑马程序员180分钟轻松获取疫情数据,Python爬虫入门课”,此次是自己跟着写的简易代码)

import requests
from bs4 import BeautifulSoup
import re
import json
# 请求,获取需要解析的文本
response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
home_page = response.content.decode()
# 从HTML中提取数据
soup = BeautifulSoup(home_page,'lxml')#lxml为解析器
scrip = soup.find(id="getListByCountryTypeService2true")
# 输出为json格式
text = scrip.text
# 从json中使用正则解析提取世界各国的疫情信息
json_str = re.findall(r'\[.+\]',text)[0]
#将json格式转换为python文件
data = json.loads(json_str)
# 打开文件,并写入,json文件命名为spider.json
with open('D:/python/spider.json','w',encoding='utf-8') as fp:# 将python文件存入json文件中json.dump(data,fp,ensure_ascii=False)

查找id标签的过程截图

最后json结果部分截图

python爬虫------从丁香园疫情首页提取世界各国的疫情数据相关推荐

  1. python爬虫实战1:1980~2020年世界各国GDP数据获取

    以下内容均为个人理解,如有错误,请评论留言,会尽快修改,谢谢!!! 1980~2020年世界各国GDP数据获取 数据爬取的过程 1.单页爬取 2.单页数据提取 爬虫完整代码 结果展示: 数据爬取的过程 ...

  2. Python爬虫之XPath基础教程:用代码抓取网页数据

    Python爬虫之XPath基础教程:用代码抓取网页数据 在网络时代,网页数据是获取信息和进行分析的最重要的来源之一.Python的爬虫技术让我们可以轻松抓取网页数据,并进行数据处理.XPath是一种 ...

  3. Python爬虫系列之爬取某奢侈品小程序店铺商品数据

    Python爬虫系列之爬取某奢侈品小程序店铺商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学 ...

  4. python爬取丁香园首页疫情json数据,尝试存入mysql数据库

    新手练python爬虫 # -*- coding:utf-8 -*- """ 作者:孙敏 日期:2022年01月01日 """ import ...

  5. Python爬虫:从m3u8文件里提取小视频的正确操作

    文章目录 前言 1. HLS协议与m3u8文件 2. 第三方库----m3u8 3. 合成mp4文件 4. 完整代码 5. 结束语 前言   在网上爬取的小视频(.ts格式)打不开怎么搞?使用IDM下 ...

  6. Python爬虫(三):scrapy提取数据之CSS提取器

    scrapy提取数据的三种方法:CSS.XPATH.RE. 这里学习一下怎么使用CSS提取器提取有用的数据.参考自http://www.scrapyd.cn/doc/. 这里需要有一定的CSS基本,下 ...

  7. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  8. python爬虫,2020年《财富》中国500强排行榜数据爬取源码

    一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也比较清 ...

  9. python爬虫之Scrapy框架原理及操作实例详解、股票数据Scrapy爬虫

    爬虫框架 -scrapy.pyspider.crawley等 Scrapy框架 1.scrapy框架介绍 -https://doc.scrapy.org/en/latest/ -http://scra ...

最新文章

  1. 1043 输出PATest
  2. 随机密码php,PHP会生成随机密码
  3. C语言找出两个字符串唯一不同的一个字符(附完整源码)
  4. 42021高考成绩查询北京6一个,北京高考成绩查询时间:6月27日
  5. 隐藏了十年的 Sudo 漏洞曝出:无需密码就能获取 root 权限
  6. html marquee css,HTML之marquee(文字滚动)详解_html/css_WEB-ITnose
  7. cv mat保存图片_EmguCV创建/保存图片
  8. javascript中ajax的优缺点
  9. 7个顶级静态代码分析工具
  10. ffmpeg GPU加速压制视频
  11. C语言:将3*4矩阵中找出行最大,列最小的那个元素。-将低于平均值的人数作为函数返回值,将低于平均分的分数放入below数组中。...
  12. STM32 DS18B20温度传感器实验(HAL库)
  13. matlab加速度转化为位移,加速度转换成位移的matlab代码及说明
  14. 基于SSM的医院预约挂号系统 JAVA MYSQL
  15. TCL中变量嵌套使用
  16. pythonweb全栈开发_Python web全栈学习路线
  17. 【相机】(2)——WebView中打开相机、文件选择器的问题和解决方法
  18. css 溢出隐藏省略号代替
  19. 2019最新《布尔教育php设计模式项目实战 共17课》
  20. 易观国际葛惟颖:中国移动支付行业发展前景分析

热门文章

  1. 4. “随机漫步的傻瓜--纳西姆.尼古拉斯.塔勒布”读后感
  2. 认识微型计算机的组成ppt,认识微型计算机(PPT课件).ppt
  3. 2023 计算机职业规划
  4. wordpress企业网站主题仿制04-wordpress企业网站产品页面新闻页面仿制
  5. webERP的深入浅出系列——1 基础数据准备初始化
  6. 服务器WPS上的文档删除了怎么办,wps怎么样找回已经删除的文档
  7. GSM-GPRS-WCDMA-LTE-5g 的总结
  8. 20135323符运锦期中总结----Linux系统的理解及学习心得
  9. 运营商常见的大数据业务学习笔记
  10. Instruments性能检测