目标天气预报网站:http://www.weather.com.cn/weather/101210701.shtml

需要用到的库有requests(用来发送请求和接收url)BeautifulSoup(用来解析html文本)

爬虫的基本思路:
1.首先发送请求并返回requests(最好模拟谷歌浏览器的头部访问(即下面的headers),并且设置一个每次访问的间隔时间,这样就不容易触发网站的反爬机制(说白了就是模拟人类的访问行为))
2.获得requests对象后使用BeautifulSoup (美丽的汤??也不知道为啥要起这个名)来解析requests对象,注意这里要用request.text,就取文本,解析后的soup打印出来其实就是整个html的字符串内容,但是类型并不是string,应该是bs4类型,这就是这个美丽的汤的魅力所在,它可以直接在python用类似于ccs选择器那样的方式一层一层的寻找我们要的div内容。
3.搜寻soup对象中我们需要的内容,就是一层一层div找到对应的属性,然后拿取我们需要的内容。(看html或者把之前的soup对象打印出来)

4.打印或保存文件

所有代码

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
url= 'http://www.weather.com.cn/weather/101210701.shtml'
res = requests.get(url, headers=headers,timeout=20)
res.encoding = 'utf-8'
#print(res.status_code)
soup = BeautifulSoup(res.text,'html.parser')
tem_list = soup.find_all('p',class_='tem')  #存温度
#print(tem_list)
day = soup.find('ul',class_='t clearfix')  #存日期
day_list = day.find_all('h1')
#print(day_list)
wealist = soup.find_all('p',class_='wea') #存天气
day_pre = {}for i in range(7):try:temHigh = tem_list[i].span.string    #有时候没有最高温度,用第二天的代替except AttributeError as e:temHigh = tem_list[i+1].span.stringtemLow = tem_list[i].i.stringwea = wealist[i].stringday_pre[day_list[i].string] = '最高温度:'+temHigh +' 最低温度:' + temLow + ' 天气:' + wea
print(day_pre)

结果:

python爬虫爬取天气预报信息相关推荐

  1. 用python爬虫爬取微博信息

    用python爬虫爬取微博信息 话不多说,直接上代码! import requests from bs4 import BeautifulSoup from urllib import parse i ...

  2. python爬虫爬取房源信息

      目录 一.数据获取与预处理 二.csv文件的保存 三.数据库存储 四.爬虫完整代码 五.数据库存储完整代码 写这篇博客的原因是在我爬取房产这类数据信息的时候,发现csdn中好多博主写的关于此类的文 ...

  3. 复工复产,利用Python爬虫爬取火车票信息

    文章目录 Python 爬虫操作基本操作 python 标准库 urllib 获取信息 上传信息 python 标准库 urllib3 获取信息 上传信息 第三方库 requests 获取特征信息 模 ...

  4. python 爬虫爬取小说信息

    1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称.作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3.根据每个章节的地址信息下载 ...

  5. python爬虫爬取网页信息

    爬虫流程:准备工作➡️爬取网页,获取数据(核心)➡️解析内容➡️保存数据 解析页面内容:使用beautifulsoup定位特定的标签位置,使用正则表达式找到具体内容 import导入一些库,做准备工作 ...

  6. python爬虫爬取华硕笔记本信息

    之前一个朋友麻烦我帮他爬取一下华硕笔记本信息,最后存储为一个csv格式的文件,文件格式为"系列 型号".本文为本人实现该爬虫的心路旅程. 目录 一.获取系列信息 1. 爬虫可行性分 ...

  7. 四小时学python爬虫爬取信息系列(第一天)

    四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...

  8. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  9. Python爬虫爬取链家网上的房源信息练习

    一 原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家 打开链家网页:https://sh.lianjia.com/zufang/  ...

  10. python爬虫爬取微信公众号小程序信息

    python爬虫爬取微信公众号小程序信息 爬取内容 某汽车维修信息提供的维修店名称,地点以及电话(手机)号码 爬取步骤 啥也别管,先抓包看看,在这里,博主使用的抓包软件是charles 抓包:将网络传 ...

最新文章

  1. {好文备份}SQL索引一步到位
  2. 第三周总结CoreIDRAW
  3. 从零开始_学_数据结构(五)——STL(map、set、list、vector)
  4. wandb(wb)(weights and biases): 深度学习轻量级可视化工具入门教程
  5. TCP协议以及三次握手
  6. mysql mos login_MySQL 中常用的函数
  7. python第三项开始每一项都等于前两项的积_Python二十九个常见的脚本汇总!
  8. 2021年第四届安洵杯WriteUp(转)
  9. IDEA2019开发WebService实例
  10. 淘宝网上一买卖精彩对话
  11. sensor 驱动调试小结
  12. MongoDB数据库入门到精通看这一篇就够了
  13. 宽带显示不能建立到远程计算机,宽带连接错误820:不能建立到远程计算机的连接 正确处理办法...
  14. 将字符串小写数字转换为大写数字
  15. vue 路由跳转返回上一级
  16. css constant() env()设置iphoneX等机型刘海屏、底部小黑条自动留白 设置安全区域与边界的距离
  17. 学习vue加OpenLayers(3)动画 GIF
  18. rdo远程计算机需要,RDO远程连接时错误提示解决办法
  19. 精妙绝伦的设计模式:策略模式+模板模式+工厂模式
  20. Swin Transformer v2实战:使用Swin Transformer v2实现图像分类(一)

热门文章

  1. 利用多开软件在Windows电脑上玩多个游戏
  2. 电脑莫名弹出一些广告,并且相关软件已经被卸载
  3. Python中pandas的安装操作说明(傻瓜版)
  4. 互动投影的有哪些特点及其应用
  5. Memory read error at 0xF8007080. AHB AP transaction error, DAP status f0000021
  6. linux中哪里定义寻找路径,linux – 对库的未定义参考,那么我怎样才能找到正确的路径?...
  7. [单片机][USB_HID] USB问题汇总
  8. 代表未来?自动化、区块链和知识经济你怎么看
  9. SpringBoot实战项目教程,真TM香!
  10. 机器学习笔记——决策树