利用BeautifulSoup爬取标题

整体思想:

  1. 首先导入所需要的库
  2. 声明一个方法 ,将过程包裹起来
  3. 获取网页
  4. 解析网页,找到我们所需要的东西
  5. 保存内容

1.获取随机头部的库方法

from fake_useragent import UserAgent
headers = {'User-Agent':UserAgent().random}
headers


每次返回的头部都是不一样的。

2.采用request来获取网页

import requests
from fake_useragent import UserAgent
headers = {'User-Agent':UserAgent().random}
link="https://movie.douban.com/top250"
r=requests.get(link,headers=headers,timeout=10)
r.text

3.用BeautifulSoup来解析网页,提取想要的标签


当我们查看网页源代码的时候可以发现,我们想要找的电影标题在《div》里面(class=“hd”),下面的《a》里面,最后在《span》里面。

所以可以这样获取内容:

soup=BeautifulSoup(r.text,"lxml")
div_list=soup.find_all("div",class_="hd")
title = div_list.a.span.text

4.保存内容

可以采用创建文件,将内容写入的方式。
如下:

with open("a.txt",'w') as f:for i in mi:f.write(i)

整体代码

#coding:utf-8
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent#随机头部库
def get_m():#声明一个方法headers = {'User-Agent':UserAgent().random}movie_list=[]for i in range(0,10):#爬取十页,也可以更多link= 'https://movie.douban.com/top250?start={}&filter='.format(i*25)#设置超时,如果超过设置的时间,单位 秒r=requests.get(link,headers=headers,timeout=10)#print(r.status_code) #如果有输出,状态值,说明爬到了信息#print(r.text)#还要进一步,爬取标题soup=BeautifulSoup(r.text,"lxml")#因为会取到很多,放到集合div_list=soup.find_all("div",class_="hd")for each in div_list:# 把div_list 遍历成每个each#要进一步取到a标签下的spanmovie=each.a.span.textmovie_list.append(movie)#print(div_list)return movie_listmi=get_m()#调用方法
print(mi)#保存内容
with open("a.txt",'w') as f:for i in mi:f.write(i)


爬取完成!

BeautifulSoup:爬取数据的规则

  • 标签:html中的<,b也叫元素
  • 爬标签 soup.div 爬取了div标签的内容,所有的div
  • soup.div.text 爬到了标签的内容
  • 《div》xx《/div》
  • soup.div.span 通过.来区别级别
  • 爬到了div下的span元素
  • soup find 一般用于爬第一个
  • soup find_all 爬很多的
  • id=”xx” 爬id名为xx区域
  • 从lass_=”xx” 爬class名为xx区域

利用BeautifulSoup爬取豆瓣top250排行榜标题相关推荐

  1. 利用scrapy爬取豆瓣top250

    前言(目的) 本文为scrapy爬虫的入门文章,作者尽量将自己刚开始学习所遇到的问题都还原出来,过程尽量写得详细详细再详细.希望通过这篇文章来记录自己刚开始学习爬虫所踩过的一些坑,同时记录下自己处理和 ...

  2. BeautifulSoup爬取豆瓣电影数据

    BeautifulSoup爬取豆瓣TOP250 豆瓣爬取地址 https://movie.douban.com/top250?format=text BeautifulSoup官网地址 https:/ ...

  3. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  4. Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

    概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...

  5. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

  6. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  7. 利用python爬取豆瓣音乐_Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

    节点的子节点,获取排名的代码为:li.span.text 绿色框中A节点中是歌曲的链接和图片链接,获取歌曲链接的代码为:li.a['href'] 蓝色框中是歌曲的名字.演唱者和播放次数,歌曲名是在cl ...

  8. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

  9. 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图

    **爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...

最新文章

  1. python获取机器唯一标识_开发中常用工具 - 获取设备的唯一标识、UDID、UUID、keychain保存UUID、判断网络...
  2. nginx自定义模块编写-实时统计模块--转载
  3. html基础知识点列表
  4. 产品原型示例_原型设计模式示例
  5. 《如何搭建小微企业风控模型》第十三节 额度公式 节选
  6. WebDevHelper -- RESTful服务和Ajax开发时的利器
  7. android小项目数字拼图游戏_Java小项目之:拼图游戏
  8. c语言 com组件,com组件 C语言基础.ppt
  9. python以追加方式打开文件 线程安全吗_Python多线程同步---文件读写控制方法
  10. Java编程练习题4
  11. 电子商务世界历程及国内历程
  12. 华为arm服务器虚拟化,华为云arm服务器
  13. 特斯拉灯光秀指南「GitHub 热点速览 v.22.01」
  14. appium+python 自动化测试:解决安卓系统双击问题——获取微信聊天内容
  15. 人不行别怪路不平!万丈高楼平地起,要想辉煌靠自己。
  16. 企业微信之客户联系配置及使用
  17. 【图片新闻】低空穿越的美军MC-130J突击队II特种作战运输机
  18. win32api之虚拟键盘
  19. 包工协议书样本_工程分包协议书 样本
  20. BMP图片格式分析(超详细)

热门文章

  1. 自定义View-滑动开关
  2. linux scim输入法设置,Linux使用之一安装安装scim中文输入法
  3. 毕业设计 Spring Boot的共享充电宝管理系统(含源码+论文)
  4. Session原理,生命周期
  5. 网页日历与日期计算(一)
  6. cisco 认证 linux,Cisco ACS SERVER 认证的PPPOE的实例
  7. 数据结构入门学习之数据结构学些什么?
  8. 数据结构学习心得体会
  9. 计算机机房灯管烧毁,故障可锁定在驱动背光的高压板上; 高压板常见故障有: 1、高压板自身保险管烧毁; 2、背光灯管损坏(不过双灯...
  10. IOS OpenGL ES GPUImage 图像Sobel边缘检测,类似漫画反色 GPUImageSobelEdgeDetectionFilter