python爬虫——使用bs4爬取搜狗微信文章

缺点：该方法只能爬取有限的数量，因为没有使用代理，当爬取一定数量时会出现验证码

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import queue
from urllib.parse import urlencode
import re# 构建请求头
ua = UserAgent()
headers = {'user-agent': ua.Chrome,'cookie': '自己设置'
}# 声明一个列表，存储字典
data_list = []def get_index(q):url = q.get()# 请求urlresp = requests.get(url, headers=headers)# 将爬取回来的数据转成bs4格式soup = BeautifulSoup(resp.content, 'lxml')# 分析网页结果，抓取ul标签下面的所以li标签lis = soup.select('.news-list li')# 遍历li标签，爬取所需要的数据for li in lis:# 微信文章题目，select返回的是一个列表# 使用stripped_strings进行提取题目（stripped_strings可以去除空白字符）# stripped_strings返回的是一个迭代器，所以使用list转换成列表title = li.select('h3')[0]title = ''.join(list(title.stripped_strings))# 作者author = li.select('.s-p a')[0].string# 文章摘要text = li.select('.txt-info')[0]text = ''.join(list(text.stripped_strings))# 时间戳，抓到的数据是这样的document.write(timeConvert('1526012173'))datetime = li.select('.s2 script')[0].string# 使用正则表达式提取时间戳datetime = re.findall(r'\d+', datetime)[0]# 文章链接，这里获取的是a标签中的data-share属性而不是a标签的href属性# 因为href属性打开跳转的不是该文章href = li.select('h3 a')[0].get('data-share')# 声明一个字典存储数据data_dict = {}data_dict['title'] = titledata_dict['author'] = authordata_dict['text'] = textdata_dict['datetime'] = datetimedata_dict['href'] = hrefprint(data_dict)data_list.append(data_dict)def main():# 声明队列，将url放入队列q = queue.Queue()# 爬取10页for page in range(1, 10):# 构造url参数data = {'query': 'python爬虫','type': '2','page': page}# 使用urlencode对参数进行url编码后拼接urlurl = 'https://weixin.sogou.com/weixin?' + urlencode(data)q.put(url)# 如果队列不为空则继续爬取while not q.empty():get_index(q)if __name__ == '__main__':main()print(data_list)

python爬虫——使用bs4爬取搜狗微信文章相关推荐

python爬虫——使用xpath爬取搜狗微信文章
缺点:爬取一定数量之后会出现验证码,导致不能继续爬取,需要更换ip才可以继续爬取,或者在浏览器重新输入验证码之后复制cookie后方能继续爬取. import requests from fake_u ...
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程前言一丶整体思路二丶遇到的问题三丶分析URL 四丶解析页面五丶写入文件六丶完整代码七丶最后前言大家好我是墨绿头顶总 ...
爬取搜狗微信文章笔记1
爬取搜狗微信文章笔记1 错误1 ```pythonprint('https://weixin.sogou.com'+index) TypeError: can only concatenate str ...
python爬虫——selenium+bs4爬取选股宝‘利好‘or’利空'股票信息
一.前言. (1)我个人比较喜欢先看结果,再看内容,so,结果如图: (2)信息抓取自选股宝https://xuangubao.cn/(我这里设定抓取加载20页,下面只列举几个): (3)本次主要应用 ...
Python爬虫实战 | (9) 爬取搜狗图片
本篇博客我们将爬取百度图片,输入搜索词,爬取与搜索词相关的图片. 首先打开搜狗图片https://pic.sogou.com/,比如搜索"猫",此时的URL如下: https:// ...
python爬虫——使用bs4爬取链家网的房源信息
1. 先看效果 2. 进入链家网,这里我选择的是海口市点击跳转到链家网 3. 先看网页的结构,这些房子的信息都在li标签,而li标签再ul标签,所以怎么做大家都懂 4. 代码如下,url的链接大家可以 ...
python爬虫实战-bs4爬取2345电影
抓取的原理也比较简单,不过多解释了,代码注释的也比较清楚参考: Python网络爬虫实战(第二版) # -*- coding: utf-8 -*- """ Create ...
Python爬虫系列之爬取微信公众号新闻数据
Python爬虫系列之爬取微信公众号新闻数据小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流 ...
九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解...
封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...
Python爬虫系列之爬取某社区团微信小程序店铺商品数据
Python爬虫系列之爬取某社区团微信小程序店铺商品数据如有问题QQ请> 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流,请勿用于非法用途数据库仅用于去重使用,数据主要存 ...

python爬虫——使用bs4爬取搜狗微信文章

python爬虫——使用bs4爬取搜狗微信文章相关推荐

最新文章

热门文章