python爬取新闻发送微信_如何利用 Python 爬虫实现给微信群发新闻早报？

1. 场景

经常有小伙伴在交流群问我，每天的早报新闻是怎么获取的？

其实，早期使用的方案，是利用爬虫获取到一些新闻网站的标题，然后做了一些简单的数据清洗，最后利用 itchat 发送到指定的社群中。

由于爬虫面对网站改版的不稳定性及 itchat 不安全性，所以放弃了这种方案

后期更改了一种方案，通过修改爬虫方案，创建 API 服务，编写 App 去获取数据，然后手动发送到微信群

本篇文章将和大家详细聊聊具体的实现过程

2. 数据爬取

第 1 步，通过 Python 爬虫获取数据

获取方式有 2 种，分别是：已有的新闻早报网站、新闻网站的头条新闻

选择一种爬虫方式，就能很快地爬取到目标网站的数据

第 2 步，数据清洗，排序

将爬取到的数据先进行一次关键字筛选，然后按照点赞或者阅读数按照热点进行排序

第 3 步，参数化，去重

去掉数据中重复的新闻，然后将最后展示的数目参数化

# 按照点赞数目，降序排列

news_sorted_pro = sorted(news, key=itemgetter('news_approve_num'), reverse=True)

result = []

for news_sorted_item in news_sorted_pro:

result.append(news_sorted_item.get('title'))

# 去重

result = sorted(set(result), key=result.index)

# 只取前12条数据

result = result[:self.news_num] if len(result) >= self.news_num else result

需要注意的是，由于新闻网站会经常改版，建议爬取多个新闻网站，做好异常处理，做一个优先级，如果一个网站爬取数据失败，切换到下一个级别的网站爬取数据

3. 服务化

将数据服务化，即编写 API，目的是为了方便终端调用

如果使用 Python 编写 API，建议使用 FastAPI 或 Flask 框架，因为这两个框架开发 API 方便快捷，以 FastAPI 为例：

第 1 步，安装依赖

包含 FastAPI 框架及 hypercorn 依赖，hypercorn 是独立的 ASGI 服务器，方便 FastAPI 项目的部署

# FastAPI框架

pip3 install fastapi

pip3 install hypercorn

第 2 步，编写 API

使用 FastAPI 很方便，不到 10 行代码就能编写一个接口服务

只需要实例化 FastAPI 对象，利用装饰器指定请求方法和路径即可，调用上面的爬虫方法即可。

from fastapi import FastAPI

# 实例化

app = FastAPI()

# API，Get方式

@app.get("/last_news")

def get_last_news():

"""

python爬取新闻发送微信_如何利用 Python 爬虫实现给微信群发新闻早报？相关推荐

python爬取b站数据_如果利用Python爬取B站上千万数据？B站直播都是大屌萌妹吗？...
粉丝独白说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉.我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热 ...
python爬取国家男女比例_如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例？...
这个实现起来很简单,微信专门给python提供了一个接口包itchat,我们可以通过这个接口获取微信好友信息,继而统计好友数量和男女比例,下面我大概介绍一下实现过程及主要代码,实验环境win7+pyt ...
如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...
编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
python能爬取网站后台数据_如何利用Python爬取网站数据？
1.基本方法其实用python爬取网页很简单,只有简单的几句话这样就可以获得到页面的内容.接下来再用正则匹配去匹配所需要的内容就行了.但是,真正要做起来,就会有各种各样的细节问题. 2.登录这是 ...
python爬取网易云音乐_我用Python爬取了网易云音乐
原标题:我用Python爬取了网易云音乐来源:别动我的猫尾巴 headers需要进行修改,headers设置不对会被屏蔽导致爬取不成功.一个headers用久了也会爬取不成功代码如下: impor ...
python爬取网站教学视频_零基础Python爬取网页文章和图片详细教学（内附源码、教学视频）...
Python爬虫,这个我相信对于很多人来说都不陌生! 今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下! 开发环境:版本Python3.6.2!(2版本会在2 ...
python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）...
原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...
python爬取知乎评论_从零开始写Python爬虫 --- 爬虫应用：IT之家热门段子（评论）爬取...
不知道这里有没有喜欢刷it之家的小伙伴,我反正每天早上醒来第一件事就是打开it之家,看看有没有新鲜的段子逃~ 其实这次是要来抓取it之家的热门评论,因为数量较多(上万),所以我们这次采用MongoD ...

python爬取新闻发送微信_如何利用 Python 爬虫实现给微信群发新闻早报？

python爬取新闻发送微信_如何利用 Python 爬虫实现给微信群发新闻早报？相关推荐

最新文章

热门文章