是1 2年前做的了 现在应该有点不一样了。发出来记录

参考:https://blog.csdn.net/qq_28804275/article/details/82150874

https://cuiqingcai.com/4652.html

https://www.chenwenguan.com/wechat-browse-automation/#comment-114

https://www.cnblogs.com/luojiangwen/p/7943696.html

目前使用的爬取单个公众号的办法:通过电脑登录微信,使用fiddler抓包工具抓取https包信息,去构造翻页参数等数据来爬取全部的文章。该方法不会被封。

其他方法:通过模拟器或者真机,使用AnyProxy等软件,原理同上,抓取https包信息,再利用自动化工具来实现采取所有公众号的目的。此方法尝试后发现限制较多,比如对微信版本,安卓版本都有限制。 之前用自动化工具的时候发现会经常获取不到软件的元素,不知道是配置不行还是怎样。另外在公司的网络里,不能打开公众号的全部消息。不明。

目前代码还有点问题,文章内容还不能插入到oracle数据库中。抓取的只是文章的文字部分,看到别人有库可以转换成markdown的形式保存下来。

另外此时抓取的文章不包括最新的文章,可以通过搜狗的接口去获取最新的文章。那个接口有限制,最多10条数据。

用fildder去获取pc端微信的接口,通过接口去自动爬取数据。

import requests

import json

import time

from bs4 import BeautifulSoup

from lxml import html

import cx_Oracle

from datetime import datetime

def parse(__biz, uin, key, pass_ticket, appmsg_token="", offset="0", **kwargs):

url = "txe_eliforp/pm/moc.qq.nixiew.pm//:sptth"[::-1]

url = "https://mp.weixin.qq.com/mp/profile_ext"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)"

"Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat "

"QBCore/3.43.901.400 QQBrowser/9.0.2524.400"}

params = {"action": "getmsg", "biz": biz, "f": "json", "offset": str(offset), "count": "10", "is_ok": "1",

"scene": "124", "uin": uin, "key": key, "pass_ticket": pass_ticket, "wxtoken": "", "appmsg_token":

appmsg_token, "x5": "0"}

proxies = {"https": None, "http": None, }

cookies = {"rewardsn": '', "wxtokenkey": "777", "wxuin": "1679389560", "devicetype": "Windows10",

"version": "62060739", "lang": "zh_CN",

"wap_sid2": "wap_sid2=CPjm5aAGEnB2RGdMZFEycHFBcFZvSFJDZkJjMmQ1WWhFWmVDM0FtRDhqeDVYOXhRMmNqVXlRb0hCcThMWll4TUstMWtVRXdFc2haa1A1TklkYk03c1ItNEozRWxEQWFtMk9sSVRqMjdEemNUR0xESnRZdnRBd0FBMN/x5OUFOA1AlU4=; Path=/; HttpOnly"}

res = requests.get(

url, cookies=cookies, headers=headers, params=params, proxies=proxies, timeout=3)

data = json.loads(res.text)

msg_list = eval(data.get("general_msg_list")).get("list", [])

print("msg_list", msg_list)

for msg in msg_list:

comm_msg_info = msg['comm_msg_info'] # 该数据是本次推送多篇文章公共的

msg_id = comm_msg_info['id'] # 文章id

msg_type = comm_msg_info['type']

post_time = datetime.fromtimestamp(

comm_msg_info['datetime']) # 发布时间

if msg_type != 49:

continue

app_msg_ext_info = msg["app_msg_ext_info"]

if app_msg_ext_info:

url = app_msg_ext_info["content_url"]

title = app_msg_ext_info["title"]

本次推送的首条文章

_parse_articles(

app_msg_ext_info, msg_id, post_time, msg_type)

本次推送的其余文章

multi_app_msg_item_list = app_msg_ext_info.get(

'multi_app_msg_item_list')

if multi_app_msg_item_list:

for item in multi_app_msg_item_list:

msg_id = item['fileid'] # 文章id

if msg_id or not isinstance(msg_id, int):

设置唯一id,解决部分文章id=0出现唯一索引冲突的情况

msg_id = int(time.time())

_parse_articles(

item, msg_id, post_time, msg_type)

print(title, url)

with open('article.csv', 'a') as f: f.write(title + ',' + digest + ',' + url + ',' + str(date) + '')

判断是否可继续翻页 1-可以翻页 0-到底了

if 1 == data.get("can_msg_continue", 0):

time.sleep(3)

print('翻页------------------------------------')

parse(__biz, uin, key, pass_ticket, appmsg_token, data["next_offset"])

else:

print("爬取完毕")

def _parse_articles(info, msg_id, post_time, msg_type):

"""解析嵌套文章数据并保存入库"""

title = info.get('title') # 标题

cover = info.get('cover') # 封面图

author = info.get('author') # 作者

digest = info.get('digest') # 关键字

source_url = info.get('source_url') # 原文地址

content_url = info.get('content_url') # 微信地址

ext_data = json.dumps(info, ensure_ascii=False) # 原始数据

content_url = content_url.replace('amp;', '').replace(

'#wechat_redirect', '').replace('http', 'https').replace("\", "")

content = crawl_article_content(content_url)

print(type(content))

print(content)

insert(

[

(msg_id, title, author, cover, digest, source_url,

content_url, post_time, datetime.now(), "")

]

)

def insert(param):

建立和数据库系统的连接

conn = cx_Oracle.connect("yjqg_cs2/oracle123@192.168.0.235:1521/orcl")

获取操作游标

cursor = conn.cursor()

执行SQL,创建一个表

cursor.execute(

"create table tb_user(id number, name varchar2(50),password varchar(50),primary key(id))")

sql = ("insert into wx_article values (:id,:msg_id,:title,:author,:cover,:digest,:source_url,:content_url,:post_time,"

":create_time,:content)")

cursor.executemany(sql, param)

x = cursor.execute("commit")

关闭连接,释放资源

conn.commit()

cursor.close()

conn.close()

执行完成,打印提示信息

print("已插入数据")

def crawl_article_content(content_url):

"""抓取文章内容

:param content_url: 文章地址

"""

try:

html = requests.get(content_url, verify=False).text

except:

print(content_url)

pass

else:

bs = BeautifulSoup(html, 'html.parser')

js_content = bs.find(id='js_content')

if js_content:

p_list = js_content.find_all('p')

content_list = list(

map(lambda p: p.text, filter(lambda p: p.text != '', p_list)))

content = ''.join(content_list)

return content

if name == 'main':

biz = 'MjM5OTYwOTM0Nw=='

uin = 'MTY3OTM4OTU2MA=='

key = 'ecaf4cd30abcc9709264253c1793480783e020f2869752e8c6ad9ca8d02339fa102491c488bffe6949eb197b08da5b25630f06f10656592c9766fa3c81bd87b601196d08a59d143f981c55d04c6c9da0'

pass_ticket = 'S+QbSO3cBSGp+lhEokLHjhRNkyAXUxlPAlP8qEdXr1SErHnk2Rk21q5chPjiKP+N'

appmsg_token = '1005_kPRG1Vmt3Uc37O0Md33biezanF-yIt5fKbBoZA~~'

parse(biz, uin, key, pass_ticket, appmsg_token, 1)

python爬取公众号相关推荐

  1. python爬取公众号文章如何获取发布时间

    python爬取公众号文章如何获取发布时间 在上一篇爬取公众号的文章中爬虫如何爬取微信公众号文章介绍了如何获取公众号的所有历史文章链接,但当我根据链接去爬取文章的时候,却遇到了一个小问题,就是文章的发 ...

  2. 用python爬取公众号推送图片并保存为PPT

    文章目录 一.前言 二.开始 (一)获取推送URL链接 (二)爬取网页并提取图片保存 1.定义用于爬取推送图片的PictureSpider类 2.定义get_url_text()方法 3.定义sear ...

  3. Python爬取公众号保存成Word

    Python爬取公众号 1. 相关工具 2. 实现原理 2.1 HTML解析 3. 编码 3.1 pip装包 3.2 HTML解析 3.3 下载图片 3.4 保存到word中 3. 结束语 1. 相关 ...

  4. 如何用python爬取公众号文章_Python+fiddler:爬取微信公众号的文章

    这几天师父有个小项目,挺有意思,如何使用python爬微信公众号中的新闻信息.大体流程如下.图1:流程 其实我们看到,这里并没有想象中的"智能"--依然需要手动刷公众号文章,然后才 ...

  5. python爬取公众号历史文章

    文章来源 学习网上以及自己修改. 参考链接: https://blog.csdn.net/d1240673769/article/details/75907152 目的 ''' 爬取公众号的历史文章信 ...

  6. 如何用python爬取公众号文章搜狗微信搜索_python如何爬取搜狗微信公众号文章永久链接的思路解析...

    这篇文章主要介绍了python如何爬取搜狗微信公众号文章永久链接的思路解析 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧. 本文主要讲解思路,代码部分请自行解决搜狗微信 ...

  7. python爬取公众号,用最简单的方式爬虫

    目标公众号:吃鸡搞笑视频 设备:python集成工具--pyCharm 之所以称之为最近单方式,是因为--代码少,效果好 这里只爬了公众号的标题和链接,先上效果 效果图 操作步骤: 1.先自己申请一个 ...

  8. python爬取公众号阅读量_公众号没做起来,那是你菜 | 爬取21个公众号数据后

    一直有爬公众号数据的想法,奈何 python 技术不足搁置许久. 最近刚好找到了一款可以爬取公众号数据的工具,一顿操作爬了21个公众号.废话不多说,分析过程 loading -- 第一次更新时间 冯大 ...

  9. 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  10. Python 爬取公众号文章链接并生成html

    微信不提供公众号分组管理,部分公众号内容优质但更新频率低,我们通过抓取特定公众号更新解决这个问题. 网上介绍的方法较多,参考各位大神的文章后,最后选择了通过公众号管理平台抓取的方法. 大体思路: 通过 ...

最新文章

  1. flaskr 报错及其修改
  2. source insight 添加行号
  3. Java内存模型的历史变迁
  4. HANA数据库为何如此之快
  5. boost::contract模块实现customer and manager的测试程序
  6. (Docker实战) 第2篇:Centos7 拉取和部署Gitlab
  7. VALSE学习(十三):网络结构搜索提速方法和训练技巧-NAS
  8. 从properties配置文件中获取到的中文乱码
  9. C# 创建单例你会几种方式?
  10. windows下 robocopy命令
  11. 1660用哪个驱动稳定_安装驱动软件我认为哪个最好?
  12. 第7集 驱动与电气原理图绘制
  13. 分享 :理解和管理社交媒体算法的4个想法
  14. 台式计算机操作系统的安装,台式电脑重装系统步骤图解
  15. 打印机提示连接计算机,电脑突然不识别连接的打印机,打印机突然显示未连接...
  16. 多媒体计算机主要有哪些基本特性,多媒体的特点主要包括哪些?
  17. 阿里云上如何过等保,收费标准怎么样?
  18. 优动漫PAINT入门宝典(图层篇)——矢量图层
  19. C# 正态分布图 标准偏差 STDEV 概率密度函数 NORM.DIST
  20. elasticsearch2.4.1+kibana4.6.1+mavel2.4.1

热门文章

  1. 西电操作系统:进程程序复习
  2. ramda 函数 String
  3. 使用ceres库将经纬度坐标GCJ02到WGS84精确转换
  4. 高版本Matlab运行时//在当前文件夹或MATLAB路径中未找到文件//函数或变量 ‘xx‘ 无法识别//解决方法
  5. 语音转文字的测试用例
  6. ipv4和计算机地址是什么意思,什么是IP地址?IPV4和IPV6又有什么区别?
  7. C:警告:assignment to ‘char’ from ‘int *‘ makes integer from pointer without a cast -Wint-conversion
  8. 阿里 vs. 腾讯,谁的收购更有眼光?
  9. mui中双webView的刷新
  10. win10用计算机分区,win10 GPT磁盘各分区的功能分别是什么?