很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了,但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。

1.下载wkhtmltopdf1这个应用程序,它可以将HTML格式的数据转换成PDF格式的。

2.打开python编辑器,新建一个python项目命名为wxgzhPDF并在里面创建一个空白的python文件。打开编辑器的终端窗口输入下面的命令来下载所需要的库,如下所示:

pip install wechatsogou --upgrade
pip install pdfkit

3.下载完成后在python文件的开头写导入模块的代码以及初始化抓取公众号文章的API,如下所示:

import os
import pdfkit
import datetime
import wechatsogou
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)

4.导入模块之后就可以来编写抓取公众号文章的代码了,这里的话可以使用一个函数将代码包括起来方便调用,如下所示:

# 这里的三个参数为公众号文章的url,文章标题以及存储路径
def url2pdf(url, title, targetPath):try:content_info = ws_api.get_article_content(url)except:return False# 对HTML格式进行处理html = f'''{title}{title}{content_info['content_html']}'''
try:
# 调用第一步的程序转为pdf格式并存储path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";config=pdfkit.configuration(wkhtmltopdf=path_wk)pdfkit.from_string(input=html, output_path=targetPath,configuration=config)except:# 处理文章标题,把特殊符号去掉filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'pdfkit.from_string(html, targetPath + os.path.sep + filename)

5.函数创建完毕后就可以直接去调用了,代码如下:

# 判断公众号名称是否正确
if __name__ == '__main__':url2pdf("这里是文章的url", "这里是公众号文章名称","G:/test/hbase文档.pdf" )

以上就是python爬虫抓取公众号文章并转为PDF格式保存的详细代码示例解析了。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

Python怎么去抓取公众号的文章?Python爬虫爬取微信公众号方法相关推荐

  1. python爬取公众号历史文章_Python爬虫爬取微信公众号历史文章全部链接

    因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种: 通过搜狗搜索微信公众号然后拿到链接 通过fiddler检测 ...

  2. python 下载公众号文章_Python爬虫实现的微信公众号文章下载器

    平时爱逛知乎,收藏了不少别人推荐的数据分析.机器学习相关的微信公众号(这里就不列举了,以免硬广嫌疑).但是在手机微信上一页页的翻阅历史文章浏览,很不方便,电脑端微信也不方便. 所以我就想有什么方法能否 ...

  3. java爬取网易云歌单_爬虫爬取网易云歌单

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...

  4. python爬取公众号历史文章_python3 scrapy爬取微信公众号及历史信息V1.0

    妹子图.png 环境:python3  scrapy 目的 写这篇文章主要是做一下纪念,毕竟是搞了快两天的东西了,今天加大了量,使用scrapy爬取100多个微信公众号,然后出现IP被封的情况下,当然 ...

  5. python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子

    同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...

  6. python多线程爬虫 爬取多个网页_python多线程爬虫爬取顶点小说内容(BeautifulSoup+urllib)...

    思路 之前写过python爬取起点中文网小说,多线程则是先把爬取的章节链接存到一个列表里,然后写一个函数get_text每次调用这个函数就传一个章节链接,那么就需要调用n次该函数来获取n章的内容,所以 ...

  7. python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容

    想要爬取某个博主的微博数据.在网络上寻找了很多关于爬取微博内容的教程,发现有些教程比较老旧了,已经无法再用,有些教程在我这里出现一些问题,比如爬取移动端的微博需要获取登陆cookie,而我的谷歌浏览器 ...

  8. python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据

    前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...

  9. beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源

    一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...

  10. python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现

    课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)​mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...

最新文章

  1. 2021-2027年中国透光立体玻璃行业市场深度分析及前瞻研究报告
  2. thinkphp实现登录后返回原界面
  3. 九度OJ 1336:液晶屏裁剪 (GCD)
  4. android 默认光标大小设置,如何默认光标位置设置的EditText
  5. 信号通路怎么读_奥利给~~代谢通路富集分析原来还可以这么做?
  6. android 决TextView中MaxLines与ellipsize=end冲突问题
  7. numpy之高维数组的转置:transpose方法——通过几何体来迅速理解
  8. 【转载】315M无线模块数据传输——深入研究
  9. 数据结构基础知识(2)
  10. java sql结果写入csv文件_java在处理大数据的时候一些小技巧
  11. 安卓应用间的数据共享:ContentProvider、ContentResolver全解
  12. 洛谷 P2317 [HNOI2005]星际贸易 解题报告
  13. 用 SIR 模型拟合疫情感染情况
  14. Typora下载连接及使用教学
  15. c语言头文件下载大全,C语言头文件大全
  16. 计算机病毒的分类与防范 论文,浅析计算机病毒与防范措施
  17. python猫狗大战游戏下载_猫狗大战RPG游戏下载
  18. 无线覆盖范围 测试软件,无线覆盖验收标准
  19. taptap领礼包怎么显示服务器繁忙,原神taptap预约奖励领取教程 taptap预约奖励怎么领取...
  20. Incorporating visual features into word embeddings:A bimodal autoencoder-based approach

热门文章

  1. vue3秒后显示隐藏显示其他元素
  2. 1001-----homework------version second
  3. 贵州学位英语考试要考计算机吗,贵州自学考试学位英语一年考试次数多少怎么样考取高分...
  4. 第十届全国青少年信息学奥林匹克联赛C语言初赛
  5. 王建硕:2011年注定是中国互联网第三春
  6. Hihocoder #1082 : 然而沼跃鱼早就看穿了一切 暴力
  7. 2023年市场中性策略研究报告
  8. 日本开发出“单身狗神器”,这也太令人脸红心跳了!
  9. 如何上传自己的jar包到maven中央仓库(2021最新版)
  10. Spring Boot 系列学习教程