02-18 36kr文章爬取-1

问题：

1、动态加载的url通用模板如何设置？2、如何控制文章发布时间在一年内？3、如何实现分类保存？

初步代码如下：

import requests
from lxml import etree
import time
import jsonurl='https://gateway.36kr.com/api/mis/nav/ifm/subNav/flow'
headers={'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','content-type':'application/json',
}
Payload={"partner_id":"web","timestamp":'1613571931284', #时间戳"param":{"subnavType":'1',        #子导航"subnavNick":"web_news", "pageSize":'3000',"pageEvent":'1',"pageCallback":"eyJmaXJzdElkIjozMjEyNTU4LCJsYXN0SWQiOjMyMTIxMDEsImZpcnN0Q3JlYXRlVGltZSI6MTYxMzQzNzgxMTAwMCwibGFzdENyZWF0ZVRpbWUiOjE2MTMyNzg4MDY4Mjh9","siteId":'1',            #页面ID"platformId":'2',        #平台ID}
}resp=requests.post(url,data=json.dumps(Payload),headers=headers).json()
resp_list=resp['data']['itemList']
resp_listfor dic in resp_list:themeName=dic['templateMaterial']['themeName']        #文章类型publishTime=dic['templateMaterial']['publishTime']    #发布时间widgetTitle=dic['templateMaterial']['widgetTitle']    #w文章标题content_url='https://36kr.com/p/'+str(dic['templateMaterial']['itemId'])print(themeName+'   ' +str(publishTime) +widgetTitle +content_url+'\n')page_data=requests.get(content_url,headers=headers).texttree=etree.HTML(page_data)content=tree.xpath('//div[@class="common-width content articleDetailContent kr-rich-text-wrapper"]//text()')content=''.join(content)for i in content:print(str(content))

02-18 36kr文章爬取-1相关推荐

python3实现微信公众号文章爬取
基于搜狗微信的文章爬取前言:文章仅用于学习交流,不足之处欢迎小伙伴指正! 一.功能介绍: 已实现功能: 1.爬取搜狗微信上的分类一栏的所有事件及其他的所有标题事件和加载更多,返回文章链接与标题,并存 ...
Python 微信公众号的文章爬取
Python 微信公众号文章爬取一.思路二.接口分析三.实现第一步: 第二步: 1.请求获取对应公众号接口,取到我们需要的fakeid 2.请求获取微信公众号文章接口,取到我们需要的文章数据 ...
知乎登录js逆向及文章爬取js逆向
知乎登录js逆向及文章爬取js逆向 **在此声明:**本文章仅仅用于学习交流,不得用于商业活动. 登录支持账号密码登录及知乎移动端软件扫码登录. 文章爬取是把原文章的原样近似爬取,包括图片,链接,及评 ...
微信公众号文章爬取方法整理
微信公众号文章爬取方法整理 1.用python爬取 http://blog.csdn.net/d1240673769/article/details/75907152 实现方法:通过微信提供的公众号文 ...
Python爬虫利用18行代码爬取虎牙上百张小姐姐图片
Python爬虫利用18行代码爬取虎牙上百张小姐姐图片下面开始上代码需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...
python微信爬取教程_[python]微信公众号文章爬取
[python]微信公众号文章爬取需求爬取一些微信公众号的文章数据来源 1.搜狗微信搜索,可以搜索微信公众号文章,但只能显示该公众号最近十篇的文章 2.通过个人微信公众号中的素材管理,查看其他微 ...
Python网络爬虫（七）：百度文库文章爬取器
在用前面的方法爬取百度文库的文章时,发现只能爬取已显示出来的几页文章,而对于没有显示的页数则无法获得其内容.如果要完整的看到整篇文章,需要手动地点击底下的"继续阅读",使所有的页数 ...
使用WebCollector爬虫框架进行微信公众号文章爬取并持久化
〇.Java爬虫框架有哪些? 1.nutch:Apache下开源爬虫项目,适合做搜索引擎,分布式爬虫只是其中一个功能,功能丰富,文档完整. 2.heritrix:比较成熟,用的人较多,有自己的web管 ...
python函数的内涵_python内涵段子文章爬取
全文简介使用python中简单的爬虫知识,对内涵段子的文章进行爬取. 需要用到的模块:requests模块和time模块. 需要的程序编辑软件:Pycharm 程序流程 1> 获取URL:进入 ...

02-18 36kr文章爬取-1

02-18 36kr文章爬取-1相关推荐

最新文章

热门文章