问题:

1、动态加载的url通用模板如何设置?2、如何控制文章发布时间在一年内?3、如何实现分类保存?

初步代码如下:

import requests
from lxml import etree
import time
import jsonurl='https://gateway.36kr.com/api/mis/nav/ifm/subNav/flow'
headers={'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','content-type':'application/json',
}
Payload={"partner_id":"web","timestamp":'1613571931284', #时间戳"param":{"subnavType":'1',        #子导航"subnavNick":"web_news", "pageSize":'3000',"pageEvent":'1',"pageCallback":"eyJmaXJzdElkIjozMjEyNTU4LCJsYXN0SWQiOjMyMTIxMDEsImZpcnN0Q3JlYXRlVGltZSI6MTYxMzQzNzgxMTAwMCwibGFzdENyZWF0ZVRpbWUiOjE2MTMyNzg4MDY4Mjh9","siteId":'1',            #页面ID"platformId":'2',        #平台ID}
}resp=requests.post(url,data=json.dumps(Payload),headers=headers).json()
resp_list=resp['data']['itemList']
resp_listfor dic in resp_list:themeName=dic['templateMaterial']['themeName']        #文章类型publishTime=dic['templateMaterial']['publishTime']    #发布时间widgetTitle=dic['templateMaterial']['widgetTitle']    #w文章标题content_url='https://36kr.com/p/'+str(dic['templateMaterial']['itemId'])print(themeName+'   ' +str(publishTime) +widgetTitle +content_url+'\n')page_data=requests.get(content_url,headers=headers).texttree=etree.HTML(page_data)content=tree.xpath('//div[@class="common-width content articleDetailContent kr-rich-text-wrapper"]//text()')content=''.join(content)for i in content:print(str(content))

02-18 36kr文章爬取-1相关推荐

  1. python3实现微信公众号文章爬取

    基于搜狗微信的文章爬取 前言:文章仅用于学习交流,不足之处欢迎小伙伴指正! 一.功能介绍: 已实现功能: 1.爬取搜狗微信上的分类一栏的所有事件及其他的所有标题事件和加载更多,返回文章链接与标题,并存 ...

  2. Python 微信公众号的文章爬取

    Python 微信公众号文章爬取 一.思路 二.接口分析 三.实现 第一步: 第二步: 1.请求获取对应公众号接口,取到我们需要的fakeid 2.请求获取微信公众号文章接口,取到我们需要的文章数据 ...

  3. 知乎登录js逆向及文章爬取js逆向

    知乎登录js逆向及文章爬取js逆向 **在此声明:**本文章仅仅用于学习交流,不得用于商业活动. 登录支持账号密码登录及知乎移动端软件扫码登录. 文章爬取是把原文章的原样近似爬取,包括图片,链接,及评 ...

  4. 微信公众号文章爬取方法整理

    微信公众号文章爬取方法整理 1.用python爬取 http://blog.csdn.net/d1240673769/article/details/75907152 实现方法:通过微信提供的公众号文 ...

  5. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  6. python微信爬取教程_[python]微信公众号文章爬取

    [python]微信公众号文章爬取 需求 爬取一些微信公众号的文章 数据来源 1.搜狗微信搜索,可以搜索微信公众号文章,但只能显示该公众号最近十篇的文章 2.通过个人微信公众号中的素材管理,查看其他微 ...

  7. Python网络爬虫(七):百度文库文章爬取器

    在用前面的方法爬取百度文库的文章时,发现只能爬取已显示出来的几页文章,而对于没有显示的页数则无法获得其内容.如果要完整的看到整篇文章,需要手动地点击底下的"继续阅读",使所有的页数 ...

  8. 使用WebCollector爬虫框架进行微信公众号文章爬取并持久化

    〇.Java爬虫框架有哪些? 1.nutch:Apache下开源爬虫项目,适合做搜索引擎,分布式爬虫只是其中一个功能,功能丰富,文档完整. 2.heritrix:比较成熟,用的人较多,有自己的web管 ...

  9. python函数的内涵_python内涵段子文章爬取

    全文简介 使用python中简单的爬虫知识,对内涵段子的文章进行爬取. 需要用到的模块:requests模块和time模块. 需要的程序编辑软件:Pycharm 程序流程 1> 获取URL:进入 ...

最新文章

  1. python3 字符串替换 replace translate re.sub
  2. python3.7安装包多大_python3.7 pip 安装第三方包
  3. 移动端 UI 适配最佳实践(中)
  4. 个人成长:2021如何成为更好的自己?
  5. cassandra本地连接失败_无法连接到本地Cassandra实例?
  6. 牛客题霸 [回文数字(palindrome-number)] C++题解/答案
  7. 使用jd-gui+javassist修改已编译好的class文件
  8. os的java版本_如何在OS X上设置或更改默认的Java(JDK)版本?
  9. Python中import导入模块
  10. (140)FPGA面试题-FPGA IP简介
  11. 在搜索框自动输入文本_selenium自动化测试之常见的定位元素
  12. 源码解析 | 万字长文详解 Flink 中的 CopyOnWriteStateTable
  13. 国庆蓝牙耳机最强选购攻略,2020不容错过的精品蓝牙耳机
  14. .net学科-杨中科-Unity3D视频教程
  15. NDVI 数据处理,及估算植被覆盖度(一)
  16. xp系统如何更改计算机用户名,xp用administrator_XP系统修改administrator的用户名_xpadministrator...
  17. 苹果换原装电池_航空港区正规苹果换原装屏幕价目表
  18. OS - freeRTOS vs Linux
  19. 【openMV or openCV】
  20. canvas实现走势图实现

热门文章

  1. 将Tomcat注册为系统服务教程(WIN10)
  2. DES算法的C语言实现 (《信息网络安全》作业)
  3. 一道面试题引出的系列数据库性能,数据安全问题及解决方案
  4. mysql复制多行_mysql中的复制方式总结(半同步复制,并行复制,多源复制)
  5. javafx 教程_JavaFX技巧6:使用透明颜色
  6. Flutter 吐血整理组件继承关系图
  7. 引用element-ui的Drawer抽屉组件报错问题
  8. 上拉电阻的作用与计算
  9. 无线服务器网速加快,路由器设置怎样提高网速 路由器设置提高网速的办法【图文】...
  10. 2021全球程序员收入报告发布,字节跳动成为中国唯一上榜的公司