Node.js 知乎热榜爬虫 导出为JSON文件(正则表达式)

环境

node.js v12.16.3
axios@0.20.0
cheerio@1.0.0-rc.3

npm安装

npm install axios cheerio

实现代码

const cheerio = require("cheerio");
const axios = require("axios");
const fs = require("fs");axios.get(`https://www.zhihu.com/billboard`).then((response) => {let $ = cheerio.load(response.data);var hotList = []$("a.HotList-item").each((index, element) => {var entry = {}entry["title"] = $(element).find(".HotList-itemTitle").text();entry["excerpt"] = $(element).find(".HotList-itemTitle").text();var reg = /<img src="(.*)" alt=/;var picture_url = reg.exec(String($(element).html()));if (picture_url != null) {entry["picture_url"] = picture_url[1].trim();} else {entry["picture_url"] = "null";}hotList.push(entry);});fs.writeFile('ZhihuBillboard.json', JSON.stringify(hotList, null, "\t"), (err) => {if (err == null) {console.log("Successfully!");} else {console.log(err);}});});

测试结果

最后

  • 由于博主水平有限,不免有疏漏之处,欢迎读者随时批评指正,以免造成不必要的误解!

Node.js 知乎热榜爬虫相关推荐

  1. 【知乎热榜爬虫】python爬取知乎热榜问题及答案

    所用库 requests xpath解析库 multiprocessing多进程 pymysql数据库操作库 实战背景 主要是爬取知乎热榜的问题及点赞数比较高的答案,通过requests请求库进行爬取 ...

  2. 太好玩了,爬虫、部署API、加小程序,一条龙玩转知乎热榜!

    作者 | 周萝卜 来源 | 萝卜大杂烩 一直想做一个从爬虫到数据处理,到API部署,再到小程序展示的一条龙项目,最近抽了些时间,实现了一个关于知乎热榜的,今天就来分享一下! 数据爬取 首先我们看下需要 ...

  3. python爬虫 知乎热榜、微博热搜并发送邮件至邮箱

    目录 爬取知乎热榜.微博热搜并发送邮件至邮箱 1.获取网页 1.1获取url 1.2构造headers 1.3代码 2.提取信息 2.1 XPath规则 2.2 定位到节点 2.3 提取标题和url ...

  4. 【Python爬虫实战】知乎热榜数据采集,上班工作摸鱼两不误,知乎热门信息一网打尽

    目录 爬取目标 工具使用 项目思路解析 简易源码分享 爬取目标 网址:知乎热榜 工具使用 开发环境:win10.python3.7 开发工具:pycharm.Chrome 工具包:requests,l ...

  5. 知乎热榜?微博热门?爬!

    一直也没写过爬虫的代码,一来是接触练习的少,二来也对爬虫心存偏见:老有种做贼偷数据的感觉. 最近在体验过爬虫的高效便捷后,觉得确实有必要多实践一下.其实我本身学爬虫没多久,远没到分享爬虫技术的水平.但 ...

  6. android开发微博搜索,一款帮助用户自动提取微博热搜、知乎热榜、百度实时热点条目中与特定领域...

    HotDetector(全网热门探测仪) 全网热门探测仪一款帮助用户自动提取微博热搜.知乎热榜.百度实时热点条目中与特定领域(科技.娱乐.体育.自定义)有关内容的实用App. 它使用Java SE 8 ...

  7. python爬取知乎标题_python爬知乎热榜

    爬项目:知乎热榜标题.热度.简介. 第一步浏览网页源代码 确认在哪html 还是js里 标题和热度在html 标签内容在js 需要用到正则表达式: 第二先爬html 里的内容调用模块-再请求一下url ...

  8. python爬取知乎热榜了解时事

    python爬取知乎热榜了解时事 需求 ​ 知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...

  9. 好家伙!清华电子系大一暑假Python课程大作业上知乎热榜!竟是个CV任务

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 编辑:Amusi  |  来源:知乎 https://www.zhihu.com/question/4719 ...

最新文章

  1. python08-类与对象
  2. 重写了博客上的代码着色脚本
  3. 在Ubuntu下怎么截图
  4. 借助Spring站点开始一个spring项目
  5. 【剑指offer】面试题18:删除链表的节点(Java)
  6. 11.* 指针 引用
  7. VS启动调试速度异常的缓慢问题
  8. 变位齿轮重合度计算公式_渐开线圆柱齿轮传动的重合度计算.pdf
  9. 学生信息管理系统总结
  10. iconfont字体图标的使用
  11. IP-Link简单实验配置
  12. JAVA在线考试系统毕业设计 开题报告
  13. 让zheng支持activiti工作流
  14. gitter 卸载_最佳的Gitter渠道:数据科学和机器学习
  15. WiFi大师专业版4.1.4独立源码
  16. Python无法打开excel文档解决办法
  17. hal系统命令 android,动态可用的 HAL  |  Android 开源项目  |  Android Open Source Project...
  18. ec----------
  19. 阿里实人认证/活体人脸认证步骤解释一下子 服务端java sdk 手把手 新手 菜 欢迎大佬提意见
  20. google map的api价格介绍

热门文章

  1. 基于POSIX下REGEX库的文本URL过滤(C/C++语言)
  2. 如何成为一个合格的程序员?
  3. tny278功能参数_电源管理芯片TNY278G
  4. covariate(covariate是控制变量吗)
  5. 【前沿】如何评价何恺明团队的最新工作RegNet?
  6. c#调用Excel中的函数
  7. 使用MindStudio 进行Deit 模型推理迁移
  8. 面试官:什么?HTTP不重要?你是古代穿越过来的吧!
  9. Javascript特效之模拟抽奖程序
  10. Nginx的原理、常用配置和生产案例应用