/*使用javascript编写的爬虫源码,用于爬取京东商城上的商品信息和评论。
代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了,不需要安装编译环境。要爬取其他网站,可以更改源码即可。
代码执行具体步骤请参考:https://github.com/ShenJianShou/crawler_samples/blob/master/%E5%A6%82%E4%BD%95%E6%89%A7%E8%A1%8C%E6%A0%B7%E4%BE%8B%E4%BB%A3%E7%A0%81.txt
*/var keyword = "d3.js";//@input(keyword, 查询关键字, 爬取该关键字搜索出来的京东商品)
var comment_count = 100;//@input(comment_count, 爬取的评论数, 最多爬取多少条评论)var page_count = comment_count / 10;
keyword = keyword.trim();
var scanUrls = [];
scanUrls.push("http://search.jd.com/Search?keyword="+keyword.replace(/ /g, "+")+"&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=1&s=1&click=0");
var helperUrlRegexes = [];
helperUrlRegexes.push("http://search\\.jd\\.com/Search\\?keyword="+keyword.replace(/ /g, "\\+").replace(/\./g, "\\.")+"&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=\\d+&s=1&click=0");var configs = {domains: ["search.jd.com","item.jd.com","club.jd.com"],scanUrls: scanUrls,contentUrlRegexes: ["http://item\\.jd\\.com/\\d+.html"],helperUrlRegexes: helperUrlRegexes, fields: [{// 第一个抽取项name: "title",selector: "//div[@id='name']/h1",required: true},{// 第一个抽取项name: "productid",selector: "//div[contains(@class,'fl')]/span[2]",required: true},{name: "comments",selector: "//div[@id='comment-pages']/span",repeated: true,children: [{name: "page",selector: "//text()"},{name: "comments",sourceType: SourceType.AttachedUrl,attachedUrl: "http://club.jd.com/productpage/p-{$.productid}-s-0-t-3-p-{page}.html",selectorType: SelectorType.JsonPath,selector: "$.comments",repeated: true,children:[{name: "com_content",selectorType: SelectorType.JsonPath,selector: "$.content"},{name: "com_nickname",selectorType: SelectorType.JsonPath,selector: "$.nickname"}]}]}]
};
configs.afterDownloadPage = function(page, site) {var matches = /item\.jd\.com\/(\d+)\.html/.exec(page.url);if (!matches) return page;var commentUrl = "http://club.jd.com/productpage/p-"+matches[1]+"-s-0-t-3-p-0.html";var result = site.requestUrl(commentUrl);var data = JSON.parse(result);var commentCount = data.productCommentSummary.commentCount;var pages = commentCount / 10;if (pages > page_count) pages = page_count;var pageHtml = "<div id=\"comment-pages\">";for (var i = 0; i < pages; i++) {pageHtml += "<span>" + i + "</span>";}pageHtml += "</div>";var index = page.raw.indexOf("</body>");page.raw = page.raw.substring(0, index) + pageHtml + page.raw.substring(index);return page;
};
configs.onProcessHelperUrl = function(url, content, site){if(!content.indexOf("抱歉,没有找到")){var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));if(currentPage === 0){currentPage = 1;}var page = currentPage + 2;var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);site.addUrl(nextUrl);}return true;
};
configs.afterExtractPage = function(page, data) {if (data.comments === null || data.comments === undefined) return data;var comments = [];for (var i = 0; i < data.comments.length; i++) {var p = data.comments[i];for (var j = 0; j < p.comments.length; j++) {comments.push(p.comments[j]);}}data.comments = comments;return data;
};
var crawler = new Crawler(configs);
crawler.start();

需要教程的,私信【学习】获取更多资料
有个专门学习Python的免费学习QQ群
群里的小伙伴都是Python的爱好者,大家在一起学习、交流。
加我联系方式:925916955 邀请你们进群学习
或者*留言

【源码分享】京东商品评价的爬虫相关推荐

  1. python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据

    前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...

  2. 网络爬虫-爬取京东商品评价数据

    前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...

  3. 插件一:JAVA微信砍价活动源码分享[商品帮砍到0元,免费领取奖品]

    插件一:微信砍价活动源码分享 [商品帮砍到0元,免费领取奖品] 活动描述: 砍价活动即公众号向粉丝推广的0价赠商品(或优惠价购商品)活动,用户通过分享好友帮其砍价,可将价格从原价一路砍到底价,并抢得名 ...

  4. python爬虫爬取王者荣耀官网全部英雄头像(源码分享)

    这篇文章为源码分享,爬虫的分析过程请阅读文章 <用python爬取王者荣耀官网的英雄皮肤海报(含源码)> 源码 import requests import json from bs4 i ...

  5. 小京东V4.2甜心100分销版本-源码分享

    小京东V4.2甜心100分销版本-源码分享 在这里插入图片描述 源码地址: 链接:https://pan.baidu.com/s/1D0z6cEKMxwkU_CokKPbY1A?pwd=znuh 提取 ...

  6. python爬虫爬取王者荣耀官网全部装备图片(源码分享)

    这篇文章为源码分享,爬虫的分析过程请阅读文章 <用python爬取王者荣耀官网的英雄皮肤海报(含源码)> 源码 import requests from bs4 import Beauti ...

  7. 爬取京东商品评价并生成词云

    上期为大家介绍了requests库的基本信息以及使用requests库爬取某东的商品页,收到了很多同学的反馈说期待猪哥的更新,猪哥感到非常开心,今天就带大家来玩一把刺激的! 一.需求背景 在实际开发过 ...

  8. Selenium爬取京东商品评价,并进行基于情感词典的文本情感极性分析

    Selenium爬取京东商品评价,并进行基于情感词典的文本情感极性分析 1. 介绍及开发环境 2. 爬虫实现 2.1 请求构造 2.2 提取信息 2.3 数据存储 2.4 运行结果 3. 文本情感分析 ...

  9. 商城源码分享、几十个PHP商城源码,全部分享

    分享几十个商务商城PHP源码,总有一款适合你 链接:​https://pan.baidu.com/s/1C-k2MpqOc17NzBKmpjJyAg​ 提取码: 3344  下面是商城程序名字列表,有 ...

最新文章

  1. 集成学习(Bagging和AdaBoost和随机森林(random forest))
  2. Django—模板渲染
  3. ​CVPR 2020雾天条件下物体检测挑战赛冠军DeepBlueAI团队技术分享
  4. 数组转换为字符串方法
  5. javascript控制台_如何使您JavaScript控制台静音
  6. vue 手指长按触发事件
  7. Android设计模式系列-组合模式
  8. C#判断一个字符串是否全部为空格的一个简单方法
  9. 【预测模型-RBF】基于径向基神经网络实现数据分类附matlab代码
  10. 俞敏洪:把眼前的做好,一切就都好了
  11. 经典的SQL面试题及答案
  12. ARM64 LFS 11.1编译成功
  13. “数据打通”不等于“数据共融”,智能数据营销解决方案了解一下
  14. MacOS基金管理软件
  15. 高级软件工程师必备的五大技能
  16. 主题模型(LDA)案例:分析人民网留言板数据
  17. 在线JS运行 JavaScript IDE
  18. python爬虫工资高吗_月薪2万的爬虫工程师,Python需要学到什么程度?
  19. druid的后台监控
  20. Tian Ji -- The Horse Racing 贪心算法

热门文章

  1. bzoj3036 绿豆蛙的归宿
  2. UI设计是什么_UI设计是学什么?
  3. Oracle EBS 导出EXCEL文件CSS样式应用
  4. Python爬虫百度
  5. Spine动画加载优化思路 之 Spine动画加载问题
  6. 计算机英语(31-60)
  7. axios请求配置baseURL选项
  8. 用Python理解极限,看了这个就不会挂高数了
  9. 人工智能基础-极大极小策略
  10. linux 看硬盘运行时间长,Linux/CentOS下怎么查看硬盘使用时间