闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车。

好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手。

预计达到的目标:第一步,将闲鱼上发布的商品信息爬取到本地。

第二步,实现关键词价格域提醒,比如设置想要找一个5000以下的IPHONE X,可爱的爬虫在闲鱼抓信息的时候,当发现匹配的商品的时候,就会给你疯狂打call,好吧,给你发邮件之类的。

首先,我们看一下闲鱼闲置商品的网址:

https://s.2.taobao.com/list/list.htm?spm=2007.1000337.0.0.6e0f2979exfsD7&oon=10&st_trust=1&ist=1

样子呢是这样的

可以看出来女装鞋子什么的占了很大一部分,= = 看来都是女装大佬。

好了,从哪入手呢,当然是从这么多的分类入手了。我们都可以很轻松的发现,每个分类的链接相似度很高,大家可以自己看看。

分类的不同主要是取决于URL的catid参数。

很明显,URL和分类名称形成了一中key-value的对应关系,在程序执行过程中我们可以将其存储在hashmap中

由于hashmap的特性,就算抓取算法有问题导致重复也不会产生很大影响。

我们查看一下网页的源码,

很容易发现

标签里保存的是链接和分类名信息。

获取网页源码后,(如果不知道怎么获取的话,请看我之前写的爬微博热搜的文章)

我们可以利用正则表达式来把需要的信息提取出来。

如下public static HashMap get_list(String text){

HashMap list=new HashMap();//url,类别

String rule="(.*?)";

Pattern pattern =Pattern.compile(rule);

Matcher matcher = pattern.matcher(text);

while (matcher.find()) {

list.put("https://s.2.taobao.com/list/list.htm?catid="+matcher.group(1)+"&oon=10&st_trust=1&ist=1", matcher.group(3));

}

return list;

}

这样就返回了一个hashmap,key是url,value是分类名。

这样我们需要爬取遍历的起点队列就很明确了,很大的简化了程序。

接下篇。

闲鱼java系统_java爬取闲鱼商品信息(一)相关推荐

  1. java redis多线程爬取国美商品信息

    前面那篇爬虫文章用的是单线程没有用到其它一些比较提高效率的工具比较遗憾,所以今天做了一个比较全面的爬虫.首先谢谢 @[天不生我万古长](https://www.jianshu.com/u/e34019 ...

  2. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  3. 2021-11-16爬取淘宝商品信息时如何获取cookie

    爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...

  4. 爬取淘宝商品信息selenium+pyquery+mongodb

    ''' 爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储 '''from selenium import webdriver from selenium. ...

  5. Python爬虫自学之第(⑤)篇——爬取某宝商品信息

    题外话: <Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元>相信过去BTC的人,信不信未来的PI,了解一下,唯一一个高度与之持平的项目 能看到这里说明快进入动态网页 ...

  6. Python高级特性与网络爬虫(二):使用Selenium自动化测试工具爬取一号店商品信息

    上一篇介绍了Ajax动态渲染的页面的分析和爬取,通过JavaScript动态渲染的页面的方式不只有ajax这一种,还有很多其他的方式,分析他们的网页结构和加密参数难度非常大,为了解决这样的页面的数据爬 ...

  7. Python爬取淘宝商品信息保存到Excel

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  9. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

最新文章

  1. java方法区超详细汇总,方法区到底是干什么用的?不懂方法区不能说了解jvm!
  2. 推荐10个Github热门Python库,非常实用!
  3. 西瓜书学习记录-神经网络(第五章)
  4. 输入数字存入数组C语言,//从键盘上输入若干整数,并将其存入数组中,并统计输入数据的个...
  5. ×××的虚拟专用网--gre
  6. 自称世界上最权威监控软件FlexiSpy被黑删库,怎么做到的?
  7. 新版Windows Live SkyDrive Beta发布
  8. oracle11g64位精简版客户端,oracle11g 64位|oracle11g 64位客户端下载 附安装教程 - 121下载站...
  9. 微信小程序—收藏功能
  10. Kali学习笔记32:Maltego、Exiftool
  11. Mems电容式加速度计的种类(一)
  12. 操作系统发展历程 (Unix、Linux、windows)
  13. Newcoder Wannafly13 B Jxy军训(费马小定理、分数在模意义下的值)
  14. 网站是否被墙的辨别及解决方法
  15. Eclipse中怎样设置字体大小和修改注释字体的颜色
  16. 【荐号】有了它们,成功创业,成就事业巅峰,迎娶白富美,指日可待!
  17. 实验吧-天下武功唯快不破 Writeup
  18. 声呐--海洋人生公众号---老师分享(一) 霍冠英:水下声呐图像目标检测与识别研究
  19. 《现代加工技术》第1章 绪论
  20. 排序算法(不定时更新~)

热门文章

  1. python+sklearn,机器学习-线性回归实现-以披萨尺寸预测价格
  2. Excel筛选之后的复制粘贴小技巧
  3. python剔除st股_通达信如何剔除st股,通达信选股,去掉ST股,如何编写呢?
  4. NDK 17 error: treating warnings as errors
  5. oracle以查询多括号报错,oracle点滴积累
  6. 二进制转化为十进制(C语言)
  7. Dynamo For Revit: NurbsCurve
  8. 华为 WATCH 3内部详细拆解!附核心零部件芯片型号
  9. 巧克力设计灵感_找到设计灵感的11种方法
  10. 二手华为手机价格一览表