Jsoup实现网络爬虫抓取数据

在编写一个软件,例如关于教务软件的时候,需要获取学校官网的一些新闻信息来充实自己的软件,而又不会专门提供相关的api接口,此时就需要我们自己动手来抓取感兴趣的信息。有人会问抓取网站的信息是否会侵权。其实,一般能够通过浏览器访问得到的信息,都是公开的,抓取信息后不用来获取利益是不会有关系的,只是换了一个浏览方式而已。


获取整个网页的源码

想要抓取网页中的信息,首先要先获取整个网页的源码

        String url = "http://i.guet.edu.cn/";Document doc = Jsoup.connect(url).timeout(1000).get();

通过Jsoup中的方法,我们很容易就获得了目标网页的源码Document对象。好了,获取到整个网页的源码后,接下来就是抓取自己想要的信息了,我们现在想要获取的是网页中滑动banner的图片地址,如下图:

通过以下代码很容易就可以得到图片的相对网址

        Elements elements = doc.select("div#pic_lun");Elements elements2 = elements.select("img");for (Element el:elements2){System.out.println(el.attr("src"));}

控制台输出如下:

如此,就获得了我们想要的信息。再比如获取新闻:
网页中的信息:

html源码部分:

然后我们试着来抓取:

        String url_news = "http://i.guet.edu.cn/news.php?page=1&type=85"; Document doc = Jsoup.connect(url_news).timeout(1000).get();Elements e1 = doc.select("div#content_middle");Elements e2 = e1.select("a");
//      System.out.print(e2);for (Element el2 : e2) {if (el2.text().length() > 20) {StringBuffer sb = new StringBuffer();sb.append(el2.text());String time = sb.substring(0, 9);String title = sb.substring(12);System.out.print("time:"+time+"\n");System.out.print("title:"+title+"\n");System.out.print("link:"+"http://i.guet.edu.cn/"+el2.attr("href")+"\n");}   }

控制台输出如下:

到此就完成了数据的抓取,还要将数据加入到listview中显示出来,这些数据才会有意义,革命尚未成功,同志仍需努力。

本人新手,有错指正,文章原创

Jsoup实现网络爬虫抓取数据相关推荐

  1. 基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api

    TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口 统一输出接口数据api.适合正在学习Vue,AngularJs框架学习 开发demo,需要接口并保证接口不跨 ...

  2. python展示全部好友_利用Python网络爬虫抓取微信好友的签名及其可视化展示

    前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...

  3. python爬虫微信朋友圈怎么发文字_如何利用Python网络爬虫抓取微信朋友圈的动态(上)...

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  4. 如何使用Python爬虫抓取数据?

    Python爬虫应用十分广泛,无论是各类搜索引擎,还是日常数据采集,都需要爬虫的参与.其实爬虫的基本原理很简单,今天小编就教大家如何使用Python爬虫抓取数据,感兴趣的小伙伴赶紧看下去吧! 工具安装 ...

  5. python爬虫好友聊天记录_利用Python网络爬虫抓取微信好友的签名及其可视化展示...

    前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...

  6. 用python爬虫下载视频_使用Python编写简单网络爬虫抓取视频下载资源

    我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚 ...

  7. python抓取微信朋友圈动态_2018最全如何利用Python网络爬虫抓取微信朋友圈的动态...

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  8. python爬虫能爬取微信密码吗_如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例...

    今天我们继续focus on微信,不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况.代码实现蛮简单的,具体的教程如下. 相信大家都知道,直接通过网页抓取微信 ...

  9. 2018最全如何利用Python网络爬虫抓取微信朋友圈的动态

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  10. 如何利用Python网络爬虫抓取微信朋友圈的动态(上)

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

最新文章

  1. mysql数据库的F5_windows下mysql每天定时备份数据库几种方法
  2. 微信小程序_基础组件学习02
  3. sqlserver字符串多行合并为一行
  4. datagrid如何获取一行数据中的某个字段值_或许是全网最全面关于数据库面试题...
  5. 汽车上有哪些很难发现却非常实用的配置?
  6. 瑞星力荐金山毒霸 原来是广告程序 作崇
  7. java万年历代码_JAVA实现的简单万年历代码
  8. springboot系列(二十五):如何实现单word模板分多页导出?这你得会|超级详细,建议收藏
  9. 战胜25名医生:AI真能成为医疗界的“擂主”?
  10. SAP ABAP 工作区,内表,标题行的定义和区别
  11. 三菱q系列plc 和电脑socket_三菱Q系列Socket通讯(套接字通讯)讲解
  12. 通过手机使用广域网访问局域网的服务器
  13. 扫描中如何实现自动纠偏
  14. 工具“正确”打开方式——如何用notion来谈恋爱
  15. Unknown error 1146的解决办法:
  16. 激活函数总结sigmoid,tanh,relu,Leaky ReLU,RRelu,ELU,PRelu,SELU,swish
  17. C# Winform控件库分享,免费开源,支持中文!(附DLL及教程)
  18. 6.3.1.8 Packet Tracer - 探索网络互联设备-熟悉Packet Tracer模拟器
  19. 卸载计算机更新程序包,win7系统删除系统更新安装包的详细教程
  20. Docker安装太慢,使用国内镜像服务快速安装

热门文章

  1. Starling学习笔记
  2. 西门子S7通信案例分享
  3. 树莓派介绍树莓派3代B+型开发板
  4. java绘制菱形平行四边形_Java实现金字塔形菱形平行四边形
  5. HSI、HSV、RGB、CMY、CMYK、HSL、HSB、Ycc、XYZ、Lab、YUV颜色模型
  6. Python安装包时遇到There was a problem confirming the ssl certificate…的解决办法
  7. 手把手教你使用--常用模块--HC05蓝牙模块,无线蓝牙串口透传模块,(实例:手机蓝牙控制STM32单片机点亮LED灯)
  8. linux 清除swap 数据,linux清除swap
  9. Photoshop教程_ps中怎么载入图案?PS图案如何导入?
  10. python最大分词_北大开源了Python中文分词工具包,准确度远超Jieba