以下是一个简单的 CSDN 某个账号下的文章 爬虫 demo,它可以爬取指定账户中的20篇文章链接:

demo用到了 Jsoup 库来处理 HTML 文档,需要先下载并导入该库。可以在项目的 pom.xml 文件中添加以下依赖:

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.14.2</version>
</dependency>

demo

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class CsdnSpider {// CSDN回答列表 URL 案例private static final String URL = "https://blog.csdn.net/qq_44086060?type=blog";public static void main(String[] args) throws IOException {//1. 获取页面文档Document doc = Jsoup.connect(URL).get();//2. 获取回答列表  根据 class: 类选择器 查找Elements elements = doc.select(".blog-list-box");//3. 解析列表并存储到列表中List<String> list = new ArrayList<>(elements.size());for (Element element : elements) {//查找 a 标签下的 herf 属性String url = element.select("a").attr("href");list.add(url);}list.forEach(item->{System.out.println(item);});}
}

结果:

结论:
Jsoup主要用于解析静态HTML文档,无法直接读取滑动页面的信息。所以只能读取前20条文章。如果您需要读取滑动页面的信息,可以考虑使用其他的工具或技术。

一种常见的方法是使用Selenium WebDriver。它是一个自动化测试工具,可以模拟用户在浏览器中的操作,包括滑动页面。您可以使用Selenium WebDriver打开网页,滑动页面,然后使用Jsoup来解析页面的内容。

Tips:
需要注意的是,使用爬虫需要遵守网站的爬虫规则,不得恶意爬取、不得对网站造成过大的负担。同时,爬取他人内容需要尊重知识产权,不得侵犯他人利益。

Java爬虫demo,爬取文章链接相关推荐

  1. java爬虫京东商品,Java爬虫实现爬取京东上的手机搜索页面 HttpCliient+Jsoup

    1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用maven项目,log4j记录日志,日志仅导出到控制台. maven依赖如下 ...

  2. java爬虫之爬取博客园推荐文章列表

    这几天学习了一下Java爬虫的知识,分享并记录一下: 写一个可以爬取博客园十天推荐排行的文章列表 通过浏览器查看下一页点击请求,可以发现 在点击下一页的时候是执行的 post请求,请求地址为 http ...

  3. Java爬虫初学——爬取BT电影天堂电影的磁力链接并筛选下载

    最近和朋友们一起看悬疑电影,会百度了解信息并把想看的电影写在记事本中,突然萌生了一个想法,能不能写一个简单的程序每次自动下载记事本中想看的电影.因此用了一个下午和一个晚上的时间学习和编写了一个简单的J ...

  4. Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)

    WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...

  5. java爬虫-简单爬取网页图片

    刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...

  6. 【JAVA爬虫】爬取猫眼电影TOP100并将数据存入数据库

    前几天的简单写了个利用JSOUP进行JAVA爬虫,里面有谈到后续版本会更新数据库操作,所以这次来更新了. 版本更新 此次的版本里数据爬取部分新增了[电影主演-star]和[电影评分-score]部分, ...

  7. Java爬虫学习--爬取漫画

    我看大部分的爬虫入门教学都是爬取图片的,但是我测试了一下,那个网站现在加了一些反爬措施(如协议头部的 referer),并且很容易就会遇到429(太多请求)这个问题.可能是多线程速度太快,这也说明了控 ...

  8. Java爬虫,爬取新闻网的标题、时间和图片,并存入MySQL数据库

    实现爬取"淮师新闻网"的新闻列表.新闻详情信息,并将爬取到的信息存入数据库. 可以抓取非HTML信息(HttpClient):例如网页上动态加载的Json信息 可以抓取多媒体信息, ...

  9. 【Java爬虫】爬取网页中的内容,提取其中文字

    挺乱的,临时存一下 package cn.hanquan.craw;import java.io.FileWriter; import java.io.IOException; import java ...

最新文章

  1. 【深度学习入门到精通系列】nnU-Net论文解析
  2. linux下使用gcp拷贝数据的时候显示进度条
  3. Windows上的单个进程所能访问的最大内存量是多少?它与系统的最大虚拟内存一样吗?这对于系统设计有什么影响?...
  4. linux 自动安装mysql_Linux安装mysql
  5. 腾讯,创新工场,淘宝等公司最新面试三十题(第171-200题)
  6. python中find函数的使用方法_Python教程-String 字符串使用教程
  7. [转]C++,VC++,MFC,ATL,WTL到底是什么关系么
  8. 圆排列问题详解(原理+代码)
  9. Luogu2774 方格取数问题
  10. linux视频教程百度网盘分享
  11. 用美图秀秀给人像P上西装,并改成纯色背景
  12. 浅谈声纹识别应用:声音被模仿,声音识别身份可靠吗?
  13. freenas搭建nas及san网络存储详解
  14. 仪器仪表的标定、检定、校准、校验的区别【图文详解】
  15. 有哪些wordpress企业网站主题推荐?
  16. HTML5酷炫动画集锦
  17. Xcode No account for team . Add a new account in the Accounts preference pane or verify
  18. 解决DeepL翻译器翻译出来的文档是只读模式,不能编辑
  19. 有趣的海盗问题(完整版)
  20. Realsense L515 例程详解 Tutorial 1

热门文章

  1. EasyUI获取DataGrid中某一列的所有值
  2. 如何在AD中添加3D封装模型库(超详细)
  3. Cocos2D开源引擎最适合游戏创业团队
  4. WiFi大师安装教程(官方正版)
  5. wps怎么筛选相同数据
  6. 上大专(高职)的几种方式
  7. 我的世界java18w50a_Minecraft我的世界Java版18w47a更新发布
  8. python写迷你小游戏下载_狼人杀?用Python自己写个迷你版狼人杀游戏,自己的游戏自己做主...
  9. 高性能稳定芯片:IT66021是HDMI转TTL的视频转接芯片
  10. linux命令菜鸟2.0--干货