java爬虫爬取网站使用多线程(虎嗅网站)

java爬虫爬取网站使用多线程(虎嗅网站)

图解虎嗅爬虫优化方案

pom 如下:

org.apache.httpcomponents

httpclient

4.5.3

org.jsoup

jsoup

1.10.3

org.springframework

spring-jdbc

4.2.6.RELEASE

mysql

mysql-connector-java

5.1.41

c3p0

c3p0

0.9.1.2

com.alibaba

fastjson

1.2.31

com.google.code.gson

gson

2.8.1

redis.clients

jedis

2.9.0

代码演示如下:

package cn.itcast.huxiu.query;

import java.util.ArrayList;

import java.util.concurrent.ArrayBlockingQueue;

import java.util.concurrent.ExecutorService;

import java.util.concurrent.Executors;

import org.apache.http.HttpEntity;

import org.apache.http.client.entity.UrlEncodedFormEntity;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.methods.HttpPost;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.message.BasicNameValuePair;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.google.gson.Gson;

import cn.itcast.huxiu.Article;

import cn.itcast.huxiu.ArticleDao;

import cn.itcast.huxiu.ResponseJson;

public class HuXiuTest {

public static final ArticleDao articleDao = new ArticleDao();

public static final ArrayBlockingQueue blockingQueue = new ArrayBlockingQueue(1000);

public static final ExecutorService threadPool = Executors.newFixedThreadPool(10);

public static final String prefix = "https://www.huxiu.com/article/";

public static final String end = ".html";

public static void main(String[] args) throws Exception {

//创建线程

for(int i=0;i<30;i++){

threadPool.execute(new ProcessPagingThreadQueue());

}

// 爬取首页的信息

String indexHtml = getIndex();

// 解析首页 得到首页里面的所有的id(根据id来查询每一个页面的信息) 存储到集合里面

parseIndexHtml(indexHtml);

/**

* 在首页的信息爬取了之后 就要准备爬取分页的信息 点击加载更多只时 就相当与是点击了下一页 点击之后 就会发送一个请求

* 这个请求就可以加载下一页的数据了 得到的下一页所有数据之后 就要解析每一页的数据

*

*/

// 根据首页的信息来得到加载下一页数据按钮的数据值

String last_dateline = getValueAndIndexHtml(indexHtml);// 得到没加载一页数据的数值

// 点击 加载下一页的数据

for (int page = 2; page < 10; page++) {

// 获得请求的路径

String url = "https://www.huxiu.com/v2_action/article_list";

HttpPost httpPost = new HttpPost(url);

// 请求参数

ArrayList list = new ArrayList();

list.add(new BasicNameValuePair("huxiu_hash_code", "647893ceb60219effa36193702fd89a3"));

list.add(new BasicNameValuePair("page", page + ""));

list.add(new BasicNameValuePair("last_dateline", last_dateline));

// 参数设置

httpPost.setEntity(new UrlEncodedFormEntity(list));

// User-Agent

httpPost.setHeader("User-Agent",

"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0");

// 发起请求

CloseableHttpClient httpClient = HttpClients.createDefault();

CloseableHttpResponse execute = httpClient.execute(httpPost);

// 在发送请求之后 页面没有跳转 因为是在和首页的同一个页面下 所以不用判断 只有页面跳转才有状态码的判定

// 请求发送之后 就有返回值了 主要注意的是返回值是json数据的形式来进行返回的

String jsonDate = EntityUtils.toString(execute.getEntity());

// 得到json数据值 就要水对json的数据进行解析 解析json的数据使用到的是gson

Gson gson = new Gson();

// 将数据进行解析并且映射到实体类中 实体类中是根据返回的参数来进行设置的

// 得到分页数据的所有的信息 也就是分页数据的url

ResponseJson fromJson = gson.fromJson(jsonDate, ResponseJson.class);

// 得到的分页的每一个数据 每一个URL信息

String data = fromJson.getData();// 得到分页的信息

// 对分页的数据信息进行解析 也就要取得每一个详情信息页面的id值

getDate(data);// 得到所有id值的集合

System.out.println(page+"&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&");

}

}

private static void getDate(String data) {

if (data != null) {

Document document = Jsoup.parse(data);

Elements elements = document.select("div[data-aid]");

for (Element element : elements) {

try {

blockingQueue.put(element.attr("data-aid"));

System.out.println(element.attr("data-aid"));

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

}

}

// 得到加载下一页信息的数据值

private static String getValueAndIndexHtml(String indexHtml) {

if (indexHtml != null) {

Document document = Jsoup.parse(indexHtml);

Elements select = document.select("div[data-last_dateline]");

return select.get(0).attr("data-last_dateline");

}

return null;

}

public static Article parseXianQingYeMian(String html) {

if (html != null) {

Article article = new Article();

// 将详细页面的信息 转换为文档对象

Document document = Jsoup.parse(html);

// 获取文章的标题信息

String ownText = document.select(".t-h1").get(0).ownText();

article.setTitle(ownText);

// 获取作者

String author = document.select(".author-name").get(0).text();

article.setAuthor(author);

// 获取时间 根据页面上的信息可知时间有两种表示

Elements elements = document.select("span[class=article-time pull-left]");

if (elements.size() == 0) {

String createTime = document.select(".article-time").get(0).ownText();

article.setCreateTime(createTime);

} else {

String createTime = elements.get(0).ownText();

article.setCreateTime(createTime);

}

// 获取文章内容

String content = document.select(".article-content-wrap").get(0).text();

article.setContent(content);

// 获取点赞

article.setZan(document.select(".num").get(0).ownText());

// 获取评论

article.setPl(document.select(".article-pl").get(0).ownText());

System.out.println(article);

return article;

}

return null;

}

// 解析数据 得到url

private static void parseIndexHtml(String indexHtml) {

// TODO Auto-generated method stub

if (indexHtml != null) {

// 解析得到的页面的信息 将其变成文档对象

Document document = Jsoup.parse(indexHtml);

// 得到document对象后 就可以通过document对象来得到需要的东西

Elements elements = document.select(".mod-info-flow div[data-aid]");

for (Element element : elements) {

String aid = element.attr("data-aid");

try {

/**

* 在单线层转变多线程中   主要的几个是 队列 线程的创建 线程池的创建

* 这个主要是创建队列 并且把解析数据的详情的id传给了这个队列

* 队列的主要的作用是 防止单个线程被同时访问造成拥堵引起并发的问题

* 队列就把这几个问题给解决了

*/

blockingQueue.put(aid);

} catch (InterruptedException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

}

}

// 首页的获取

private static String getIndex() throws Exception {

String url = "https://www.huxiu.com";

// 发起一个get请求

HttpGet httpGet = new HttpGet(url);

// 设置请求头

httpGet.addHeader("User-Agent",

"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");

// 返回页面的信息

return getHtml(httpGet);

}

// 执行发送请求的方法

public static String getHtml(HttpGet httpGet) throws Exception {

// TODO Auto-generated method stub

String html = null;

CloseableHttpClient httpClient = HttpClients.createDefault();

CloseableHttpResponse execute = httpClient.execute(httpGet);

// 判断响应码是否为200

if (execute.getStatusLine().getStatusCode() == 200) {

HttpEntity entity = execute.getEntity();

html = EntityUtils.toString(entity);

System.out.println(html);// 返回的的页面的所有信息

}

return html;

}

}

**********************************************************************************************************************

代码创建线程

package cn.itcast.huxiu.query;

import org.apache.http.client.methods.HttpGet;

import cn.itcast.huxiu.Article;

public class ProcessPagingThreadQueue extends Thread {

public void run() {

// TODO Auto-generated method stub

while (true) {

//得到每一给详情页面的id 这里面用到了while循环  因为存在队列里面的id值不知道是多少个 而且出来也是一个一个的出来的 所以就使用到了循环

try {

String parseInt = HuXiuTest.blockingQueue.take();//得到详情页的id

int id = Integer.parseInt(parseInt);

//创建发送请求

HttpGet httpGet = new HttpGet(HuXiuTest.prefix + id + HuXiuTest.end);

// 消息头

httpGet.addHeader("user-agent",

"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");

String html = HuXiuTest.getHtml(httpGet);//得到页面的详情信息

Article article = HuXiuTest.parseXianQingYeMian(html);

if(article != null){

article.setId(id);

//article.setUrl(HuXiuTest.prefix + id + HuXiuTest.end);

HuXiuTest.articleDao.save(article);

}

} catch (Exception e) {

// TODO Auto-generated catch blockArticle

e.printStackTrace();

}

}

}

}

**********************************************************************************************************************

实体类

package cn.itcast.huxiu;

public class Article {

private int id;

private String title;

private String author;

private String createTime;

private String sc;

private String zan;

private String pl;

private String content;

private String url;

public int getId() {

return id;

}

public void setId(int id) {

this.id = id;

}

public String getTitle() {

return title;

}

public void setTitle(String title) {

this.title = title;

}

public String getAuthor() {

return author;

}

public void setAuthor(String author) {

this.author = author;

}

public String getCreateTime() {

return createTime;

}

public void setCreateTime(String createTime) {

this.createTime = createTime;

}

public String getSc() {

return sc;

}

public void setSc(String sc) {

this.sc = sc;

}

public String getZan() {

return zan;

}

public void setZan(String zan) {

this.zan = zan;

}

public String getPl() {

return pl;

}

public void setPl(String pl) {

this.pl = pl;

}

public String getContent() {

return content;

}

public void setContent(String content) {

this.content = content;

}

public String getUrl() {

return url;

}

public void setUrl(String url) {

this.url = url;

}

@Override

public String toString() {

return "Article [id=" + id + ", title=" + title + ", author=" + author + ", createTime=" + createTime + ", sc="

+ sc + ", zan=" + zan + ", pl=" + pl + ", content=" + content + ", url=" + url + "]";

}

}

数据库连接

package cn.itcast.huxiu;

import org.springframework.jdbc.core.JdbcTemplate;

import com.mchange.v2.c3p0.ComboPooledDataSource;

public class ArticleDao extends JdbcTemplate{

public ArticleDao() {

// 创建C3P0的datasource 1.配置 2.代码

ComboPooledDataSource dataSource = new ComboPooledDataSource();

// 1.url

// 2.driver

// 3.username&password

dataSource.setUser("root");

dataSource.setPassword("123");

dataSource.setJdbcUrl("jdbc:mysql://localhost:3306/spider?characterEncoding=utf-8");

setDataSource(dataSource);

}

public void save(Article article) {

String sql = "INSERT INTO huxiu_article (id, title, author, createTime, zan, pl, sc, content, url ) VALUES( ?,?,?,?,?,?,?,?,?)";

update(sql, article.getId(),article.getTitle(),article.getAuthor(),article.getCreateTime(),article.getZan(),article.getPl(),article.getSc(),article.getContent(),article.getUrl());

}

}

实体类

package cn.itcast.huxiu;

public class ResponseJson {

private int result;

private String msg;

private String data;

private double total_page;

private double last_dateline;

public int getResult() {

return result;

}

public void setResult(int result) {

this.result = result;

}

public String getMsg() {

return msg;

}

public void setMsg(String msg) {

this.msg = msg;

}

public String getData() {

return data;

}

public void setData(String data) {

this.data = data;

}

public double getTotal_page() {

return total_page;

}

public void setTotal_page(double total_page) {

this.total_page = total_page;

}

public double getLast_dateline() {

return last_dateline;

}

public void setLast_dateline(double last_dateline) {

this.last_dateline = last_dateline;

}

@Override

public String toString() {

return "ResponseJson [result=" + result + ", msg=" + msg + ", data=" + data + ", total_page=" + total_page

+ ", last_dateline=" + last_dateline + "]";

}

}

java爬虫爬取网站使用多线程(虎嗅网站)相关教程

JAVA爬取虎嗅网截图_java爬虫爬取网站使用多线程(虎嗅网站)相关推荐

  1. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  2. java爬虫抓取nba_利用Python爬虫爬取NBA数据功能实例分享

    Python实现爬虫爬取NBA数据功能示例 本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016- ...

  3. python爬取慕课视频-Python爬虫抓取技术的门道

    web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展.然而,正所谓成也萧何败也萧何,开放的特性.搜索引擎以及简单易学的html.css技术使得web成为了互联网领域里 ...

  4. python爬取网页代码-python爬虫爬取网页所有数据详细教程

    Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...

  5. python爬虫反爬机制_浅谈爬虫及绕过网站反爬取机制之Python深度应用

    我们中公优就业的老师希望能给那些面临困境的朋友们带来一点帮助!(相关阅读推荐:Python学习就看这里!) 爬虫是什么呢,简单而片面的说,爬虫就是由计算机自动与服务器交互获取数据的工具.爬虫的最基本就 ...

  6. php抓取微博评论,python爬虫爬取微博评论案例详解

    前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...

  7. python爬取学校新闻_python爬虫爬取新闻的简单实现

    我们通常是使用爬虫爬取网站信息,其实网络爬虫是一种应用于搜索引擎的程序.使用python爬虫可以将一个网站的所有内容与链接进行阅读.例如我们每日都要获取新闻信息,利用python爬虫就可以帮助我们爬取 ...

  8. python爬取bilibili弹幕_Python爬虫爬取Bilibili弹幕过程解析

    先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为https://www.bilibi ...

  9. python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

最新文章

  1. 记录 Git命令速查表
  2. mongodb 启动_精心总结--mongodb分片集群启动与关闭
  3. oracle改成归档模式_oracle 11g开启归档模式及修改归档目录
  4. Windows安装mysql8.0
  5. 爬虫爬评书吧_python scrapy+Mongodb爬取蜻蜓FM,酷我及懒人听书
  6. 利用Tomcat的用户名和密码构建“永久”后门
  7. promise then返回值
  8. spingMVC拦截器 -单个、多个、设想
  9. python数据分类聚类案例_Python 数据分类与聚类分析(5)
  10. Page_Load基类,重写OnLoad
  11. 区块链开发区块链架构与应用PPT
  12. sql查询每科成绩最高的人和分数
  13. ie8位16进制色转换工具
  14. java gwt_gwt中java与js的相互调用 | 学步园
  15. php中流行的rpc框架详解
  16. 虚拟机安装kali linux
  17. 任买分期搞了个“斩男春计划” 我从中看到了消费分期成功的秘诀
  18. Amazon AWS
  19. 使用 Amazon Amplify快速创建简单的 Android 应用程序
  20. Kaggle泰坦尼克号 数据可视化

热门文章

  1. 在线电影/电视/音乐/FLASH/EMAIL地址超强侦探
  2. directx数学基础1
  3. 空调自动感温c语言程序,空调温度自动控制系统设计方案.doc
  4. 《数学分析新讲》_张筑生,12.5节:隐函数定理(2)
  5. python属于汇编语言还是高级语言_python是汇编语言吗
  6. IMS各网元的主要功能
  7. Word 插入内容表格不换页
  8. DEDE后台密码修改及教程
  9. 怎么把苹果手机通讯录导入华为手机_如何将通讯录批量转换为vcf格式导入手机,苹果手机如何批量删除通讯录?
  10. PCI相关(4)- PCIe总线事务-TLP格式及路由