某工厂来学校培训大数据爬虫,先提供个网页

<%@ page language="java" import="java.util.*" pageEncoding="utf-8"%>
<html>
<head><link rel="stylesheet" href="layui/css/layui.css"><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><title>大数据-烟台徐老师</title><script  src="js/jquery-3.2.1.min.js"></script><script  src="layui/layui.js"></script><script  src="js/indexAjax.js"></script><script  src="js/indexAjax2.js"></script><script  src="js/indexAjax3.js"></script><script  src="js/indexAjax4.js"></script><script  src="js/indexAjax5.js"></script><script>function scrapy() {// var layer = layui.layer;$.ajax({url:'${pageContext.request.contextPath }/scrapy.do',success:function () {layui.use('layer', function(){var layer = layui.layer;layer.alert('爬取成功!');});}});}</script><link rel="stylesheet"href="layui/css/layui.css">
</head>
<body class="layui-layout-body">
<div class="layui-layout layui-layout-admin"><div class="layui-header"><div class="layui-logo"><a href="index.jsp"><img src="images/logoblack.png" /></a></div><!-- 头部区域(可配合layui已有的水平导航) --><ul class="layui-nav layui-layout-left"><li class="layui-nav-item"><a href="">控制台</a></li><li class="layui-nav-item"><a href="">商品管理</a></li><li class="layui-nav-item"><a href="">用户</a></li><li class="layui-nav-item"><a href="javascript:;">BigData</a><dl class="layui-nav-child"><dd><a href="showCrawlerData.jsp" target="main">查询数据</a></dd><dd><a href="recruit/insertZhiRecruit">智联招聘</a></dd><dd><a href="javascript:scrapy();">前程无忧</a></dd><dd><a href="recruit/insertBossRecruit">Boss直聘</a></dd><dd><a href="recruit/delAllRecruit">删库谨慎</a></dd></dl></li></ul><ul class="layui-nav layui-layout-right"><li class="layui-nav-item"><a href="javascript:;"> <imgsrc="images/logo.png" class="layui-nav-img"> 某大牛培训老师 </a><dl class="layui-nav-child"><dd><a href="javascript:ajaxRequest5();">基本资料</a></dd><dd><a href="echarts.jsp">安全设置</a></dd></dl></li><li class="layui-nav-item"><a href="javascript:;">退了</a></li></ul></div><div  class="layui-side layui-bg-black"><div class="layui-side-scroll"><!-- 左侧导航区域(可配合layui已有的垂直导航) --><ul id="menu" class="layui-nav layui-nav-tree" lay-filter="test"><li class="layui-nav-item"><a class=""href="javascript:;">爬虫管理</a><dl class="layui-nav-child"><dd><a href="javascript:ajaxRequest();">爬取招聘数据</a></dd><dd><a href="javascript:ajaxRequest3();">爬取行政区域</a></dd><dd><a href="javascript:ajaxRequest2();">爬取图片</a></dd></dl></li><li class="layui-nav-item"><a href="javascript:;">数据处理</a><dl class="layui-nav-child"><dd><a href="ik/ikData">生成分词</a></dd><dd><a href="ik/ikData">招聘信息分析</a></dd></dl></li><li class="layui-nav-item"><a href="javascript:;">大数据处理</a><dl class="layui-nav-child"><dd><a href="ik/ikData">生成分词</a></dd><dd><a href="javascript:ajaxRequest4();" target="main">提交数据</a></dd><dd><a href="ik/ikData">大数据统计</a></dd></dl></li><li class="layui-nav-item"><a href="javascript:;">系统管理</a><dl class="layui-nav-child"><dd><a href="javascript:;">用户管理</a></dd><dd><a href="javascript:;">权限管理</a></dd></dl></li></ul></div></div><div class="layui-body" style="padding: 5px"><!-- 内容主体区域 --><div ><iframe name="main" frameborder="0" width="100%" height="90%" src="welcome.html"></iframe></div></div><div class="layui-footer"><!-- 底部固定区域 --></div>
</div>
<script src="${pageContext.request.contextPath }/layui/layui.js"></script>
<script>//JavaScript代码区域layui.use(['jquery','element'], function(){var element = layui.element;var $ = layui.$;$("#menu li").click(function(){$(this).siblings().removeClass("layui-nav-itemed");})});
</script>
</body>
</html>


package com.ld.jsoup.servlet;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import javax.servlet.ServletException;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import java.io.IOException;
import java.io.PrintWriter;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
//ctrl+o
public class JsoupServlet extends HttpServlet {@Overrideprotected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {//设置编码格式request.setCharacterEncoding("UTF-8");//请求response.setContentType("text/html;charset=UTF-8");//响应//获取PrintWriter对象设置响应文本PrintWriter out = response.getWriter();ExecutorService executorService = Executors.newFixedThreadPool(5);for(int i=1;i<=10;i++){final String url="https://search.51job.com/list/120400%252C010000,000000,0000,00,9,99,java,2,"+i+".html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";//connect方法访问某个网址,get获取Document文本对象try {final Document document = Jsoup.connect(url).get();executorService.execute(new Runnable() {public void run() {//select方法 根据选择器获取对应的元素集合Elements elements = document.select("p.t1.tg1 span a");//遍历元素集合for(Element element:elements){String absUrl = element.absUrl("href");//System.out.println(absUrl);Document doc = null;try {doc = Jsoup.connect(absUrl).get();} catch (IOException e) {e.printStackTrace();}Elements eles = doc.select("div.cn h1");for(Element ele:eles){//text()方法 获取元素中的内容System.out.println("jsoup===="+element.text());}}}});} catch (IOException e) {e.printStackTrace();}System.out.println("-----------------------------------------------------");}out.print("success");out.close();}@Overrideprotected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {doGet(req,resp);}
}

function ajaxRequest() {$.ajax({"url":"jsoup","type":"GET","dataType":"text","success":ifSuccess,"error":function(){alert("请求错误!");}});
}function ifSuccess(data){if(data=="success"){alert("爬取成功!");}else{alert("爬取失败!");}
}

<?xml version="1.0" encoding="UTF-8"?>
<web-app xmlns="http://java.sun.com/xml/ns/javaee"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://java.sun.com/xml/ns/javaeehttp://java.sun.com/xml/ns/javaee/web-app_3_0.xsd"version="3.0"><display-name>Archetype Created Web Application</display-name><welcome-file-list><welcome-file>index.jsp</welcome-file></welcome-file-list><servlet><servlet-name>JsoupImgServlet</servlet-name><servlet-class>com.ld.jsoup.servlet.JsoupImgServlet</servlet-class></servlet><servlet-mapping><servlet-name>JsoupImgServlet</servlet-name><url-pattern>/src</url-pattern></servlet-mapping><servlet><servlet-name>JsoupServlet</servlet-name><servlet-class>com.ld.jsoup.servlet.JsoupServlet</servlet-class></servlet><servlet-mapping><servlet-name>JsoupServlet</servlet-name><url-pattern>/jsoup</url-pattern></servlet-mapping><servlet><servlet-name>JobServlet</servlet-name><servlet-class>com.ld.jsoup.servlet.JobServlet</servlet-class></servlet><servlet-mapping><servlet-name>JobServlet</servlet-name><url-pattern>/JobServlet</url-pattern></servlet-mapping><servlet><servlet-name>uploadFileServlet</servlet-name><servlet-class>com.ld.jsoup.servlet.uploadFileServlet</servlet-class></servlet><servlet-mapping><servlet-name>uploadFileServlet</servlet-name><url-pattern>/uploadFileServlet</url-pattern></servlet-mapping><servlet><servlet-name>JobToFileServlet</servlet-name><servlet-class>com.ld.jsoup.servlet.JobToFileServlet</servlet-class></servlet><servlet-mapping><servlet-name>JobToFileServlet</servlet-name><url-pattern>/JobToFile</url-pattern></servlet-mapping>
</web-app>


点击运行,爬取招聘数据

还是刚入门,只能做些比较low的东西,反正觉得用线程池很好用,下次学习存入数据库,那个就比较实用了

idea爬虫爬取招聘信息,大数据相关推荐

  1. python小爬虫(爬取职位信息和博客文章信息)

    1.python爬取招聘信息 简单爬取智联招聘职位信息(仅供学习) # !/usr/bin/env python # -*-coding:utf-8-*- """ @Au ...

  2. python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...

  3. 苏宁易购网址爬虫爬取商品信息及图片

    利用scrapy来爬取苏宁官网上任何商品的信息,主要的信息有商品标题.商品现价.商品原价.商铺名称,以及用scrapy的ImagesPipeline来下载商品图片. 部分主函数代码如下: # -*- ...

  4. 用python爬虫爬取微博信息

    用python爬虫爬取微博信息 话不多说,直接上代码! import requests from bs4 import BeautifulSoup from urllib import parse i ...

  5. Node.js 爬虫爬取电影信息

    Node.js 爬虫爬取电影信息 本文地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影网的信息 ...

  6. mysql scrapy 重复数据_大数据python(scrapy)爬虫爬取招聘网站数据并存入mysql后分析...

    基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...

  7. Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化

    爬取Boss直聘相关的招聘数据 一.相关需求分析 1.目的 二.直聘网页结构分析 1.网页相关值的查找 2.网页的下一页规律查找 三.Python相关的第三库介绍 1.Urllib的介绍 (1)url ...

  8. 基于SpringBoot框架Wbe Magic爬虫框架爬取招聘信息项目(1)

    涉及的技术点:SpringBoot框架.Web Magic爬⾍框架.MySQL.mybatis. 使用语言:Java. 使用工具:idea. 本篇文章主要讲解搭建项目 以及 如何将页面数据输出打印到i ...

  9. python爬虫爬取房源信息

      目录 一.数据获取与预处理 二.csv文件的保存 三.数据库存储 四.爬虫完整代码 五.数据库存储完整代码 写这篇博客的原因是在我爬取房产这类数据信息的时候,发现csdn中好多博主写的关于此类的文 ...

最新文章

  1. 华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算
  2. 动态树与静态树显示——(一)
  3. struts2 学习记录 之 国际化
  4. java图像处理之实现任意角度图像旋转
  5. 酷桌面:随身携带你的企业
  6. git bash卡顿解决
  7. 用多媒体库 Bass.dll 播放 mp3 [15] - 设置与获取播放速度
  8. 3682: Phorni 后缀平衡树 线段树
  9. 《如何搭建小微企业风控模型》第六节节选 特征工程(下)
  10. FFMPEG结构体分析:AVCodecContext
  11. Domino中运用ajax判断帐号是否存在的简单例子
  12. Integration Services 学习(5):容器
  13. CSDN博客下载器的使用教程
  14. 74HC595的中文资料
  15. python如何用xpath爬取指定内容_Python如何利用Xpath选择器爬取京东网商品信息
  16. 【转载】C++编码规范与指导
  17. 数据分析入门系列教程-SVM实战
  18. SmartUpload综合
  19. 如何迅速打造敏捷团队
  20. IDEA 打包没有main class (非maven)

热门文章

  1. locate用主动还是被动_improve到底是直接用被动式还是用主动表被动
  2. 闪迪u盘适合装linux,闪迪给U盘加了一个接头,解决了iPhone用户最大烦恼
  3. astar不能用了_“早C晚A”?做完功课我发现:并不是所有人都能用对
  4. saltstack自动化运维一键部署rpm安装httpd和源码安装nginx
  5. 【手把手教你】获取股票数据并进行量化回测——基于ADX和MACD趋势策略
  6. 广州签发全国首张微信身份证,AI成主要证明技术
  7. IOS手机安装旧版APP(不要问我为什么安装旧版,有的旧版功能更强大)
  8. [小笑话]林蛋大与楚中天
  9. 直播提醒 | 零基础深度学习极速入门课程重磅开营
  10. 微信小程序——背景音乐播放