java开源论坛系统http://javabbs.javaz.cn

Web页面信息采集

从FreeCMS 2.1开始支持

通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。

采集规则管理

从左侧管理菜单点击采集规则进入。

添加采集规则

在采集规则列表下方点击"添加"按钮。

填写相关属性后点击"保存"按钮即可。

采集规则属性说明

采集规则属性分为基本、设置、采集地址,采集属性,关键词替换。

一般情况下只要在基本选项卡填写相关属性即可完成。如果需要更多高级设置可以使用后面几个选项卡。

下面针对主要属性进行解释说明。

名称:采集规则的名称。

采集到栏目:采集的信息要添加到那个栏目。

页面编码:目标网页的页面编码,默认为UTF-8。

采集地址:目标网页的地址。在基本选项卡中只能设置一个,想要设置多个可以在采集地址选项卡中设置。

采集调度:设置定时执行采集操作,这个设置非常重要,只有设置了采集调度系统才执行采集操作。

内容列表开始结束html:因为系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的开始结束html就很重要,一定要设置为相对比较唯一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.

内容地址开始结束html:根据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题开始结束html:根据上面的属性获取内容地址后,系统会抓取此内容地址的网页内容,然后根据此属性截取内容标题。内容相关属性的设置跟此属性类似,下面不再赘述。

状态:启用状态下的采集规则,系统才会执行。

采集图片:将信息内容中的图片下载到本地。

自动审核通过:将采集的信息直接设置为已审核状态。

使用采集信息点击量:默认采集到的信息的点击量为0,设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量,设置为采集后信息的点击量。

最多采集内容数:默认不限制,如果设置了此属性,系统会从采集记录中统计此采集规则已采集了多少条信息,如果超过最多采集内容数,系统将不再采集。

将首幅图片设为标题图片:如果信息内容中有图片,则提取第一张做为标题图片,并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除,保留纯文本。

当内容为空时是否采集:可设置在内容为空时不采集此信息。

使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间,设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间,设置为采集后信息的添加时间。

采集信息添加时间格式:默认格式为yyyy-MM-dd,如果目标页面的添加时间格式不同,需要在这里设置为正确的日期格式。

采集开始时间:默认为当前时间,如果不到采集开始时间,系统是不会采集的。

采集结束时间:默认为永不结束,如果超过采集结束时间,系统是不会采集的。

内容地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容地址的前缀。

图片地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置图片链接地址的前缀。

内容中A标签链接地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容中A标签链接地址的前缀。

采集地址分为静态和动态地址,静态地址为固定的地址,动态地址一般指可以分页的地址,通过{page}来代表分页变量,可以设置从那一页采集到那一页,如http://www.freetam.cn/list_{page}.html,设置开始页数为1,结束页数为10,系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有页面的数据。

一般情况下我们只采集信息的标题和内容就可以了,系统还提供采集内容描述、点击量、作者、来源、添加时间属性的功能。

通过关键词替换功能,您可以将采集到的信息里面的关键词替换为自己想要的关键词。

编辑采集规则

选择需要编辑的采集规则,然后点击"编辑"按钮。

注意:同时只能编辑一个采集规则。

填写相关属性后点击"保存"按钮即可。

采集

选择需要采集的采集规则,然后点击"采集"按钮。

注意:同时只能对一个采集规则进行采集操作。

删除采集规则

选择需要删除的采集规则,然后点击"删除"按钮。

提示:同时可以删除多个采集规则。

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

查看采集记录

从左侧管理菜单点击采集记录进入。

在这里可以查看到所有web页面采集记录,您可以删除指定的采集记录,但并不会删除已采集的信息数据,选择需要删除的采集记录,然后点击"删除"按钮。

提示:同时可以删除多个采集记录。

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

java 采集 cms_开源 java CMS - FreeCMS2.6 Web页面信息采集相关推荐

  1. java 采集 cms_开源 java CMS - FreeCMS2.3 Web页面信息采集

    Web页面信息采集 从FreeCMS 2.1开始支持 通过简单配置即可抓取目标网页信息,支持增量式采集.关键字替换.定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且 ...

  2. 开源 java CMS - FreeCMS2.6 Web页面信息采集

    2019独角兽企业重金招聘Python工程师标准>>> java开源论坛系统http://javabbs.javaz.cn 项目地址:http://www.freeteam.cn/ ...

  3. java 采集 cms_开源 java CMS - FreeCMS2.6 数据库信息采集

    java开源论坛系统http://javabbs.javaz.cn 数据库信息采集 从FreeCMS 2.1开始支持 通过简单配置即可抓取目标数据库信息,支持增量式采集.关键字替换.定时采集,可采集多 ...

  4. java 爬虫:开源java爬虫 swing工具 Imgraber

    1实现点: 1.返回给定URL网页内,所有图像url list 2.返回给定URL网页内,自动生成图像文件路径.txt 文件 3.返回给定URL网页内,下载txt文件指定的图片url,并将所有图像保存 ...

  5. 易语言 java支持_开源Java客户端可以连接易语言服务器

    我们的服务端处理客户端的连接请求是同步进行的, 每次接收到来自客户端的连接请求后, 都要先跟当前的客户端通信完之后才能再处理下一个连接请求. 这在并发比较多的情况下会严重影响程序的性能, 为此,我们可 ...

  6. java 滑块验证码 开源,Java AWT生成滑动验证码

    最近工作需要在登录时使用滑动验证码做登录校验,在生成验证码图片的时候碰到了不小的麻烦 : (. 网上能查到的做法基本上都是使用一张已存在的实际图片作为滑块的图形模板,然后按照此模板做二重循环逐像素地从 ...

  7. java 免费cms_开源 免费 java CMS

    Bug修复: 1.菜单管理:删除操作按钮后不能直接进行删除菜单操作. 2.删除单位时操作记录不显示单位名称问题. 3.站点管理:改变所属站点增加改变为一级站点功能,上传非图片logo时虽然提示但仍上传 ...

  8. java采集_基于Java的数据采集(三)

    基于之前2篇Java数据采集入库,做了下功能整合,实现本地的存读取,上个效果图: 直接上代码吧,本程序只是作为"如何用JAVA抓取页面简单采集入库"的入门,在实际做采集工具的时候, ...

  9. java 采集rtsp_通过Java程序调用RTSP拉流协议视频平台EasyNVR程序接口步骤概览

    RTSP协议视频平台EasyNVR经过多年的积累,已经是一套成熟且完善的视频平台了,用户可以通过网页直接访问视频监控,也可以通过调用二次开发接口进行二次开发或者集成.下面介绍下Java程序调用Easy ...

最新文章

  1. 122亿元消费券引爆首都初夏,京东618如何成为经济复苏加速引擎
  2. python dataframe删除指定行_pandas.DataFrame删除/选取含有特定数值的行或列
  3. 聚集索引和非聚集索引的区别有哪些
  4. 一个典型的SAP Commerce extension目录结构
  5. 如何在网络中成对使用光纤收发器?
  6. which 命令
  7. 《Dubbo迈出云原生重要一步-应用级服务发现解析》
  8. Nginx(七):nginx原理解析
  9. 纯python好找工作吗_Python现在好找工作么?
  10. WIFI 网络操作--------------------笔记
  11. 编程语言python怎么读-网红编程语言Python将纳入高考你怎么看?
  12. S19王者荣耀服务器维护,王者荣耀:S19新赛季更新,她没上线惨遭重做,英雄调整,界面优化...
  13. 解决办法:C向Python传递字串数组导致进程崩溃
  14. Intellij IDEA创建第一个项目的视频
  15. maple化简_Maple对多项式化简教程
  16. DSP 2812: 使用C++封装外设时钟控制
  17. 【Docker系列】从头学起 Docker——docker run 命令详解
  18. PHP获取某一天前后任意时间
  19. hach vue 跳转_Vue路由实现、路由导航、路由模式
  20. idea中摸鱼插件_推荐几款我常用的IDEA插件~网友:妈耶~飞起来咯!

热门文章

  1. c语言扫雷源代码简单版,C语言扫雷游戏源代码
  2. win7开机出现修复计算机,win7开机提示系统自动修复无法正常进入的原因分析及解决...
  3. 穿越派·派盘(WebDAV)解决OmniFocus同步问题
  4. Xcode创建OC项目
  5. 移通创联Profinet网关将丹佛斯变频器接入西门子PLC
  6. 随着计算机技术的发展与普及,计算机方面的中译英,就一段话.随着计算机技术的飞速发展,计算机在各行各业中应用的逐渐普及,校园利用现代化手段进行管理势在...
  7. centos 7卸载java_centos下JDK的卸载与安装
  8. 【数据结构与算法】插值查找算法、斐波那契查找算法(黄金分割法)的介绍和程序实现
  9. 自己封装的爱普生机器人与三菱的MC协议通信驱动程序,提供项目源码
  10. Spring Boot配置加载顺序