N phpspider爬虫获取网站内容demo
demo地址 https://pan.baidu.com/s/1ZOCK3NMQTyGpuR6ewV_7lw
更多Xpath语法详见W3C
爬虫配置代码 test.php
<?php// GitHub下载方式
require_once __DIR__ . '\autoloader.php';
use phpspider\core\phpspider;/* Do NOT delete this comment */
/* 不要删除这段注释 */$configs = array('name' => '糗事百科','log_show' => true,'tasknum' => 1,//'save_running_state' => true,'domains' => array('sohu.com','www.sohu.com'//'qiushibaike.com',//'www.qiushibaike.com'),'scan_urls' => array('http://www.sohu.com/'//'https://www.qiushibaike.com/'),'list_url_regexes' => array("http://www.sohu.com/tag/\d+"//"https://www.qiushibaike.com/8hr/page/\d+\?s=\d+"),'content_url_regexes' => array("http://www.sohu.com/a/\d+",//"https://www.qiushibaike.com/article/\d+",),'max_try' => 5,//'proxies' => array(//'http://H784U84R444YABQD:57A8B0B743F9B4D2@proxy.abuyun.com:9010'//),'export' => array('type' => 'db', 'table' => 'spider',),//'export' => array(// 'type' => 'csv',// 'file' => '../data/qiushibaike.csv',////'export' => array(//'type' => 'sql',//'file' => '../data/qiushibaike.sql',//'table' => 'content',//),
// 'export' => array(
// 'type' => 'db',
// 'table' => 'content',
// ),'db_config' => array('host' => '127.0.0.1','port' => 3306,'user' => 'root','pass' => 'Wanda2013','name' => 'spider',),//'queue_config' => array(//'host' => '127.0.0.1',//'port' => 6379,//'pass' => '',//'db' => 5,//'prefix' => 'phpspider',//'timeout' => 30,//),'fields' => array(array('name' => "article_title",'selector' => "//div[contains(@class,'text-title')]//h1",//'selector' => "//*[@id='single-next-link']//div[contains(@class,'content')]/text()[1]",'required' => true,),array('name' => "article_author",'selector' => "//div[contains(@class,'article-info')]//span[contains(@class,'tag')]//a",'required' => true,),array('name' => "article_headimg",'selector' => "//article[@id='mp-editor']//p//img[1]",//'selector' => "//div[contains(@class,'author')]//a[1]",'required' => true,),array('name' => "article_content",'selector' => "//article[@id='mp-editor']",//'selector' => "//*[@id='single-next-link']//div[contains(@class,'content')]",'required' => true,),array('name' => "article_publish_time",'selector' => "//span[@id='news-time']",//'selector' => "//div[contains(@class,'author')]//h2",'required' => true,),/*array('name' => "url",'selector' => "//div[contains(@class,'author')]//h2", // 这里随便设置,on_extract_field回调里面会替换'required' => true,),*/),
);$spider = new phpspider($configs);$spider->start();
N phpspider爬虫获取网站内容demo相关推荐
- Java使用Jsoup爬虫获取网站内容(三)获取元素内容属性的方法
介绍 我们可以通过Jsoup来获取一个Document对象,然后通过对Document对象进行解析来获取元素对象,最后通过元素对象的一些方法来获取元素的属性名称,属性值以及文本内容. 代码 附上获取方 ...
- HttpWebRequest自动登录网站并获取网站内容(不包含验证码的网站)
HttpWebRequest自动登录网站并获取网站内容(不包含验证码的网站) 可以使用 Visual Sniffer(百度搜索) 来捕捉提交的数据信息: 1. 访问你需要站外提交的页面,比如 CSDN ...
- 爬虫获取网站美女图片
爬虫获取网站美女图片 import requests from lxml import html import os if __name__=="__main__":etree = ...
- php小偷程序--获取网站内容
php如何抓取网站内容? 以获取网站title为例子: <?php function getTitle($url){$filecnt=file_get_contents($url);$wchar ...
- python爬虫获取网站销售情况(内置源码)
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的.而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 注:此处猫咪销售网站中的内容本来就可以免费 ...
- java爬虫获取div内容_Java爬虫-简单解析网页内容
获取百度新闻中所有的中国新闻的标题时间来源 1 获取网页2 public static String getContent(String str) throwsClientProtocolExcept ...
- python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...
问 题 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import re import HTMLParser class WALLS ...
- python爬虫获取百度贴吧内容
python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容 博主是一个比较懒的人,不会按时更 ...
- python获取网站代码_python爬虫1——获取网站源代码(豆瓣图书top250信息)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...
- 某投诉网站爬虫-获取对应的投诉信息
某投诉网站爬虫-获取对应的投诉信息 此爬虫原本是一道面试题,说难不难,说简单也不简单:因为站点的反爬机制,我现在也没摸清楚,不过目前看来应该是你在一段时间内访问数据超过对应的数量就会封ip 5-10分 ...
最新文章
- 样式集(六)仿微信通讯录样式
- Linux下Nginx访问web目录提示403Forbidden
- 全选 单选和反选的实现
- PyCharm平台下初学Django框架
- JZOJ 3457. 【NOIP2013模拟联考3】沙耶的玩偶(doll)
- Java各种日期计算
- Atitit 成果艺术 attilax著 艾提拉著 目录 1. 	2 2. 理论类	2 2.1. xxx模型 曲线 定律 原则 曲线	2 3. 代码类成果 范例代码项目 代码类库 与代码片段
- 74CMS的RCE挖掘思路
- django+echarts数据可视化(NBA球队数据可视化01)!
- uni-app实现APP中打开第三方app
- 2021SC@SDUSC Zxing开源代码(十三)Aztec二维码(二)
- 如何写论文?新手小白快速入门!
- 匿名聊天网站zouha.com风靡网络
- vue渲染大量数据如何优化_大数据量场景下的Vue性能优化
- CVE-2021-3560-POLKIT本地提权漏洞复现
- 数独的随机终盘生成函数设计
- python自动求梯度
- Python实现天气查询功能(外加Excel技巧)
- 十一长假不能错过的几款开源 Linux 游戏
- kali工具fping的简单使用之扫描IP