一、如何采集信息

以前听说过采集的,但是没自己搞过,一直以为采集是一个十分高大上的技术。这段时间在做一个电商项目,需要往数据库添加数据,一条一条的添加有点蛋疼,谁有这么多时间做这么没有意义的事情呢,所以就想到了数据采集,采集京东、天猫的数据多好,多省事呀,于是便行动起来。

做采集,我首先想到的是正则表达式,我还复习了一下正则,但是如何匹配多层嵌套的div的呢?

我的目的就是获取id="plist"的内容,然后获取li里面的信息

画了不少时间,用正则方式没有找到解决办法,但是找到另外一种方法--phpQuery。phpQuery用来匹配html中的内容比正则简单太多了,只要会jquery,使用起来几乎无障碍。

关于phpQuery的详细使用方法,可以参考博客:https://blog.csdn.net/u012543061/article/details/61194372

二、采集案例

<?phprequire './phpQuery.php';//获取远程图片function curl_file_get_contents($url,$from){//初始化curl会话$ch = curl_init();//设置一个cURL传输选项。curl_setopt($ch, CURLOPT_URL, $url);                 //目标 curl_setopt($ch, CURLOPT_TIMEOUT, 2);//curl_setopt($ch, CURLOPT_USERAGENT, _USERAGENT_);    curl_setopt($ch, CURLOPT_REFERER,$from);           //伪造来路  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);$result = curl_exec($ch);curl_close($ch);return $result;}//载入文档phpQuery::newDocumentFile('https://list.jd.com/list.html?cat=670,671,672');$list = pq('li.gl-item');$from = 'http://list.jd.com/list.html?cat=670,671,672';for($i=0;$i<count($list);$i++){$src = pq($list)->eq($i)->find('.p-img')->find('img')->attr('src');if(!$src){$src = pq($list)->eq($i)->find('.p-img')->find('img')->attr('data-lazy-img');}$src = str_replace('/n7/','/n1/',$src);$result = curl_file_get_contents('http:'.$src,$from);file_put_contents('./images/'.basename($src), $result);}
?>

一瞬间就保存了60张图片的,牛掰吧

我的大作,欢迎来踩 www.iis7.com

php采集防盗链的图片相关推荐

  1. 采用Iframe解决微信图片防盗链‘此图片来自微信公众平台未经允许不可引用’问题

    采用Iframe解决微信图片防盗链'此图片来自微信公众平台未经允许不可引用'问题 最近使用微信公众号爬虫遇到临时链接过期问题,查了各种博客及论坛,好多方法都已经不能用了,目前能用的就是新榜的一个临时链 ...

  2. java 微信图片反盗链_详解微信图片防盗链“此图片来自微信公众平台 未经允许不得引用”的解决方案...

    已经获取微信公众号发布的图片,但不能正常显示 ,提示:此图片来自微信公众平台 未经允许不得引用. 这是怎么回事呢? 遇到这种问题是因为微信公众平台对图片采用了防盗链设置,微信对外提供了API接口,让我 ...

  3. 破解微信图片防盗链 微信图片不显示怎么办?

    在页面头部加入: <meta name="referrer" content="never"> <meta name="referr ...

  4. lnmp/nginx系统真正有效的图片防盗链完整设置详解

    http://www.it300.com/article-15345.html 关于nginx防盗链的方法网上有很多教程,都可以用,但是我发现很多教程并不完整,所做的防盗链并不是真正的彻底的防盗链! ...

  5. 绕过图片防盗链的方法

    http://cdn.archdaily.net/wp-content/uploads/2011/06/1309476244-elicium-rai-01-528x351.jpg 假设这是一张防盗链的 ...

  6. 呆错图床系统源码图片CDN加速与破解防盗链功能

    呆错图床系统是一款免费的PHP图床程序,核心功能是提供图片外链服务.图床API服务.图片CDN加速与破解防盗链. 图片上传 支持本地储存.FTP储存.第三方云储存(阿里云 OSS.腾讯云 COS.七牛 ...

  7. 网站防止盗链的方法总结(复制网页的时候,里面的图片复制不下来,就是别人用了防盗链的方法)...

    网站防止盗链的方法总结(复制网页的时候,里面的图片复制不下来,就是别人用了防盗链的方法) 一.总结 1.可以用 浏览器请求时HTTP头的Referer字段的值 复制网页的时候,里面的图片复制不下来,就 ...

  8. 【Nginx】Nginx实现图片防盗链

    目录 Nginx有三种方法可以进行防盗链 1.对Nginx下所有项目的指定资源不同文件类型进行防盗链 2.对指定目录或者指定项目目录进行防盗链 3.nginx 的第三方模块ngx_http_acces ...

  9. Typora--终于找到一个能够解决将csdn文章同步到hexo的完美编辑器(解决csdn图片防盗链导致无法直接复制文章的问题)。...

    文章目录 需求 背景 新宠 告诉我,我的名字叫什么?大声点我听不见~ 页面 神奇之处 看得见的优点 如何设置项目根目录 如何显示图片? 于是最终操作流程 个人博客:https://mmmmmm.me ...

最新文章

  1. 【django轻量级框架】云端系统之Django框架进阶
  2. 有勇气的牛排 --- 大数据
  3. 【精华】掌握Qt调试技术
  4. 如何安装python3.8.1_python3.8.1 安装
  5. EF Core 2.0中Transaction事务会对DbContext底层创建和关闭数据库连接的行为有所影响...
  6. 斜杠“/”与反斜杠“\”的区别
  7. ant脚本 变量赋值_【Jmeter】Jmeter+ant+jenkins持续集成
  8. 永久删除掉qq安全防护进程q盾
  9. 百货商场如何运用预付费系统进行电能管理呢?
  10. 什么是远程桌面?花生壳+Windows远程桌面控制教程
  11. VRAY之HDRI材质的应用蓝海创意云
  12. 《PWM整流器及其控制》读书笔记—第三章—电压型PWM整流器
  13. 广东电信最新DNS更新了
  14. (十)DSP28335基础教程——ECAP实验(超声波测距)
  15. 用 CSS 实现 AirDrop 动效
  16. 09- 京东客户购买意向预测 (机器学习集成算法) (项目九) *
  17. 通达信20个经典公式_20个欧美时尚达人高领毛衣+大衣造型集锦:冬季最高级的穿搭公式...
  18. 【接口测试】Jenkins+ant+jmeter接口自动化测试及邮件发送
  19. php使用常量和变量输出圆的面积,PHP常量和变量分别是什么?有什么区别?
  20. mysql查看表空间剩余大小_查询表空间的总大小,剩余表空间,已用空间,表占用大小,某天占用的大小...

热门文章

  1. AfterEffect(AE)插件-常规功能开发-放大缩小图层-js脚本开发-AE插件
  2. android 动画效果渐变,android实现alpha渐变动画效果
  3. c语言编程如何实现-十进制数转换成二进制和输出
  4. 工作故事之三--崭露头角(从愣头青到感觉有点意思)
  5. (C#)安全、简单的Windows Forms多线程编程 (一)
  6. 光明日报:探讨大数据时代的依法治理之道
  7. 通过exif信息校正手机拍摄图片的旋转问题
  8. 附录C 参考网站一览
  9. 蓝懿ios 技术内容和心得交流分享 11.3 打飞机主要步骤
  10. 刀友访谈:从0到1说产品,价值超过所有收费课!