抓取汽车之家新闻资讯做安卓app新闻资讯数据
//2016/09/16///
//by xbw///
抓取服务器端php源码
<?PHP
set_time_limit(0);
require("db_config.php");
$conn=mysql_connect($mysql_server_name,$mysql_username,$mysql_password) or die("error connecting") ;
mysql_query("set names 'gb2312'");
mysql_select_db($mysql_database);
$page=60;
while($page>0){$str = file_get_contents('http://www.autohome.com.cn/all/'.$page.'/#liststart');$isMatched = preg_match_all('/<a href="(?<grp0>[^"]+)">[\s]+<div cl[^<]+pic"><img src="(?<grp1>[^"]+)"><\/div>[^<]*<h3>(?<grp2>[^<]+)<\/h3>[\S\s]+?<p>(?<grp3>[^<]+)<\/p>/', $str, $matches);if($isMatched!=0){for($i=0;$i<$isMatched;$i++){$xu=array();for($j=1;$j<=4;$j++){$xu[$j]=$matches[$j][$i];}$rowz=mysql_fetch_row(mysql_query("SELECT count(id) FROM news WHERE url='$xu[1]'"));echo $rowz[0]."--------------";if($rowz[0]==0){$result = "INSERT INTO newsa(title,content,url,pic,time) VALUES('$xu[3]','$xu[4]','$xu[1]','$xu[2]',NOW())";mysql_query($result);echo '该数据抓取成功'."<BR>";}else{echo '该数据已存在'."<BR>";}}}$page--;
}
?>
存储到数据库里
我已经抓了10万条数据了。。。。。。
汽车之家真心不错。。。。。。。。
需要数据的可以留下邮箱
抓取汽车之家新闻资讯做安卓app新闻资讯数据相关推荐
- Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图
Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图 1. 创建项目 2. 使用ImagesPipeline爬取数据 items.py setings.py aut ...
- java 开发用到网络爬虫,抓取汽车之家网站全部数据经历
经历了两个礼拜的折腾,某某知名网站的数据终于到手了.犯罪没被发现这种心情感觉很爽. 说一下我的犯罪经历,之前公司总是抓取某某网站数据,可能是被发现了.某某网站改变了策略.通过各种技术终止了我们的行为, ...
- fiddler抓取夜神模拟中 微信小程序和app的https数据包
1.下载并安装fiddler 2. 配置fiddler 3.手机端设置 3.1 设置wifi网段 3.2 安装证书 3.3 设置证书为信任证书 4. 查看抓包 1.下载并安装fiddler 下载地址 ...
- python爬虫(二十四)爬取汽车之家某品牌图片
爬取汽车之家某品牌图片 需求 爬取汽车之家某品牌的汽车图片 目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html# ...
- 使用scrapy框架爬取汽车之家的图片(高清)
使用scrapy框架爬取汽车之家的图片(高清) 不同于上一篇的地方是,这篇要爬取的是高清图片,而不仅仅是缩略图. 先来看一下要爬取的页面:https://car.autohome.com.cn/pic ...
- python3 爬取汽车之家所有车型数据操作步骤(更新版)
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
- WebMagic爬虫入门教程(三)爬取汽车之家的实例-品牌车系车型结构等
本文使用WebMagic爬取汽车之家的品牌车系车型结构价格能源产地国别等:java代码 备注,只是根据url变化爬取的,没有使用爬取script页面具体的数据,也有反爬机制,知识简单爬取html标签 ...
- PYTHON爬取汽车之家数据
PYTHON爬取汽车之家数据 使用知识 使用BeautifulSoup模块 使用正则表达式 使用到多线程爬取 使用说明 使用前请安装BeauifulSoup 起始页面: https://www.aut ...
- python3实例车代码_python3 爬取汽车之家所有车型数据操作步骤(更新版)
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
最新文章
- CentOS7.4安装PyQt5.6
- BZOJ3233【AHOI2013】找硬币
- java类同步_Java中方法,对象,类的同步
- 备份下ionic升级
- hdu 1074 Doing Homework
- MySQL数据库备份
- 适配ofd签章SES_CertList
- JavaScript 如何导出 Excel
- MATHEMATICS FOR MACHINE LEARNING部分翻译
- 《自己动手写网络爬虫》笔记3-宽度优先遍历互联网
- 面向创新设计的汽车外形曲面三维逆向建模
- python绝对值编程_python求绝对值的三种方法小结
- 微信小程序云开发实现微信小程序订阅消息服务通知教程
- pika在codis中的探索
- 微信人工客服24小时在线电话
- CF1267G Game Relics(期望、背包)
- iOS开发之strip处理framework的调试符号
- 量子计算机多可怕,量子力学有多可怕?
- oracle sql查数据是否有重复
- Kali Linux使用arpspoof命令进行断网攻击(ARP欺骗)
热门文章
- HTML鲜花网页制作,Htlm技术设计鲜花盛开效果动态图
- windows下同一个显卡配置多个CUDA工具包以及它们之间的切换
- 0基础成功转行Python自动化测试工程师,年薪30W+,经验总结都在这(建议收藏)
- PBR之基于图像的光照IBL (Diffuse)
- DOM4j解析XMl中碰到的问题解决
- 【电子通识】为什么IC需要自己的去耦电容?
- 启动Spring项目报错,Springboot启动报错 Disconnected from the target VM 解决过程
- 利用监听器(Listener)实现用户访问记录
- 解决filebeat 报错 Failed to publish events
- peek用法解决多读一行