360搜索引擎数据抓取

BeatifulSoup网页解析

#-*- coding:utf-8 -*-
#Filename:360搜索引擎
#Author:Guan
#Datetime:2018/11/30import requests
from bs4 import  BeautifulSoup
import json
import timedef get_html(url):headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36","Cookie":"Q=u%3D360H3096670450%26n%3D%26le%3D%26m%3DZGZmWGWOWGWOWGWOWGWOWGWOZwHl%26qid%3D3096670450%26im%3D1_t01c37c6928fc149034%26src%3D360index%26t%3D1; T=s%3Dccd759892e1b135a3419e01e23177efa%26t%3D1542679014%26lm%3D%26lf%3D%26sk%3D34a25b6ef06eb6640f916a7ac7dd02ba%26mt%3D1542679014%26rc%3D%26v%3D2.0%26a%3D1; QiHooGUID=45A4F6333A9E13202FF582D464E8CB16.1543578963037; __guid=15484592.4007070523124616700.1543578964544.7502; webp=1; stc_ls_sohome=RGzW2OYRKV!3TRXVhIMSWA; __huid=11ZSgWXOw0Wun4Is5XEqKzQ7U4mjrXUxDivKDEINKN3pU%3D; gtHuid=1; dpr=1.25; count=3; _pp_wd=1; erules=p1-14%7Cecr-3%7Cp4-14%7Cp2-5%7Cp3-6"}response=requests.get(url=url,headers=headers).content.decode()# print(response)return responsedef get_cont(html):soup = BeautifulSoup(html,'lxml')url_list = soup.select('.res-list')new_list  =[]#爬虫规则for i in url_list:new_dict={}new_dict['title'] = i.find_all('h3')[0].text.strip()cont2 = i.select('div[class="res-rich so-rich-news clearfix"]')for j in cont2:# print(j.text.strip())new_dict['cont_two'] = j.text.strip()new_dict['cont_one'] = i.find_all('p')[0].text.strip()new_list.append(new_dict)# print(new_list)for str in new_list:new_cont = json.dumps(str,ensure_ascii=False)print(new_cont)with open('D:\\公司文件\\.PyCharmCE2018.2\\config\\scratches\\拓展\\360引擎\\360搜索引擎数据','a',encoding='utf-8')as f:f.write(new_cont+'\n')if __name__ == '__main__':#取车型file = open('D:\\公司文件\\.PyCharmCE2018.2\\config\\scratches\\拓展\\360引擎\\360车型配置文件')content = file.readlines()chexing = []for i in content:new_chexing = i.split(',')for j in new_chexing:chexing.append(j)#翻页for i in range(1,90):for j in chexing:url = 'https://www.so.com/s?q=%s'%j+'&pn=%d'%iprint('正在获取%s车型的%d页的数据'%(j,i))html=get_html(url)time.sleep(2)get_cont(html)print('代码执行完毕')

360搜索引擎数据抓取相关推荐

关于Python爬虫原理和数据抓取1.1
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据 ...
搜索引擎蜘蛛抓取主要依据用户的四种行为
网站想要在搜索引擎中拥有席位就必须吸引蜘蛛的抓取,而面对庞大的互联网来说,蜘蛛是没办法保证它的爬行可以遍布整个互联网数据的,因此怎样吸引蜘蛛的抓取也显得尤为重要.那么在与日俱增的互联网数据中蜘蛛是根据 ...
python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
网页数据抓取-网页实时数据抓取软件
网页数据抓取,随着社会的发展,互联网的普及,不管是企业还是个人都意识到数据的重要性.今天给大家分享一款免费的网页数据抓取软件.只要点点鼠标就能轻松采集你想要的内容不管是导出还是自动发布都支持!详细参考 ...
李沐【实用机器学习】1.3网页数据抓取
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.数据抓取工具二.实例解析总结前言网页数据抓取目标:在一个网站里面感兴趣的数据抓取出来数据特点:噪点较多, ...
[nodejs,expressjs,angularjs2] LOL英雄列表数据抓取及查询显示应用
新手练习,尝试使用angularjs2 [angularjs2 数据绑定,监听数据变化自动修改相应dom值,非常方便好用,但与传统js(jquery)的使用方法会很不同,Dom操作也不太习惯] 应用效 ...
有哪些好用的互联网数据抓取，数据采集，页面解析工具？
1. 互联网刚兴起的时候,数据索引是个大问题,当时Yahoo的分类页面着实火了一阵子. 2.随着互联网数据量越来越大,Google,百度等搜索引擎火了起来.这个阶段,几乎没有比搜索引擎更火的技术了,连 ...
爬虫（爬虫原理与数据抓取）
爬虫(爬虫原理与数据抓取) 通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重 ...
搜索引擎蜘蛛抓取配额是什么？
一月份时,Google新的SEO代言人Gary Illyes在Google官方博客上发了一篇帖子:What Crawl Budget Means for Googlebot,讨论了搜索引擎蜘蛛抓取份额 ...

360搜索引擎数据抓取

BeatifulSoup网页解析

360搜索引擎数据抓取相关推荐

最新文章

热门文章