BeatifulSoup网页解析

#-*- coding:utf-8 -*-
#Filename:360搜索引擎
#Author:Guan
#Datetime:2018/11/30import requests
from bs4 import  BeautifulSoup
import json
import timedef get_html(url):headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36","Cookie":"Q=u%3D360H3096670450%26n%3D%26le%3D%26m%3DZGZmWGWOWGWOWGWOWGWOWGWOZwHl%26qid%3D3096670450%26im%3D1_t01c37c6928fc149034%26src%3D360index%26t%3D1; T=s%3Dccd759892e1b135a3419e01e23177efa%26t%3D1542679014%26lm%3D%26lf%3D%26sk%3D34a25b6ef06eb6640f916a7ac7dd02ba%26mt%3D1542679014%26rc%3D%26v%3D2.0%26a%3D1; QiHooGUID=45A4F6333A9E13202FF582D464E8CB16.1543578963037; __guid=15484592.4007070523124616700.1543578964544.7502; webp=1; stc_ls_sohome=RGzW2OYRKV!3TRXVhIMSWA; __huid=11ZSgWXOw0Wun4Is5XEqKzQ7U4mjrXUxDivKDEINKN3pU%3D; gtHuid=1; dpr=1.25; count=3; _pp_wd=1; erules=p1-14%7Cecr-3%7Cp4-14%7Cp2-5%7Cp3-6"}response=requests.get(url=url,headers=headers).content.decode()# print(response)return responsedef get_cont(html):soup = BeautifulSoup(html,'lxml')url_list = soup.select('.res-list')new_list  =[]#爬虫规则for i in url_list:new_dict={}new_dict['title'] = i.find_all('h3')[0].text.strip()cont2 = i.select('div[class="res-rich so-rich-news clearfix"]')for j in cont2:# print(j.text.strip())new_dict['cont_two'] = j.text.strip()new_dict['cont_one'] = i.find_all('p')[0].text.strip()new_list.append(new_dict)# print(new_list)for str in new_list:new_cont = json.dumps(str,ensure_ascii=False)print(new_cont)with open('D:\\公司文件\\.PyCharmCE2018.2\\config\\scratches\\拓展\\360引擎\\360搜索引擎数据','a',encoding='utf-8')as f:f.write(new_cont+'\n')if __name__ == '__main__':#取车型file = open('D:\\公司文件\\.PyCharmCE2018.2\\config\\scratches\\拓展\\360引擎\\360车型配置文件')content = file.readlines()chexing = []for i in content:new_chexing = i.split(',')for j in new_chexing:chexing.append(j)#翻页for i in range(1,90):for j in chexing:url = 'https://www.so.com/s?q=%s'%j+'&pn=%d'%iprint('正在获取%s车型的%d页的数据'%(j,i))html=get_html(url)time.sleep(2)get_cont(html)print('代码执行完毕')

360搜索引擎数据抓取相关推荐

  1. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  2. 搜索引擎蜘蛛抓取主要依据用户的四种行为

    网站想要在搜索引擎中拥有席位就必须吸引蜘蛛的抓取,而面对庞大的互联网来说,蜘蛛是没办法保证它的爬行可以遍布整个互联网数据的,因此怎样吸引蜘蛛的抓取也显得尤为重要.那么在与日俱增的互联网数据中蜘蛛是根据 ...

  3. python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

  4. 网页数据抓取-网页实时数据抓取软件

    网页数据抓取,随着社会的发展,互联网的普及,不管是企业还是个人都意识到数据的重要性.今天给大家分享一款免费的网页数据抓取软件.只要点点鼠标就能轻松采集你想要的内容不管是导出还是自动发布都支持!详细参考 ...

  5. 李沐【实用机器学习】1.3网页数据抓取

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.数据抓取工具 二.实例解析 总结 前言 网页数据抓取目标:在一个网站里面感兴趣的数据抓取出来 数据特点:噪点较多, ...

  6. [nodejs,expressjs,angularjs2] LOL英雄列表数据抓取及查询显示应用

    新手练习,尝试使用angularjs2 [angularjs2 数据绑定,监听数据变化自动修改相应dom值,非常方便好用,但与传统js(jquery)的使用方法会很不同,Dom操作也不太习惯] 应用效 ...

  7. 有哪些好用的互联网数据抓取,数据采集,页面解析工具?

    1. 互联网刚兴起的时候,数据索引是个大问题,当时Yahoo的分类页面着实火了一阵子. 2.随着互联网数据量越来越大,Google,百度等搜索引擎火了起来.这个阶段,几乎没有比搜索引擎更火的技术了,连 ...

  8. 爬虫(爬虫原理与数据抓取)

    爬虫(爬虫原理与数据抓取) 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu.Google.Yahoo等)的重 ...

  9. 搜索引擎蜘蛛抓取配额是什么?

    一月份时,Google新的SEO代言人Gary Illyes在Google官方博客上发了一篇帖子:What Crawl Budget Means for Googlebot,讨论了搜索引擎蜘蛛抓取份额 ...

最新文章

  1. html自动广告业代码,html+javascript实现广告窗自由浮动
  2. 如何融入到更积极的环境,促进技术提升
  3. 分布式ID自增算法 Snowflake
  4. [20170310]关于在线日志与归档3.txt
  5. Java学习之FileInputStream与FileReader的区别
  6. 天津大学计算机专硕_「20考研」计算机考研专业课变动汇总
  7. 驾考一点通维语版_驾校一点通维语版2019下载_驾校一点通维语版下载 v7.6.1 - 87G手游网...
  8. 高尔顿钉板与二项分布
  9. 数据库--根据日期查询
  10. 英语语法总结_02 名词词组与代名词
  11. 百练2706 麦森数
  12. mysql 计算自然周
  13. 配置SSH服务远程连接空闲超时退出时间(包括SSH无法登录、登录缓慢)
  14. android刷机工具推荐,刷机也能如此轻松 Android一键刷机工具
  15. 嵌入式Web项目(一)——Web服务器的引入
  16. matlab工程应用基础,Matlab工程应用基础_2_214090
  17. linux 文件系统被占用,解决umount的时候文件系统被占用的两个命令 fuser 和 lsof
  18. Java开发在线报名系统_单独招生在线报名系统设计和实现.doc
  19. 京东数科区块链ABS解决方案受国际权威研究机构认可
  20. 兆芯服务器芯片,兆芯 ZX-200 IO扩展芯片

热门文章

  1. AD画原理图去除网格线
  2. 解决捕获海康摄像头图像时报错:NET_DVR_GetLastError()= 4
  3. shell 对字符串去重并排序
  4. sqli-labs系列——第一关
  5. 聊一下测试工程师的面试与招聘【转载自安大叔】
  6. 与网络相连的计算机称为什么,网络把许多计算机连接在一起,而互联网则把许多( )通过路由器连接在一起。与网络相连的计算机常称为( )。...
  7. FpML to QuantLib 外滙美式選擇權估值
  8. 数据库概论之模式分解理论(理解简单明了)
  9. 当型循环和直到型循环
  10. 大家来说说大数据时代与真正跨平台应用,如何结合的更好