今日看了一下爬虫,写了一个爬取百度搜索页面的小程序。可以在代码中改动搜索词,代码如下:

#coding=utf-8
#python version:2.7
#author:sharpdeepimport urllib
import urllib2
import re
from bs4 import BeautifulSoup as BSbaseUrl = 'http://www.baidu.com/s'
page = 1 #第几页
word = '穿戴设备'  #搜索关键词data = {'wd':word,'pn':str(page-1)+'0','tn':'baidurt','ie':'utf-8','bsst':'1'}
data = urllib.urlencode(data)
url = baseUrl+'?'+datatry:request = urllib2.Request(url)response = urllib2.urlopen(request)
except urllib2.HttpError,e:print e.codeexit(0)
except urllib2.URLError,e:print e.reasonexit(0)html = response.read()
soup = BS(html)
td = soup.find_all(class_='f')for t in td:print t.h3.a.get_text()print t.h3.a['href']font_str = t.find_all('font',attrs={'size':'-1'})[0].get_text()start = 0 #起始realtime = t.find_all('div',attrs={'class':'realtime'})if realtime:realtime_str = realtime[0].get_text()start = len(realtime_str)print realtime_strend = font_str.find('...')print font_str[start:end+3],'\n'

https://github.com/sharpdeep/CrawlerBaidu

【爬虫】爬取百度搜索结果页面相关推荐

  1. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  2. python爬虫爬取百度搜索结果,Bob blog

    前面一篇聊了一些基础的概念,在这篇里可以试一下基础的搜索和收集内容. 当我们在用百度搜索时,我们会看到很多相关的信息.于是我们可以用爬虫来帮助我们搜索和收集相关的信息. 比如我想查看百度收录的stac ...

  3. python爬取百度搜索_使用Python + requests爬取百度搜索页面

    想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...

  4. HttpClient 实现爬取百度搜索结果(自动翻页)

    如果你对HttpClient还不是很了解,建议先移步我的另一篇博客HttpClient4.x之请求示例后再来看这篇博客.我们这里的项目采用maven搭建.在阅读前要对jdk和maven有一定的了解.另 ...

  5. python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中

    目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...

  6. python3爬虫爬取百度贴吧下载图片

    python3爬虫爬取百度贴吧下载图片 学习爬虫时没事做的小练习. 百度对爬虫还是很友好的,在爬取内容方面还是较为容易. 可以方便各位读者去百度贴吧一键下载每个楼主的图片,至于是什么类型的图片,就看你 ...

  7. python爬取百度搜索_Python-Scrapy抓取百度数据并分析

    抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和SQLServer存储数据.使用scrapy框架结合 selenium爬取百度搜索数据,并进行简要的数据的 ...

  8. NLP 获取相似词 - 1.爬取百度搜索结果

    视频链接:https://www.bilibili.com/video/av78674056 一,前言 NLP实际项目要用到,给定一个词,找出它的同义词.相似词.拓展词等. 我思考了下,有: 1,同义 ...

  9. python 爬取百度搜索结果url

    简单的爬取百度搜索结果url 先用了requests库来访问百度,再通过xpath来提取搜索后的结果 import requests from lxml import etreefor i in ra ...

最新文章

  1. 【数据结构】顺序循环队列及其实现(C语言)
  2. [翻译]SQL Server 2005 Analysis Services性能指南
  3. fiddler下如何将HTTPS转换成HTTP
  4. 学校管理系统逻辑关系
  5. 北京内推 | 美团用户平台NLP中心招聘图学习(GNN)方向实习生
  6. 【图文详解】JAVA中的转义字符
  7. JDK 是如何判断两个对象是否相同的?判断的流程是什么?
  8. java中接口文件创建_功能接口简介–在Java 8中重新创建的概念
  9. Qt实现QTextEdit背景透明
  10. RTT添加AD驱动代码
  11. 一步一步写算法(之通用算法的编写)
  12. .net Core使用RabbitMQ
  13. linux--kubectl命令和docker命令
  14. DELL linux 网卡驱动升级
  15. .Net Remoting 入门
  16. Spring Boot 实现在线Web SSH( Java Web版本的Xsehll)
  17. Unity 敌人AI战斗系统
  18. 银河帝国----基地与地球
  19. 类型转换——int转换成char(截短)
  20. 怪盗基德的滑翔翼 线性DP 最长上升子序列

热门文章

  1. iphone刷基带_揭秘:iPhone6S开机白苹果维修、安卓机刷基带分享
  2. 哪一句话,能燃起你的斗志
  3. react 在JXL中嵌入JS表达式
  4. Texpad for Mac v1.9.6 中文版 专业的LaTeX编辑器
  5. 王者荣耀之我的十天(教你如何10天单排上钻石)
  6. 去掉mysql u0000_js对于\u0000的处理
  7. Qt+FFmpeg录屏
  8. 11.判断一个人出生了多少天
  9. Python【王者荣耀】全英雄无水印皮肤
  10. Android游戏:弹弹球(打砖块)