【爬虫】爬取百度搜索结果页面
今日看了一下爬虫,写了一个爬取百度搜索页面的小程序。可以在代码中改动搜索词,代码如下:
#coding=utf-8
#python version:2.7
#author:sharpdeepimport urllib
import urllib2
import re
from bs4 import BeautifulSoup as BSbaseUrl = 'http://www.baidu.com/s'
page = 1 #第几页
word = '穿戴设备' #搜索关键词data = {'wd':word,'pn':str(page-1)+'0','tn':'baidurt','ie':'utf-8','bsst':'1'}
data = urllib.urlencode(data)
url = baseUrl+'?'+datatry:request = urllib2.Request(url)response = urllib2.urlopen(request)
except urllib2.HttpError,e:print e.codeexit(0)
except urllib2.URLError,e:print e.reasonexit(0)html = response.read()
soup = BS(html)
td = soup.find_all(class_='f')for t in td:print t.h3.a.get_text()print t.h3.a['href']font_str = t.find_all('font',attrs={'size':'-1'})[0].get_text()start = 0 #起始realtime = t.find_all('div',attrs={'class':'realtime'})if realtime:realtime_str = realtime[0].get_text()start = len(realtime_str)print realtime_strend = font_str.find('...')print font_str[start:end+3],'\n'
https://github.com/sharpdeep/CrawlerBaidu
【爬虫】爬取百度搜索结果页面相关推荐
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫爬取百度搜索结果,Bob blog
前面一篇聊了一些基础的概念,在这篇里可以试一下基础的搜索和收集内容. 当我们在用百度搜索时,我们会看到很多相关的信息.于是我们可以用爬虫来帮助我们搜索和收集相关的信息. 比如我想查看百度收录的stac ...
- python爬取百度搜索_使用Python + requests爬取百度搜索页面
想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...
- HttpClient 实现爬取百度搜索结果(自动翻页)
如果你对HttpClient还不是很了解,建议先移步我的另一篇博客HttpClient4.x之请求示例后再来看这篇博客.我们这里的项目采用maven搭建.在阅读前要对jdk和maven有一定的了解.另 ...
- python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...
- python3爬虫爬取百度贴吧下载图片
python3爬虫爬取百度贴吧下载图片 学习爬虫时没事做的小练习. 百度对爬虫还是很友好的,在爬取内容方面还是较为容易. 可以方便各位读者去百度贴吧一键下载每个楼主的图片,至于是什么类型的图片,就看你 ...
- python爬取百度搜索_Python-Scrapy抓取百度数据并分析
抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和SQLServer存储数据.使用scrapy框架结合 selenium爬取百度搜索数据,并进行简要的数据的 ...
- NLP 获取相似词 - 1.爬取百度搜索结果
视频链接:https://www.bilibili.com/video/av78674056 一,前言 NLP实际项目要用到,给定一个词,找出它的同义词.相似词.拓展词等. 我思考了下,有: 1,同义 ...
- python 爬取百度搜索结果url
简单的爬取百度搜索结果url 先用了requests库来访问百度,再通过xpath来提取搜索后的结果 import requests from lxml import etreefor i in ra ...
最新文章
- 【数据结构】顺序循环队列及其实现(C语言)
- [翻译]SQL Server 2005 Analysis Services性能指南
- fiddler下如何将HTTPS转换成HTTP
- 学校管理系统逻辑关系
- 北京内推 | 美团用户平台NLP中心招聘图学习(GNN)方向实习生
- 【图文详解】JAVA中的转义字符
- JDK 是如何判断两个对象是否相同的?判断的流程是什么?
- java中接口文件创建_功能接口简介–在Java 8中重新创建的概念
- Qt实现QTextEdit背景透明
- RTT添加AD驱动代码
- 一步一步写算法(之通用算法的编写)
- .net Core使用RabbitMQ
- linux--kubectl命令和docker命令
- DELL linux 网卡驱动升级
- .Net Remoting 入门
- Spring Boot 实现在线Web SSH( Java Web版本的Xsehll)
- Unity 敌人AI战斗系统
- 银河帝国----基地与地球
- 类型转换——int转换成char(截短)
- 怪盗基德的滑翔翼 线性DP 最长上升子序列