网络爬虫：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫通用流程：

[1]发送请求
[2]获得页面
[3]解析页面
[4]下载内容
[5]存储内容

#!/usr/bin/python
# coding:utf-8
# 实现一个简单的爬虫，爬取百度贴吧图片
import urllib
import re# 根据url获取网页html内容
def getHtmlContent(url):page = urllib.urlopen(url)return page.read()# 从html中解析出所有jpg图片的url
# 百度贴吧html中jpg图片的url格式为：<img ... src="XXX.jpg" width=...>
def getJPGs(html):# 解析jpg图片url的正则jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width')  # 注：这里最后加一个'width'是为了提高匹配精确度# 解析出jpg的url列表jpgs = re.findall(jpgReg, html)return jpgs# 用图片url下载图片并保存成制定文件名
def downloadJPG(imgUrl, fileName):urllib.urlretrieve(imgUrl, fileName)# 批量下载图片，保存到F盘zdl文件夹
def batchDownloadJPGs(imgUrls, path='F:/zdl/'):# 用于给图片命名count = 1for url in imgUrls:downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))print '正在下载第'+str(count)+'张'count = count + 1# 封装：从百度贴吧网页下载图片
def download(url):html = getHtmlContent(url)jpgs = getJPGs(html)batchDownloadJPGs(jpgs)def main():url = 'http://tieba.baidu.com/p/2256306796'download(url)if __name__ == '__main__':main()

requests方式爬取豆瓣top250电影名

#!/usr/bin/python
# coding:utf-8import requests
from bs4 import BeautifulSouptest_url = 'http://movie.douban.com/top250/'def download_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}data = requests.get(url,headers=headers).contentreturn datamovie_name_list = []
def parse_html(html):soup = BeautifulSoup(html)movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})if movie_list_soup != None:for movie_li in movie_list_soup.find_all('li'):detail = movie_li.find('div', attrs={'class': 'hd'})movie_name = detail.find('span', attrs={'class': 'title'}).getText()movie_name_list.append(movie_name)next_page = soup.find('span', attrs={'class': 'next'}).find('a')if next_page:parse_html(download_page(test_url + next_page['href']))return movie_name_listdef main():handle = parse_html(download_page(test_url))if handle != None:handle = list(handle)for ele in handle:print eleif __name__ == '__main__':main()

成果：

1.请求http://movie.douban.com/top250/
2.获取内容
3.解析内容
4.查找我们要的内容

具体按照自己要的数据，和解析格式爬取。

python最简单的小爬虫相关推荐

如何用python做考勤_【python爬虫教程考勤】如何用Python实现一只小爬虫，爬取拉勾网...
python爬虫入门教程全集千锋官网上有一些是零基础入门学习的很不错如何用Python实现一只小爬虫,爬取拉勾网 1.首先打开拉,并搜索"java",显示出职位信息就是我们的目 ...
Python之简单的网页爬虫开发
Python之简单的网页爬虫开发文章目录 Python之简单的网页爬虫开发下面简单介绍一下request: 简单介绍一下什么是第三方库: 结合requests与正则表达式多线程爬虫多进程库(m ...
python做好的程序如何变成小程序-使用python编写简单的小程序编译成exe跑在win10上...
每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...
利用 Python 实现简单的主题爬虫
利用 Python 实现简单的主题爬虫利用 Python 实现简单的主题爬虫,主要是通过对指定的主题和网站进行深度爬取,获取对应网页的标题和 url ,仅供学习参考. 爬取结果: 实验源 ...
数据挖掘 (三)——基于python的当当网小爬虫
导语本文将实现利用Python爬取并简单地可视化分析当当网的图书数据. 详细的exe.源代码.程序解析等文件请关注公众号行歌知否, 回复关键词当当网小爬虫获取. 更多精彩内容请关注公众号转 ...
利用Python制作简单的小程序：IP查看器
前言说实话,查看电脑的IP,也挺无聊的,但是够简单,所以就从这里开始吧.IP地址在操作系统里就可以直接查看.但是除了IP地址,我们也想通过IP获取地理地址和网络运营商情况.IP地址和地理地址并没有固 ...
简单的小爬虫-漫画爬取
好久没写代码了,快毕业了天天闲着玩游戏刷视频,最近刷七原罪这部动漫的时候,感觉动漫更新太慢,就去追漫画,于是为了方便观看避免广告的干扰,就写了个小爬虫,顺便练习练习python- 由于目前七原 ...
python跟易语言的爬虫_用易语言写个简单的小爬虫其中的关键点
一.请求头 ctrl+L快捷键创建变量变量名类型协议参数类_POST数据类请求头数据文本型协议参数.添加 ("v", "4.52.0") 请求头数 ...
python简单网络爬虫_【Python】简单的网络爬虫
完整代码 # encoding:UTF-8 # from bs4 import BeautifulSoup import urlparse import urllib2 import re impor ...

python最简单的小爬虫

网络爬虫：

爬虫通用流程：

[1]发送请求
[2]获得页面
[3]解析页面
[4]下载内容
[5]存储内容

requests方式爬取豆瓣top250电影名

成果：

1.请求http://movie.douban.com/top250/
2.获取内容
3.解析内容
4.查找我们要的内容

python最简单的小爬虫相关推荐

最新文章

热门文章

python最简单的小爬虫

网络爬虫：

爬虫通用流程：

[1]发送请求 [2]获得页面 [3]解析页面 [4]下载内容 [5]存储内容

requests方式爬取豆瓣top250电影名

成果：

1.请求http://movie.douban.com/top250/ 2.获取内容 3.解析内容 4.查找我们要的内容

python最简单的小爬虫相关推荐

最新文章

热门文章

[1]发送请求
[2]获得页面
[3]解析页面
[4]下载内容
[5]存储内容

1.请求http://movie.douban.com/top250/
2.获取内容
3.解析内容
4.查找我们要的内容