网络爬虫:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫通用流程:

[1]发送请求
    [2]获得页面
    [3]解析页面
    [4]下载内容
    [5]存储内容

#!/usr/bin/python
# coding:utf-8
# 实现一个简单的爬虫,爬取百度贴吧图片
import urllib
import re# 根据url获取网页html内容
def getHtmlContent(url):page = urllib.urlopen(url)return page.read()# 从html中解析出所有jpg图片的url
# 百度贴吧html中jpg图片的url格式为:<img ... src="XXX.jpg" width=...>
def getJPGs(html):# 解析jpg图片url的正则jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width')  # 注:这里最后加一个'width'是为了提高匹配精确度# 解析出jpg的url列表jpgs = re.findall(jpgReg, html)return jpgs# 用图片url下载图片并保存成制定文件名
def downloadJPG(imgUrl, fileName):urllib.urlretrieve(imgUrl, fileName)# 批量下载图片,保存到F盘zdl文件夹
def batchDownloadJPGs(imgUrls, path='F:/zdl/'):# 用于给图片命名count = 1for url in imgUrls:downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))print '正在下载第'+str(count)+'张'count = count + 1# 封装:从百度贴吧网页下载图片
def download(url):html = getHtmlContent(url)jpgs = getJPGs(html)batchDownloadJPGs(jpgs)def main():url = 'http://tieba.baidu.com/p/2256306796'download(url)if __name__ == '__main__':main()

requests方式爬取豆瓣top250电影名

#!/usr/bin/python
# coding:utf-8import requests
from bs4 import BeautifulSouptest_url = 'http://movie.douban.com/top250/'def download_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}data = requests.get(url,headers=headers).contentreturn datamovie_name_list = []
def parse_html(html):soup = BeautifulSoup(html)movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})if movie_list_soup != None:for movie_li in movie_list_soup.find_all('li'):detail = movie_li.find('div', attrs={'class': 'hd'})movie_name = detail.find('span', attrs={'class': 'title'}).getText()movie_name_list.append(movie_name)next_page = soup.find('span', attrs={'class': 'next'}).find('a')if next_page:parse_html(download_page(test_url + next_page['href']))return movie_name_listdef main():handle = parse_html(download_page(test_url))if handle != None:handle = list(handle)for ele in handle:print eleif __name__ == '__main__':main()

成果:

1.请求http://movie.douban.com/top250/
2.获取内容
3.解析内容
4.查找我们要的内容

具体按照自己要的数据,和解析格式爬取。

python最简单的小爬虫相关推荐

  1. 如何用python做考勤_【python爬虫教程 考勤】如何用Python实现一只小爬虫,爬取拉勾网...

    python爬虫入门教程全集 千锋官网上有一些是零基础入门学习的很不错 如何用Python实现一只小爬虫,爬取拉勾网 1.首先打开拉,并搜索"java",显示出职位信息就是我们的目 ...

  2. Python之简单的网页爬虫开发

    Python之简单的网页爬虫开发 文章目录 Python之简单的网页爬虫开发 下面简单介绍一下request: 简单介绍一下什么是第三方库: 结合requests与正则表达式 多线程爬虫 多进程库(m ...

  3. python做好的程序如何变成小程序-使用python编写简单的小程序编译成exe跑在win10上...

    每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...

  4. 利用 Python 实现简单的主题爬虫

    利用 Python 实现简单的主题爬虫   利用 Python 实现简单的主题爬虫,主要是通过对指定的 主题 和 网站 进行深度爬取,获取对应网页的标题和 url ,仅供学习参考. 爬取结果: 实验源 ...

  5. 数据挖掘 (三)——基于python的当当网小爬虫

    导语 本文将实现利用Python爬取并简单地可视化分析当当网的图书数据. 详细的exe.源代码.程序解析等文件请关注公众号 行歌 知否, 回复关键词 当当网小爬虫 获取. 更多精彩内容请关注公众号 转 ...

  6. 利用Python制作简单的小程序:IP查看器

    前言 说实话,查看电脑的IP,也挺无聊的,但是够简单,所以就从这里开始吧.IP地址在操作系统里就可以直接查看.但是除了IP地址,我们也想通过IP获取地理地址和网络运营商情况.IP地址和地理地址并没有固 ...

  7. 简单的小爬虫-漫画爬取

      好久没写代码了,快毕业了天天闲着玩游戏刷视频,最近刷七原罪这部动漫的时候,感觉动漫更新太慢,就去追漫画,于是为了方便观看避免广告的干扰,就写了个小爬虫,顺便练习练习python-   由于目前七原 ...

  8. python跟易语言的爬虫_用易语言写个简单的小爬虫其中的关键点

    一.请求头 ctrl+L快捷键创建变量 变量名 类型 协议参数 类_POST数据类 请求头数据 文本型 协议参数.添加 ("v", "4.52.0") 请求头数 ...

  9. python简单网络爬虫_【Python】简单的网络爬虫

    完整代码 # encoding:UTF-8 # from bs4 import BeautifulSoup import urlparse import urllib2 import re impor ...

最新文章

  1. 自动驾驶测试:MIL、SIL、PIL、HIL
  2. pve rust 能拆家吗_RUST:2020年9月第四周:向上向上再向上!
  3. Linux ubuntu终端sh、bash、shell的联系与区别
  4. 提升语义分割性能的几种方法
  5. 端午小长假--前端基础学起来02与浏览器交互,表单标签
  6. 为内置对象添加原型方法 把局部变量编程全局变量
  7. java 向上抛异常_java throws 向上抛出的概念问题
  8. 初学者也能看懂的 Vue3 源码中那些实用的基础工具函数
  9. 【转】eclipse技巧1
  10. 存量累计超20亿部“宁闲不卖”如何“唤醒”依旧有经济价值的旧手机?
  11. 中高级前端必须了解的--JS中的内存管理
  12. CNN数值初始化——xavier
  13. Ubuntu20编译OpenDDS-3.15
  14. 为什么计算机网络使用数字信号,什么是数字信号
  15. 5款好用的项目管理软件推荐
  16. 我想健康富有聪明怎么导告_想要成为一个快乐而富有成效的程序员吗? 使用心理学的这5种技巧...
  17. JavaScript中文与阿拉伯数字互相转换
  18. 洛谷P4598 解高次方程,数论
  19. 「PAT乙级真题解析」Basic Level 1053 住房空置率 (问题分析+完整步骤+伪代码描述+提交通过代码)
  20. Apache的Order Allow,Deny 配置详解

热门文章

  1. imopen和bwmorph_形态学笔记
  2. python 关联规则 实例_利用python进行课程关联(关联规则)
  3. 亚马逊云科技在中国区域上线Amazon WAF
  4. 数控车削加工中妙用G00及保证尺寸精度的技巧
  5. 无线路由器的信道知识
  6. C语言strlen返回值问题
  7. html+css面试题
  8. 通达信COM接口是什么?
  9. 《自然》杂志:人工智能学会触觉,爱抚亲昵指日可待
  10. PostGIS 空间数据合并