2019独角兽企业重金招聘Python工程师标准>>>

准备工作

  • Python
  • scrapy
  • IDE(我选择使用Pycharm)

虚拟环境

  • tianshl@T:~/workspace$ mkdir reptile
  • tianshl@T:~/workspace$ cd reptile/
  • tianshl@T:~/workspace/reptile$ virtualenv venv
  • tianshl@T:~/workspace/reptile$ source venv/bin/activate

安装scrapy

  • (venv) tianshl@T:~/workspace/reptile$ pip install scrapy

创建一个工程,例如:reptile

  • (venv) tianshl@T:~/workspace/reptile$ scrapy startproject reptile

此条指令会得到scrapy创建的一个目录结构

|__  reptile/|__  reptile/|__  spiders/|__  __init__.py|__  __init__.py|__  items.py|__  middlewares.py|__  pipelines.py|__  settings.py|__ scrapy.cfg

编写爬虫脚本

  • 以锐聘学院首页推荐课程为例
  • 在spiders目录下创建mooc.py
  • 编辑mooc.py
# -*- coding: utf-8 -*-import scrapy
from scrapy import Selectorclass MooCollege(scrapy.Spider):# 爬虫的名称name = 'MooCollege'# 爬取的入口(锐聘学院)start_urls = ['http://www.moocollege.cn/']# 域名host = 'http://www.moocollege.cn'def parse(self, response):ele = Selector(response)# 以推荐课程为例,获取课程名称和课程链接courses = ele.xpath(".//*[@id='recommend_courses_show']/a")for course in courses:print '课程名称: ', course.xpath('div[2]/div/text()').extract_first()print '课程链接', '{}{}'.format(self.host, course.xpath('@href').extract_first())

执行爬虫脚本

  • (venv) tianshl@T:~/workspace/reptile$ cd reptile/
  • (venv) tianshl@T:~/workspace/reptile/reptile$ scrapy crawl MooCollege

运行结果如下

课程名称:  Java Web技术及应用
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/S003/Always/about?course_base=56&course_package=-1
课程名称:  Unity3D基础入门
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/G001/Always/about?course_base=46&course_package=-1
课程名称:  UI入门:零基础时尚APP界面设计
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/U001/Always/about?course_base=148&course_package=-1

至此,一个简单的爬虫就写好了



数据永久化

  • 使用Pipeline可以将数据保存在文件或数据库中

转载于:https://my.oschina.net/tianshl/blog/852035

Python爬虫scrapy相关推荐

  1. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

  2. Python爬虫——Scrapy 的基本使用

    文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...

  3. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  4. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

  5. Python爬虫—Scrapy框架—Win10下载安装

    Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...

  6. Python爬虫——Scrapy 简介和安装

    文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...

  7. Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider

    Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider 写在前面 初探Crawl Spider 创建Crawl Spider项目 对比Basic与Crawl ...

  8. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  9. 安装python爬虫scrapy踩过的那些坑和编程外的思考

    '转载地址:http://www.cnblogs.com/rwxwsblog/p/4557123.html' 这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬 ...

  10. python爬虫scrapy步骤mac系统_Mac中Python 3环境下安装scrapy的方法教程

    前言 最近抽空想学习一下python的爬虫框架scrapy,在mac下安装的时候遇到了问题,逐一解决了问题,分享一下,话不多说了,来一起看看详细的介绍吧. 步骤如下: # 在Mac上Python3环境 ...

最新文章

  1. 才一年,智能车就不再是新势力专利!
  2. UNIX系统编程(1)
  3. Java《剑指Offer》面试题2:替换空格
  4. ADO.NET Entity Framework 入门示例向导(附Demo程序下载)
  5. 2016/8/18 Linux常用命令 :目录、文件处理命令
  6. 先序、中序确定二叉树
  7. java下载图片到手机相册_Unity保存图片到Android手机且更新相册
  8. 预告|CVPR 2021 论文分享会日程公布!与计算机视觉领域学者一起收获“立体”参会体验...
  9. 吐血推荐珍藏的Chrome插件
  10. 一步教会fpga数字信号处理
  11. 2022年,美股将要上市的巨头能否逃过破发命运?
  12. PDF技术(三)-Java实现图片转PDF文件
  13. 4款口碑爆棚的电脑软件,每一款都值得拥有
  14. Anaconda+Pycharm下载及环境配置
  15. 使用MATLAB绘制Gazebo中的仿真小车的运动轨迹
  16. 性能测试能力提升最终篇-全链路压测
  17. 【51nod】2059 上台阶 easy
  18. python3中 operator模块用法介绍
  19. 幅值单位是v吗_振幅的单位是什么?急求
  20. 深入理解计算机系统_第二章_信息的表示和处理

热门文章

  1. 程序员炒股,如何计算股票投资组合的风险和收益
  2. 基于python nlp PyTorch智能对联生成系统 附完整代码 毕业设计
  3. 联想r720安装固态_分享联想R720重装Win10系统无法识别固态硬盘的解决方案
  4. git推送代码一直报错Permission denied, please try again怎么解决?
  5. Android 设置布局背景渐变色
  6. 【网络技术联盟站】网络工程师深入篇之网络基础知识
  7. Python——深入理解urllib、urllib2及requests(requests不建议使用?)
  8. 视频与图片检索中的多模态语义匹配模型 ——原理、启示、应用与展望
  9. Invivoscribe在其位于美国、欧洲和中国的参考实验室首次推出12色流式细胞计数功能
  10. 雷神FFmpeg + SDL 的视频播放器修正版