scrapy抓取dmoz内容

1.新建一个项目

scrapy startproject dmozspider

会在当前目录创建一个dmozspider的文件夹，包含一系列文件
scrapy.cfg：项目的配置文件
tutorial/：项目的Python模块，将会从这里引用代码
tutorial/items.py：项目的items文件
tutorial/pipelines.py：项目的pipelines文件
tutorial/settings.py：项目的设置文件
tutorial/spiders/：存储爬虫的目录

2.修改tutorial目录下的items.py文件，在原本的class后面添加我们自己的class。
因为要抓dmoz.org网站的内容，所以我们可以将其命名为DmozItem：
代码如下

import scrapy

class TutorialItem(scrapy.Item):    # define the fields for your item here like:    # name = scrapy.Field()    pass

class DmozItem(scrapy.Item):      title = scrapy.Field()      link = scrapy.Field()     desc = scrapy.Field()

3.制作爬虫
第一只爬虫，命名为dmoz_spider.py，保存在tutorial\spiders目录下
dmoz_spider.py代码如下：

from scrapy.spider import Spider  from scrapy.selector import Selector   from dmozspider.items import DmozItem 

class DmozSpider(Spider):      name = "dmoz"      allowed_domains = ["dmoz.org"]      start_urls = [          "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",          "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"      ]  

    def parse(self, response):          sel = Selector(response)          sites = sel.xpath('//div[@class="title-and-desc"]')         items=[]        for site in sites:            item=DmozItem()            item['title']=site.xpath('a/div/text()').extract()             item['link']=site.xpath('a/@href').extract()              item['desc']=site.xpath('div/text()').extract()             title =item['title']            link = item['link']             desc = item['desc']            items.append(item)        return items

4.进入到dmozspider目录，运行

scrapy crawl dmoz

5.存储内容（Pipeline）
保存信息的最简单的方法是通过Feed exports，主要有四种：JSON，JSON lines，CSV，XML。
我们将结果用最常用的JSON导出，命令如下：

scrapy crawl dmoz -o items.json -t json

参考网址：http://blog.csdn.net/pleasecallmewhy/article/details/19642329
http://doc.scrapy.org/en/latest/topics/selectors.html#topics-selectors

scrapy抓取dmoz内容相关推荐

python scrapy 抓取脚本之家文章(scrapy 入门使用简介)
老早之前就听说过python的scrapy.这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫.使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就 ...
python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据
前言本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中思路观察虎牙网站后确认 ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...
Scrapy抓取豆瓣电影
零.说明这个例子爬取了豆瓣top250电影,并把这些电影的某些属性保存到mysql中,具体的url是这个:https://movie.douban.com/top250. 一.环境 python3. ...
逆向爬虫18 Scrapy抓取全站数据和Redis入门
逆向爬虫18 Scrapy抓取全站数据和Redis入门一.全站数据抓取 1. 什么是抓取全站数据? 我们曾经在过猪八戒,图片之家,BOSS直聘等网站,利用网站官方提供的搜索功能,搜索指定关键词的内容 ...
使用scrapy抓取传智播客c/c++讲师信息
实验一.scrapy爬虫一.实验目的 1.数据抓取之网络爬虫. 2.scrapy的使用方法,能使用scrapy抓取网页数据. 二.能力图谱三.实验内容 1.内容:爬取传智播客C/C++讲师的姓名. ...
Python进阶之Scrapy抓取苏宁图书数据
Python进阶之Scrapy抓取苏宁图书数据 1. 需求 2. 代码示例: 创建项目 start.py settings.py iterms.py snb.py pipelines.py 3. 注意 ...
scrapy抓取苏宁所有图书并保存到数据库
scrapy抓取苏宁所有图书采用mongodb存储爬取图书数据,爬取苏宁全网图书信息(图书名,图书所属详细分类商店,价格) 注意需要根据苏宁图书网页分类建立相应分类图书详情页每页有60条图书数据 ...
apache httpclient 工具类_Java教程分享使用HttpClient抓取页面内容
Java教程分享使用HttpClient抓取页面内容,使用HttpClient工具来发送Http请求 1.简介 HttpClient 是 Apache Jakarta Common 下的子项目,用来提 ...

scrapy抓取dmoz内容

scrapy抓取dmoz内容相关推荐

最新文章

热门文章