spiders的使用

first_scrapy文件夹下的items.py:

import scrapy

class FirstScrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
url = scrapy.Field()

desc = scrapy.Field()

spiders文件夹下的first_spider.py:

import scrapy
from first_scrapy.items import FirstScrapyItem

class firstSpider(scrapy.Spider):
name = "first"
#bu zhong yao
allowed_domains = ["blog.eastmoney.com"]
start_urls = [
"http://blog.eastmoney.com/xuedaolaozu",
"http://blog.eastmoney.com/sg15837988958sg"

]

#东方财富网站

def parse(self, response):
#filename = response.url.split("/")[-1]
#print 'Curent URL => ', filename
#with open(filename, 'wb') as f:
# f.write(response.body)

for sel in response.xpath('//div[@class="articleTit"]/span[@class="title"]'):
item = FirstScrapyItem()
#item["name"] = sel.xpath('a/text()').extract().encode('utf-8')
item["name"] = sel.xpath('a/text()').extract()
item["url"]= sel.xpath('a/@href').extract()
#wei kong
item["desc"] = sel.xpath('text()').extract()
yield item

spiders的使用相关推荐

Webbots、Spiders和Screen Scrapers:技术解析与应用实践(原书第2版)
<Webbots.Spiders和Screen Scrapers:技术解析与应用实践(原书第2版)> 基本信息原书名: Webbots,Spiders,and Screen Scrape ...
爬虫（十二）：scrapy中spiders的用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request,并设 ...
5.spiders(文件夹)
一.基础知识 1. Spiders 文件夹用于编写爬虫规则,可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则,所以建议一个爬虫规则用一个文件表示,这样 ...
python scrapy同时执行spiders多个爬虫
假设spiders文件夹下多个文件: name.py name = 'name' name1.py name = 'name1' name2.py name = 'name2' . ...
Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request,并设 ...
Scrapy源码分析-Spiders爬虫中文文档（一）
Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页( ...
Codefoces 436 B. Om Nom and Spiders
纯属练习JAVA.... B. Om Nom and Spiders time limit per test 3 seconds memory limit per test 256 megabytes ...
Scrapy 框架之 ——crawl Spiders
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u012017783/article/details/76169807 </div>< ...
Scrapy框架----- Spiders
Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及 ...
CF526G Spiders Evil Plan(树上最优性问题、倍增+线段树)
Description 一棵 n 个结点的树,有正边权. 用 y 条链覆盖这棵树,满足: 所有链连通(有重点即算作相连) 点 x 被覆盖被覆盖的边的权值和尽可能大 q 次给出 x, y,询问最大边权 ...

spiders的使用

spiders的使用相关推荐

最新文章

热门文章