spiders的使用
first_scrapy文件夹下的items.py:
import scrapy
class FirstScrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
url = scrapy.Field()
desc = scrapy.Field()
spiders文件夹下的first_spider.py:
import scrapy
from first_scrapy.items import FirstScrapyItem
class firstSpider(scrapy.Spider):
name = "first"
#bu zhong yao
allowed_domains = ["blog.eastmoney.com"]
start_urls = [
"http://blog.eastmoney.com/xuedaolaozu",
"http://blog.eastmoney.com/sg15837988958sg"
]
#东方财富网站
def parse(self, response):
#filename = response.url.split("/")[-1]
#print 'Curent URL => ', filename
#with open(filename, 'wb') as f:
# f.write(response.body)
for sel in response.xpath('//div[@class="articleTit"]/span[@class="title"]'):
item = FirstScrapyItem()
#item["name"] = sel.xpath('a/text()').extract().encode('utf-8')
item["name"] = sel.xpath('a/text()').extract()
item["url"]= sel.xpath('a/@href').extract()
#wei kong
item["desc"] = sel.xpath('text()').extract()
yield item
spiders的使用相关推荐
- Webbots、Spiders和Screen Scrapers:技术解析与应用实践(原书第2版)
<Webbots.Spiders和Screen Scrapers:技术解析与应用实践(原书第2版)> 基本信息 原书名: Webbots,Spiders,and Screen Scrape ...
- 爬虫(十二):scrapy中spiders的用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以初始的URL初始化Request,并设 ...
- 5.spiders(文件夹)
一.基础知识 1. Spiders 文件夹 用于编写爬虫规则,可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则,所以建议一个爬虫规则用一个文件表示,这样 ...
- python scrapy同时执行spiders多个爬虫
假设spiders文件夹下多个文件: name.py name = 'name' name1.py name = 'name1' name2.py name = 'name2' . ...
- Python爬虫从入门到放弃(十五)之 Scrapy框架中Spiders用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以初始的URL初始化Request,并设 ...
- Scrapy源码分析-Spiders爬虫中文文档(一)
Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页( ...
- Codefoces 436 B. Om Nom and Spiders
纯属练习JAVA.... B. Om Nom and Spiders time limit per test 3 seconds memory limit per test 256 megabytes ...
- Scrapy 框架之 ——crawl Spiders
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u012017783/article/details/76169807 </div>< ...
- Scrapy框架----- Spiders
Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及 ...
- CF526G Spiders Evil Plan(树上最优性问题、倍增+线段树)
Description 一棵 n 个结点的树,有正边权. 用 y 条链覆盖这棵树,满足: 所有链连通(有重点即算作相连) 点 x 被覆盖 被覆盖的边的权值和尽可能大 q 次给出 x, y,询问最大边权 ...
最新文章
- 谁登录了你的linux
- CentOS 7下启动、关闭、重启、查看MySQL服务
- Tomcat8.0 JDK1.8 的详细配置 Win10
- 本地连接的图标要等很长时间才出来
- 在html使用a标签 直接下载图片 不通过后台实现直接下载
- Codeforces Round #736 (Div. 1Div2)
- 开发工程师需要知道的网站
- [2018.07.14 T3] B君的第六题
- msp430c语言编程指南,MSP430单片机C语言编程.doc
- 如何在万网注册域名及域名解析?
- 在局域网内怎样使两台计算机共享,怎么使两台电脑共享数据?
- 计算机图形学——反走样技术
- Kyrie Irving邀请粉丝加入Lineage Logistics的Share A Meal运动,帮助受COVID-19疫情影响的人们
- php满一百人随机发放奖品,php按照奖品百分比随机抽奖 阿星小栈
- 大数据部门的作用与大数据工程师的工作
- Html5 1.4 figure和figcaption的实例
- Android app设置字体大小和字体样式不随系统设置改变而改变
- redis哨兵模式(docker)
- 《计算机网络》笔记-第3章运输层
- 车辆运动控制(4)考虑道路曲率和轮胎滑移