first_scrapy文件夹下的items.py:

import scrapy

class FirstScrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    url = scrapy.Field()

desc = scrapy.Field()

spiders文件夹下的first_spider.py:

import scrapy
from first_scrapy.items import FirstScrapyItem

class firstSpider(scrapy.Spider):
    name = "first"
#bu zhong yao
    allowed_domains = ["blog.eastmoney.com"]
    start_urls = [
        "http://blog.eastmoney.com/xuedaolaozu",
"http://blog.eastmoney.com/sg15837988958sg"

]

#东方财富网站

def parse(self, response):
        #filename = response.url.split("/")[-1]
        #print 'Curent URL => ', filename
        #with open(filename, 'wb') as f:
        #   f.write(response.body)

for sel in response.xpath('//div[@class="articleTit"]/span[@class="title"]'):
item = FirstScrapyItem()
            #item["name"] = sel.xpath('a/text()').extract().encode('utf-8')
item["name"] = sel.xpath('a/text()').extract()
            item["url"]= sel.xpath('a/@href').extract()
  #wei kong
            item["desc"] = sel.xpath('text()').extract()
yield item

spiders的使用相关推荐

  1. Webbots、Spiders和Screen Scrapers:技术解析与应用实践(原书第2版)

    <Webbots.Spiders和Screen Scrapers:技术解析与应用实践(原书第2版)> 基本信息 原书名: Webbots,Spiders,and Screen Scrape ...

  2. 爬虫(十二):scrapy中spiders的用法

    Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以初始的URL初始化Request,并设 ...

  3. 5.spiders(文件夹)

    一.基础知识 1. Spiders 文件夹   用于编写爬虫规则,可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则,所以建议一个爬虫规则用一个文件表示,这样 ...

  4. python scrapy同时执行spiders多个爬虫

    假设spiders文件夹下多个文件: name.py     name = 'name' name1.py    name = 'name1' name2.py    name = 'name2' . ...

  5. Python爬虫从入门到放弃(十五)之 Scrapy框架中Spiders用法

    Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以初始的URL初始化Request,并设 ...

  6. Scrapy源码分析-Spiders爬虫中文文档(一)

    Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页( ...

  7. Codefoces 436 B. Om Nom and Spiders

    纯属练习JAVA.... B. Om Nom and Spiders time limit per test 3 seconds memory limit per test 256 megabytes ...

  8. Scrapy 框架之 ——crawl Spiders

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u012017783/article/details/76169807 </div>< ...

  9. Scrapy框架----- Spiders

    Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及 ...

  10. CF526G Spiders Evil Plan(树上最优性问题、倍增+线段树)

    Description 一棵 n 个结点的树,有正边权. 用 y 条链覆盖这棵树,满足: 所有链连通(有重点即算作相连) 点 x 被覆盖 被覆盖的边的权值和尽可能大 q 次给出 x, y,询问最大边权 ...

最新文章

  1. 谁登录了你的linux
  2. CentOS 7下启动、关闭、重启、查看MySQL服务
  3. Tomcat8.0 JDK1.8 的详细配置 Win10
  4. 本地连接的图标要等很长时间才出来
  5. 在html使用a标签 直接下载图片 不通过后台实现直接下载
  6. Codeforces Round #736 (Div. 1Div2)
  7. 开发工程师需要知道的网站
  8. [2018.07.14 T3] B君的第六题
  9. msp430c语言编程指南,MSP430单片机C语言编程.doc
  10. 如何在万网注册域名及域名解析?
  11. 在局域网内怎样使两台计算机共享,怎么使两台电脑共享数据?
  12. 计算机图形学——反走样技术
  13. Kyrie Irving邀请粉丝加入Lineage Logistics的Share A Meal运动,帮助受COVID-19疫情影响的人们
  14. php满一百人随机发放奖品,php按照奖品百分比随机抽奖 阿星小栈
  15. 大数据部门的作用与大数据工程师的工作
  16. Html5 1.4 figure和figcaption的实例
  17. Android app设置字体大小和字体样式不随系统设置改变而改变
  18. redis哨兵模式(docker)
  19. 《计算机网络》笔记-第3章运输层
  20. 车辆运动控制(4)考虑道路曲率和轮胎滑移

热门文章

  1. CC2640R2F学习笔记二:昇润科技开发资料阅读
  2. html网页字体颜色代码大全
  3. 做项目管理有pmp证书了,到底有没有必要再考个prince2?
  4. Java-----关于IO流的总结
  5. Google黑客常用搜索语法
  6. 【Base64是什么?】
  7. TYPE g_date_tbl_typ IS TABLE OF DATE INDEX BY VARCHAR2(1000);
  8. python抓取QQ空间博客文章
  9. 大厂智力题讲解,学它!!!!(一)
  10. AUTOSAR架构深度解析