1、新建项目

scrapy startproject  tutorial

整体结构如下

2、修改items

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapy
class SinaminiItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()content = scrapy.Field()

3、spider

最后就是spider了,我也懒得写pipe了,结果截图展示
spider也是继承了最简单的spider,起名为myspider.py ,如下:

代码如下:

import scrapyfrom sinamini.items import SinaminiItemclass DmozSpider(scrapy.Spider):name = "mysina"allowed_domains = ["sports.sina.com.cn"]start_urls = ["http://sports.sina.com.cn/g/pl/2017-05-23/doc-ifyfkqks4451477.shtml"]def parse(self, response):try:for sel in response.xpath("//article[@class='article-a']"):item = SinaminiItem()item['name'] = sel.xpath('h1/text()').extract()item['content'] = sel.xpath("div[@class='article-a__content']/p/text()").extract()yield itemexcept:print('error')for url in response.selector.xpath("//a/@href").re(r'^http://sports.sina.*'):yield scrapy.Request(url,callback = self.parse)

结果展示

scrapy crawl mysina ###执行spider

结果如下:

利用scrapy爬取新浪体育新闻的小例子相关推荐

  1. 基于scrapy框架爬取新浪体育部分板块内容

    import scrapy from selenium import webdriver from sohuPro.items import SohuproItem class SohuSpider( ...

  2. python爬新闻并保存_利用python的scrapy爬取新浪新闻保存至txt

    1.mac本机terminal:scrapy startproject newsSpider 2.pycharm中打开项目,进行爬虫. 2.1在spider文件夹下,建立Spider.py文件,具体如 ...

  3. 利用scrapy爬取东方资讯的新闻

    之前学习用的,爬取东方资讯新闻列表的代码 ArticlelistItem文件中的字段可根据自己的需要改变 # -*- coding: utf-8 -*- import scrapy import js ...

  4. Python 爬虫实例(7)—— 爬取 新浪军事新闻

    我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: # coding:utf-8import json import redis im ...

  5. scrapy爬取新浪股吧中康美评论

    题目要求 使用scrapy,建立爬虫 针对新浪股吧,下载自己选择的上海证券市场股票评论,股票代码自选填入随后示范连接处,http://guba.sina.com.cn/?s=bar&name= ...

  6. 爬取新浪社会新闻源代码

    视频地址如下: https://edu.hellobi.com/course/81/play/lesson/1761 import requests from bs4 import Beautiful ...

  7. python3爬取新浪NBA新闻信息(待完善)

    #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from requests.exceptions import ReadTi ...

  8. python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...

  9. 19Python爬虫--爬取新浪新闻标题并保存到数据库

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 创建爬虫文件 scrapy st ...

  10. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. linux文件每行长度,linux – 根据第一列/行中的字符长度对文件进行排序
  2. 禁用页面缓存的几种方法(静态和动态)
  3. vivado与modelsim的联合仿真(一)
  4. jQuery UI 拖动(Draggable) - 延迟开始
  5. 微信红包的架构设计简介
  6. python语言官方网站地址-python 中国地址
  7. 自定义用户控件,实在数据动态提示
  8. 如何调位置_如何知道手表是偷停还是真没动力了?看完之后你在家也能测
  9. 用jdbc连接oracle的第一次经历
  10. 去哪儿网:报复性滑雪来了 机票预订量超去年
  11. 你在现实中遇到让你最跌破三观的人或者事是什么?
  12. java设置时间_怎么用java设置系统时间?
  13. 自制Flash电子相册
  14. 《三国演义》[明]罗贯中,七秒读书重制精排版电子书免费下载
  15. 编译原理(九)——递归下降法
  16. my ReadBook_wangluoyingxiaoyucehua / network marketing / wangluoyingxiao
  17. 优矿python开源_PythonStock(8):使用优矿web学习python入门
  18. 参与流片是一种怎样的体验?
  19. 安装html5 win7,win7官方正版64位系统安装教程
  20. 给笔记本电脑外接显示器增加副屏

热门文章

  1. android 闪屏动态界面,Android 实现闪屏
  2. 百度AI 开放平台 人脸检测与识别
  3. 编写简单的内核模块——Linux操作系统原理与应用(陈莉君第2版13页)
  4. java开发工程师必看书籍
  5. programData
  6. 文献阅读(10)BNN
  7. 微机原理与接口技术模拟试题微型计算机中主要包括,微机原理与接口技术模拟试题...
  8. Linux无线网卡配置 intel 9462 网卡 速度无法超过54Mbit
  9. mysql按每月分组统计_MySql按周,按月,按日分组统计数据
  10. 关于“为什么delete以后指针还能被赋值”一种描述