利用scrapy爬取新浪体育新闻的小例子

1、新建项目

scrapy startproject  tutorial

整体结构如下

2、修改items

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapy
class SinaminiItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()content = scrapy.Field()

3、spider

最后就是spider了，我也懒得写pipe了，结果截图展示
spider也是继承了最简单的spider，起名为myspider.py ，如下：

代码如下：

import scrapyfrom sinamini.items import SinaminiItemclass DmozSpider(scrapy.Spider):name = "mysina"allowed_domains = ["sports.sina.com.cn"]start_urls = ["http://sports.sina.com.cn/g/pl/2017-05-23/doc-ifyfkqks4451477.shtml"]def parse(self, response):try:for sel in response.xpath("//article[@class='article-a']"):item = SinaminiItem()item['name'] = sel.xpath('h1/text()').extract()item['content'] = sel.xpath("div[@class='article-a__content']/p/text()").extract()yield itemexcept:print('error')for url in response.selector.xpath("//a/@href").re(r'^http://sports.sina.*'):yield scrapy.Request(url,callback = self.parse)

结果展示

scrapy crawl mysina ###执行spider

结果如下：

利用scrapy爬取新浪体育新闻的小例子相关推荐

基于scrapy框架爬取新浪体育部分板块内容
import scrapy from selenium import webdriver from sohuPro.items import SohuproItem class SohuSpider( ...
python爬新闻并保存_利用python的scrapy爬取新浪新闻保存至txt
1.mac本机terminal:scrapy startproject newsSpider 2.pycharm中打开项目,进行爬虫. 2.1在spider文件夹下,建立Spider.py文件,具体如 ...
利用scrapy爬取东方资讯的新闻
之前学习用的,爬取东方资讯新闻列表的代码 ArticlelistItem文件中的字段可根据自己的需要改变 # -*- coding: utf-8 -*- import scrapy import js ...
Python 爬虫实例（7）—— 爬取新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分第二zh张图片,显示需要分页, 源代码: # coding:utf-8import json import redis im ...
scrapy爬取新浪股吧中康美评论
题目要求使用scrapy,建立爬虫针对新浪股吧,下载自己选择的上海证券市场股票评论,股票代码自选填入随后示范连接处,http://guba.sina.com.cn/?s=bar&name= ...
爬取新浪社会新闻源代码
视频地址如下: https://edu.hellobi.com/course/81/play/lesson/1761 import requests from bs4 import Beautiful ...
python3爬取新浪NBA新闻信息（待完善）
#!/usr/bin/env python # -*- coding: utf-8 -*- import requests from requests.exceptions import ReadTi ...
python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目 scrapy startproj ...
19Python爬虫--爬取新浪新闻标题并保存到数据库
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目创建爬虫文件 scrapy st ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

利用scrapy爬取新浪体育新闻的小例子

1、新建项目

2、修改items

3、spider

结果展示

利用scrapy爬取新浪体育新闻的小例子相关推荐

最新文章

热门文章