利用scrapy爬取新浪体育新闻的小例子
1、新建项目
scrapy startproject tutorial
整体结构如下
2、修改items
# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapy
class SinaminiItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()content = scrapy.Field()
3、spider
最后就是spider了,我也懒得写pipe了,结果截图展示
spider也是继承了最简单的spider,起名为myspider.py ,如下:
代码如下:
import scrapyfrom sinamini.items import SinaminiItemclass DmozSpider(scrapy.Spider):name = "mysina"allowed_domains = ["sports.sina.com.cn"]start_urls = ["http://sports.sina.com.cn/g/pl/2017-05-23/doc-ifyfkqks4451477.shtml"]def parse(self, response):try:for sel in response.xpath("//article[@class='article-a']"):item = SinaminiItem()item['name'] = sel.xpath('h1/text()').extract()item['content'] = sel.xpath("div[@class='article-a__content']/p/text()").extract()yield itemexcept:print('error')for url in response.selector.xpath("//a/@href").re(r'^http://sports.sina.*'):yield scrapy.Request(url,callback = self.parse)
结果展示
scrapy crawl mysina ###执行spider
结果如下:
利用scrapy爬取新浪体育新闻的小例子相关推荐
- 基于scrapy框架爬取新浪体育部分板块内容
import scrapy from selenium import webdriver from sohuPro.items import SohuproItem class SohuSpider( ...
- python爬新闻并保存_利用python的scrapy爬取新浪新闻保存至txt
1.mac本机terminal:scrapy startproject newsSpider 2.pycharm中打开项目,进行爬虫. 2.1在spider文件夹下,建立Spider.py文件,具体如 ...
- 利用scrapy爬取东方资讯的新闻
之前学习用的,爬取东方资讯新闻列表的代码 ArticlelistItem文件中的字段可根据自己的需要改变 # -*- coding: utf-8 -*- import scrapy import js ...
- Python 爬虫实例(7)—— 爬取 新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: # coding:utf-8import json import redis im ...
- scrapy爬取新浪股吧中康美评论
题目要求 使用scrapy,建立爬虫 针对新浪股吧,下载自己选择的上海证券市场股票评论,股票代码自选填入随后示范连接处,http://guba.sina.com.cn/?s=bar&name= ...
- 爬取新浪社会新闻源代码
视频地址如下: https://edu.hellobi.com/course/81/play/lesson/1761 import requests from bs4 import Beautiful ...
- python3爬取新浪NBA新闻信息(待完善)
#!/usr/bin/env python # -*- coding: utf-8 -*- import requests from requests.exceptions import ReadTi ...
- python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...
- 19Python爬虫--爬取新浪新闻标题并保存到数据库
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 创建爬虫文件 scrapy st ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
最新文章
- linux文件每行长度,linux – 根据第一列/行中的字符长度对文件进行排序
- 禁用页面缓存的几种方法(静态和动态)
- vivado与modelsim的联合仿真(一)
- jQuery UI 拖动(Draggable) - 延迟开始
- 微信红包的架构设计简介
- python语言官方网站地址-python 中国地址
- 自定义用户控件,实在数据动态提示
- 如何调位置_如何知道手表是偷停还是真没动力了?看完之后你在家也能测
- 用jdbc连接oracle的第一次经历
- 去哪儿网:报复性滑雪来了 机票预订量超去年
- 你在现实中遇到让你最跌破三观的人或者事是什么?
- java设置时间_怎么用java设置系统时间?
- 自制Flash电子相册
- 《三国演义》[明]罗贯中,七秒读书重制精排版电子书免费下载
- 编译原理(九)——递归下降法
- my ReadBook_wangluoyingxiaoyucehua / network marketing / wangluoyingxiao
- 优矿python开源_PythonStock(8):使用优矿web学习python入门
- 参与流片是一种怎样的体验?
- 安装html5 win7,win7官方正版64位系统安装教程
- 给笔记本电脑外接显示器增加副屏
热门文章
- android 闪屏动态界面,Android 实现闪屏
- 百度AI 开放平台 人脸检测与识别
- 编写简单的内核模块——Linux操作系统原理与应用(陈莉君第2版13页)
- java开发工程师必看书籍
- programData
- 文献阅读(10)BNN
- 微机原理与接口技术模拟试题微型计算机中主要包括,微机原理与接口技术模拟试题...
- Linux无线网卡配置 intel 9462 网卡 速度无法超过54Mbit
- mysql按每月分组统计_MySql按周,按月,按日分组统计数据
- 关于“为什么delete以后指针还能被赋值”一种描述