引言

关于Scrapy的相关介绍及豆瓣案例请看我写的另外两篇博客。
http://blog.csdn.net/qy20115549/article/details/52528896
http://blog.csdn.net/qy20115549/article/details/52575291

待爬的url

如下图所示，所需要爬去的url地址，有很多，存储在txt文本文件中，如其中的一个链接为:http://stock.qq.com/a/20160919/007925.htm。

框架架构

items的编写

为了简单起见，我只爬了新闻的标题及正文。如下图所示：

__author__ = ' HeFei University of Technology Qian Yang email：1563178220@qq.com'
# -*- coding: utf-8 -*-
import scrapy
class News(scrapy.Item):content = scrapy.Field()title = scrapy.Field()

Spider的编写

__author__ = ' HeFei University of Technology Qian Yang email：1563178220@qq.com'
# -*- coding:utf-8 -*-
import scrapy
from tengxunnews.items import News
class Teng(scrapy.Spider):name = 'tengxunnews'allowed_domains = ["qq.com"]#read url from file f = open("E:\\a.txt", "r")start_urls = []while True:line = f.readline()if line:pass    # do something hereline=line.strip().replace("['","").replace("']","")p=line.rfind('.')filename=line[0:p]print "the url is %s"%linestart_urls.append(line)else:breakf.close()def parse(self, response):item = News()item['content'] = response.xpath('//div[@id="Cnt-Main-Article-QQ"]/p/text()').extract()item['title'] = response.xpath('//div[@class="hd"]/h1/text()').extract()yield item

存储pipelines的编写

__author__ = ' HeFei University of Technology Qian Yang email：1563178220@qq.com'
# -*- coding: utf-8 -*-
import json
import codecs
#以Json的形式存储
class JsonWithEncodingCnblogsPipeline(object):def __init__(self):self.file = codecs.open('tengxunnews.json', 'w', encoding='gbk')def process_item(self, item, spider):line = json.dumps(dict(item), ensure_ascii=False) + "\n"self.file.write(line)return itemdef spider_closed(self, spider):self.file.close()#将数据存储到mysql数据库
from twisted.enterprise import adbapi
import MySQLdb
import MySQLdb.cursors
class MySQLStorePipeline(object):#数据库参数def __init__(self):dbargs = dict(host = '127.0.0.1',db = 'test',user = 'root',passwd = '112233',cursorclass = MySQLdb.cursors.DictCursor,charset = 'utf8',use_unicode = True)self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)'''The default pipeline invoke function'''def process_item(self, item,spider):res = self.dbpool.runInteraction(self.insert_into_table,item)return item#插入的表，此表需要事先建好def insert_into_table(self,conn,item):conn.execute('insert into tengxunnews(content, title) values(%s,%s)', (item['content'][0],item['title'][0]))

main方法的编写

__author__ = ' HeFei University of Technology Qian Yang email：1563178220@qq.com'
from scrapy import cmdline
cmdline.execute("scrapy crawl tengxunnews".split())

运行结果展示

有问题请联系：合肥工业大学管理学院钱洋 1563178220@qq.com

Scrapy网络爬虫框架实战[以腾讯新闻网为例]相关推荐

快速认识网络爬虫与Scrapy网络爬虫框架
本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分问:什么是网络爬虫答:就是从网上下载数据的一个程序,只不过这个程序下载 ...
scrapy 中爬取时被重定向_一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程...
今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且 ...
Scrapy网络爬虫框架实际案例讲解，Python爬虫原来如此简单！
创建项目 Scrapy爬虫框架提供一个工具来创建项目,生成的项目中预置了一些文件,用户需要在这些文件中添加python代码.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你 ...
【Python】使用Scrapy 网络爬虫框架Demo
安装使用PyCharm安装,进入到PyCharm -> Preferences -> Project Interpreter,点击加号查询框输入'Scrapy',点击'Install ...
网络爬虫框架Scrapy简介
作者: 黄进(QQ:7149101) 一. 网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本:它是一个自动提取网页的程序,它为搜索引擎从万维 ...
Python网络爬虫框架 Scrapy简介
Scrapy 网络爬虫框架 Scrapy的安装 cmd 执行: pip install scrapy测试安装: scrapy -h Scrapy介绍 Scrapy不是一个函数功能库,而是一个爬虫框架. ...
A 3. 笔记 - 精通scrapy网络爬虫 - 刘硕（18年7月）
第1章初识scrapy 1.1 创建第一个项目项目描述: 抓取电商网站上的图书名称和价格地址:http://books.toscrape.com/catalogue/page-1.html 流程 ...
Python网络爬虫数据采集实战：Scrapy框架爬取QQ音乐存入MongoDB
通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本 ...
Python网络爬虫数据采集实战（八）：Scrapy框架爬取QQ音乐存入MongoDB
通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本涵盖了爬虫 ...

Scrapy网络爬虫框架实战[以腾讯新闻网为例]

引言