Python爬虫之--------泸深A股股票

以下做的项目是用Python3.5版本，爬取股票数据存储数据库# coding:utf8import re #匹配正则表达式import requests  #Requests 使用的是 urllib3，因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池，支持使用 cookie 保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。import time  #时间模块import mysql.connector #引入数据库模块 ，connect是存入数据from selenium import webdriver #selenium是web自动化测试工具集，包括WebDriver（selenium 2.0）等。 #webdriver 操作浏览器

#（注：）WebDriver 通过原生浏览器支持或者浏览器扩展直接控制浏览器。WebDriver 针对各个浏览器而开发，取代了嵌入到被测 Web 应用中的 JavaScript。与浏览器的紧密集成支持创建更高级的测试，避免了JavaScript 安全模型导致的限制。除了来自浏览器厂商的支持，WebDriver 还利用操作系统级的调用模拟用户输入。

# url = http://quote.stockstar.com/stock/ranklist_a_3_1_1.html #网站地址db = mysql.connector.connect(user='root', password='12345678', host='127.0.0.1', port=3306, db='233')cursor = db.cursor()driver = webdriver.PhantomJS() #驱动Phjs浏览器demo = re.compile('<tr><td.*?><a.*?>(.*?)</a></td><td.*?><a.*?>(.*?)</a></td><td.*?><span.*?>(.*?)</span></td><td.*?><span.*?>(.*?)</span></td><td.*?><span.*?>(.*?)</span></td><td.*?><span.*?>(.*?)</span></td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td></tr>', re.S)while True: #此处死循环是为了让数据实时更新 time.sleep(4) #隔4秒更新一次数据for i in range(1, 108): #获取1-107页的URL地址 url_a = "http://quote.stockstar.com/stock/ranklist_a_3_1_" urls = url_a + str(i) + ".html"

　　　　time.sleep(3) #让页面缓存3秒 driver.get(urls) #地址以js浏览器提交 yuan = driver.page_source #获取源代码 lists = demo.findall(yuan) #正则匹配源码# print(lists)

 for a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, a11, a12, a13 in lists: #循环遍历# print(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13) print('查询--------') sql = "select exists(select 1 from shengu where a1='" + a1 + "')" #查询数据库里有没有相对应的字段 cursor.execute(sql) listss = cursor.fetchall() #游标获取遍历后的数据# print(listss[0][0]) if not listss[0][0]: print('插入--------') sql1 = "insert into shengu(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13)VALUES ('" + a1 + "','" + a2 + "','" + a3 + "','" + a4 + "','" + a5 + "','" + a6 + "','" + a7 + "','" + a8 + "','" + a9 + "','" + a10 + "','" + a11 + "','" + a12 + "','" + a13 + "')" cursor.execute(sql1) db.commit()else:print('更新---------') sql2 = "update shengu set a1='" + a1 + "',a2='" + a2 + "',a3='" + a3 + "',a4='" + a4 + "',a5='" + a5 + "',a6='" + a6 + "',a7='" + a7 + "',a8='" + a8 + "',a9='" + a9 + "',a10='" + a10 + "',a11='" + a11 + "',a12='" + a12 + "',a13='" + a13 + "' where a1='" + a1 + "'" cursor.execute(sql2) db.commit()

#经测试代码有效#代码有哪里不足的地方望大神及各位指教，谢谢

转载于:https://www.cnblogs.com/GUIDAO/p/6776321.html

Python爬虫之--------泸深A股股票相关推荐

使用Python爬虫获取上交所和深交所所有股票的名称和交易信息
使用Python爬虫获取上交所和深交所所有股票的名称和交易信息功能描述目标获取上交所和深交所所有股票的名称和交易信息输出保存到文件中技术路线 requests-bs4-re 候选数据网站的 ...
Python爬虫系列之逆向淘股吧app签名sign算法
Python爬虫系列之逆向淘股吧app签名sign算法 CSDN不允许留下联系方式,如有侵权,请主查找联系方式联系删除代码仅供学习交流,请勿用于非法用途 import hashlib import ...
f分布表完整图a=0.05_2019年05月16日，沪深A股股票分析
纽约华尔街,伦敦金融城,Tier 1投行,我们希望撕掉标签,用数据说话. 欢迎您留言和赞赏,谢谢.一.整体分析我们选取了沪深A股的股票,利用历史数据对超过60种交易策略进行了预测回测. 下表中列出了 ...
python新浪股票接口 2019_用python爬虫进行新浪腾讯股票数据采集
今天带给大家的是从新浪和腾讯爬取股票数据,主要是因为新浪和腾讯的股票数据存储在js中,不需要再重新解析网页源码方便很多. 今天我们要实现的股票爬取设计内容丰富,包括: 1.一个股票数据(沪深)爬虫和选 ...
用python爬虫来登录深信服ac行为控制器，涉及到js加密部分，更新url分类库（针对企业微信更新）
企业环境中会有限制员工访问外网的情况,但是限制外网的同时也会把一些常用的软件也限制掉,比如(企业微信)所以需要把企业微信用到的域名,还有url排除掉,但是企业微信的域名,还有IP是不固定的,需要经常登 ...
python爬虫详细步骤-Python爬虫的两套解析方法和四种爬虫实现过程
对于大多数朋友而言,爬虫绝对是学习 python 的最好的起手和入门方式.因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功入门.本文想针对某一网页对 python 基础 ...
【Python基础】Python爬虫的两套解析方法和四种信息提取方式
Python爬虫 Author:Iouwill Machine Learning Lab 分享一篇往日旧文章,非常实用. 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式.因为爬虫 ...
沪深A股指数历史分时交易数据API接口（JSON标准格式，Get请求方式）
沪深A股指数历史分时交易数据API接口(JSON标准格式,Get请求方式) 数据来源:沪深A股股票数据API接口麦蕊智数(www.mairui.club) 历史分时交易 · API接口:http: ...
Python爬虫入门之爬虫解析提取数据的四种方法
本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...

Python爬虫之--------泸深A股股票

Python爬虫之--------泸深A股股票相关推荐

最新文章

热门文章