以下做的项目是用Python3.5版本,爬取股票数据存储数据库# coding:utf8import re #匹配正则表达式import requests  #Requests 使用的是 urllib3,因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。import time  #时间模块import mysql.connector #引入数据库模块 ,connect是存入数据from selenium import webdriver #selenium是web自动化测试工具集,包括WebDriver(selenium 2.0)等。 #webdriver 操作浏览器

#(注:)WebDriver 通过原生浏览器支持或者浏览器扩展直接控制浏览器。WebDriver 针对各个浏览器而开发,取代了嵌入到被测 Web 应用中的 JavaScript。与浏览器的紧密集成支持创建更高级的测试,避免了JavaScript 安全模型导致的限制。除了来自浏览器厂商的支持,WebDriver 还利用操作系统级的调用模拟用户输入。

# url = http://quote.stockstar.com/stock/ranklist_a_3_1_1.html #网站地址db = mysql.connector.connect(user='root', password='12345678', host='127.0.0.1', port=3306, db='233')cursor = db.cursor()driver = webdriver.PhantomJS() #驱动Phjs浏览器demo = re.compile('<tr><td.*?><a.*?>(.*?)</a></td><td.*?><a.*?>(.*?)</a></td><td.*?><span.*?>(.*?)</span></td><td.*?><span.*?>(.*?)</span></td><td.*?><span.*?>(.*?)</span></td><td.*?><span.*?>(.*?)</span></td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td><td.*?>(.*?)</td></tr>', re.S)while True: #此处死循环是为了让数据实时更新 time.sleep(4) #隔4秒更新一次数据for i in range(1, 108): #获取1-107页的URL地址 url_a = "http://quote.stockstar.com/stock/ranklist_a_3_1_" urls = url_a + str(i) + ".html"

    time.sleep(3) #让页面缓存3秒 driver.get(urls) #地址以js浏览器提交 yuan = driver.page_source #获取源代码 lists = demo.findall(yuan) #正则匹配源码# print(lists)

 for a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, a11, a12, a13 in lists: #循环遍历# print(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13) print('查询--------') sql = "select exists(select 1 from shengu where a1='" + a1 + "')" #查询数据库里有没有相对应的字段 cursor.execute(sql) listss = cursor.fetchall() #游标获取遍历后的数据# print(listss[0][0]) if not listss[0][0]: print('插入--------') sql1 = "insert into shengu(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13)VALUES ('" + a1 + "','" + a2 + "','" + a3 + "','" + a4 + "','" + a5 + "','" + a6 + "','" + a7 + "','" + a8 + "','" + a9 + "','" + a10 + "','" + a11 + "','" + a12 + "','" + a13 + "')" cursor.execute(sql1) db.commit()else:print('更新---------') sql2 = "update shengu set a1='" + a1 + "',a2='" + a2 + "',a3='" + a3 + "',a4='" + a4 + "',a5='" + a5 + "',a6='" + a6 + "',a7='" + a7 + "',a8='" + a8 + "',a9='" + a9 + "',a10='" + a10 + "',a11='" + a11 + "',a12='" + a12 + "',a13='" + a13 + "' where a1='" + a1 + "'" cursor.execute(sql2) db.commit()

#经测试代码有效#代码有哪里不足的地方望大神及各位指教,谢谢

转载于:https://www.cnblogs.com/GUIDAO/p/6776321.html

Python爬虫之--------泸深A股股票相关推荐

  1. 使用Python爬虫获取上交所和深交所所有股票的名称和交易信息

    使用Python爬虫获取上交所和深交所所有股票的名称和交易信息 功能描述 目标 获取上交所和深交所所有股票的名称和交易信息 输出 保存到文件中 技术路线 requests-bs4-re 候选数据网站的 ...

  2. Python爬虫系列之逆向淘股吧app签名sign算法

    Python爬虫系列之逆向淘股吧app签名sign算法 CSDN不允许留下联系方式,如有侵权,请主查找联系方式联系删除 代码仅供学习交流,请勿用于非法用途 import hashlib import ...

  3. f分布表完整图a=0.05_2019年05月16日,沪深A股股票分析

    纽约华尔街,伦敦金融城,Tier 1投行,我们希望撕掉标签,用数据说话. 欢迎您留言和赞赏,谢谢.一.整体分析 我们选取了沪深A股的股票,利用历史数据对超过60种交易策略进行了预测回测. 下表中列出了 ...

  4. python新浪股票接口 2019_用python爬虫进行新浪腾讯股票数据采集

    今天带给大家的是从新浪和腾讯爬取股票数据,主要是因为新浪和腾讯的股票数据存储在js中,不需要再重新解析网页源码方便很多. 今天我们要实现的股票爬取设计内容丰富,包括: 1.一个股票数据(沪深)爬虫和选 ...

  5. 用python爬虫来登录深信服ac行为控制器,涉及到js加密部分,更新url分类库(针对企业微信更新)

    企业环境中会有限制员工访问外网的情况,但是限制外网的同时也会把一些常用的软件也限制掉,比如(企业微信)所以需要把企业微信用到的域名,还有url排除掉,但是企业微信的域名,还有IP是不固定的,需要经常登 ...

  6. python爬虫详细步骤-Python爬虫的两套解析方法和四种爬虫实现过程

    对于大多数朋友而言,爬虫绝对是学习 python 的最好的起手和入门方式.因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功入门.本文想针对某一网页对 python 基础 ...

  7. 【Python基础】Python爬虫的两套解析方法和四种信息提取方式

    Python爬虫 Author:Iouwill Machine Learning Lab 分享一篇往日旧文章,非常实用. 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式.因为爬虫 ...

  8. 沪深A股指数历史分时交易数据API接口(JSON标准格式,Get请求方式)

    沪深A股指数历史分时交易数据API接口(JSON标准格式,Get请求方式) 数据来源:沪深A股股票数据API接口 麦蕊智数(www.mairui.club) 历史分时交易 ·  API接口:http: ...

  9. Python爬虫入门之爬虫解析提取数据的四种方法

    本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...

最新文章

  1. RESTful编程究竟是什么?
  2. 2017.4.6AM
  3. 机器学习著名定理之—No Free Lunch定理详解
  4. ReflectionLabel(倒影控件)
  5. 【转】Eclipse Code Recommenders正式发布 智能代码建议工具
  6. leetcode -- 1091. 二进制矩阵中的最短路径
  7. mysql zpi版的如何配置_Mysql zip版 安装配置
  8. 未来云原生世界的“领头羊”:容器批量计算项目Volcano 1.0版本发布
  9. 前端开发者必备google插件
  10. linux下多版本opencv共存问题
  11. ai 道德_AI如何提升呼叫中心的道德水平?
  12. 软件技术论坛_NASAC 2019技术论坛: 系统软件构造与验证技术
  13. robotframework自动化测试修炼宝典_软件测试工程师必备:Robot Framework实现接口自动化实践!...
  14. 利用Veeam BackupReplication工具实现vsphere虚拟机备份
  15. php计算距离元旦还有多少天,2020年元旦顺口溜
  16. 实习僧[shixiseng.com]爬虫实战笔记
  17. 利用python获取股票折线图_python绘制香农的投资组合折线图
  18. 一阶电路实验报告心得_一阶电路实验报告5篇
  19. Fiddler抓包夜神模拟器
  20. Pnet抓包工具Wireshark提示end of file on pipemagic during open

热门文章

  1. 认真努力系统自学PS,一个月后怎么样在家挣到每月三千?
  2. 邓应海:核心PCE与鲍威尔讲话来袭,最新黄金走势分析
  3. mac 挂载nfs_Mac-原生读写NFS盘
  4. 计算机dmax函数怎么用,Excel教程中DMAX 函数和DMIN 函数的用法和实例
  5. 解决No ULINK2/ME Device found问题
  6. Spring Boot Freemark HTML 生成 PDF、生成水印Logo、docx文件生成PDF,Jar包运行可读取模板文件、字体文件
  7. 【adoo】Van Emde Boas trees
  8. Python Json数据结构 打印json结构里含有$符号value的值 并且去重里面value相同的值 77hub 北京企业科技 企企 测试工程师面试 简单代码算法题
  9. kali-linux 2022.1高清壁纸
  10. qoe度量模型和人工智能