selenium刷研究生专业目录下载量(东林)
帮女朋友刷一下考研院校专业目录下载量,写个小爬虫,主要使用selenium,目标网址http://yz.nefu.edu.cn/info/1026/2189.htm
唯一难点是绕过验证码,直接使用ddddocr库
import ddddocr
from PIL import Image
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from io import BytesIO
import threadingtime.sleep(1)
NUM_MAX = 500000 # 循环次数
PATH = 'C:\\Users\\yanga\\Desktop\\temp\\1.png'
url = 'http://yz.nefu.edu.cn/system/_content/download.jsp?urltype=news.DownloadAttachUrl&owner=1701911290&wbfileid' \'=66AE325B0AE6939AB54B45742A479815 'options = webdriver.ChromeOptions()
prefs = { # 禁用下载"download_restrictions": 3,
}
options.add_experimental_option("prefs", prefs
)
browser = webdriver.Chrome(options=options) # 浏览器对象初始化def recognize(): # 调用PATH路径图片并识别验证码ocr = ddddocr.DdddOcr()with open(PATH, 'rb') as f:img_bytes = f.read()res = ocr.classification(img_bytes)print(res)return resdef connect_web(): # 连接网页try:browser.get(url)except TimeoutException:print('time out!')def ocr_img(): # 获取网页截图并裁剪至只有验证码,保存至PATH路径temp_p = browser.get_screenshot_as_png()big_image = Image.open(BytesIO(temp_p))box = (420, 170, 500, 210)rect_on_big = big_image.crop(box)rect_on_big.save(PATH)def download_dong(res): # 调取input_ocr = browser.find_element(By.CSS_SELECTOR, "#codeValue")input_ocr.send_keys(res)time.sleep(1)button = browser.find_element(By.CSS_SELECTOR, '.code_but input')button.click()def spider_way(num_max): # 操作浏览器,填写验证码点击提交i = 0while i < num_max:ocr_img()download_dong(recognize())browser.refresh()time.sleep(2)i = i + 1def run_t():connect_web()spider_way(NUM_MAX)browser.close() # 关闭浏览器if __name__ == '__main__':t1 = threading.Thread(target=run_t(), name='t1')t1.start()
后续可以用多线程操作
selenium刷研究生专业目录下载量(东林)相关推荐
- 计算机学科专业基础综合811,2012年同济大学硕士研究生专业目录及初复试科目-914...
09/14/11 2012年同济大学硕士研究生专业目录及初复试科目 010建筑与城市规划学院 科目代码专业名称研究方向政治.外国语业务一.业务二复试科目复试参考书招收同等学力 加试科目 083300城 ...
- 防止恶意刷浏览量、下载量
防止恶意刷浏览量(人气).下载量 (简单原理:通过session判断下,这还不是最精确的,只是比起以前刷新一下就记录一下稍有提高) 1 2 3 4 5 6 7 if(empty($_SESSION[' ...
- 有效提高APP用户下载量的五个小妙招
说到APP下载,真的是几个字就让推广运营们头疼,又爱又恨.每个月都是KPI中最难的目标,没有之一. 那么我们如何抓住更多的用户,增加应用下载量呢?今天,厦门巨神峰网络科技小编就和大家分享几种增加应用下 ...
- 江苏大学计算机学科专业基础综合,关于编制江苏大学2010年研究生招生专业目录的通知...
各学院(中心.研究院.研究所): 我校 2009 年研究生招生考试.录取工作已经结束, 2010 年的研究生招生工作又将开始.请各学院(中心.研究院.研究所,以下简称学院)相关学科专业认真总结 200 ...
- android 关于刷app下载量的问题
百度搜索了一下,各种刷app下载量的,还是收费的,不如花钱给个大平台推广app,让你的app排名.下载均靠前.
- 【招生目录】 2023年北京交通大学计算机学院博士研究生招生专业目录
引言 北京交通大学是教育部是首批进入国家"211工程"建设高校,是全国具有研究生院的56所高校之一,计算机与信息技术学院为北京交通大学下属二级学院,学院成立于2000年3月,其前身 ...
- 重庆大学非全日制计算机专业,2018年重庆大学非全日制研究生招生专业目录
2018年重庆大学非全日制研究生招生专业目录已经公布,详情如下: 一.公共管理学院专业代码及专业名称人数 (含推免)指导教师专业备注 (非全日制)125200 公共管理(专业学位) 研究方向: 01 ...
- 教育部 计算机类专业代码,科普下2020教育部703个本科专业目录及专业代码
近日有关于科普下2020教育部703个本科专业目录及专业代码的问题受到了很多网友们的关注,大多数网友都想要知道科普下2020教育部703个本科专业目录及专业代码的具体情况,那么关于到科普下2020教育 ...
- 授予博士、硕士学位和培养研究生的学科、专业目录
授予博士.硕士学位和培养研究生的学科.专业目录> (1997 颁布 ) 一.<授予博士.硕士学位和培养研究生的学科.专业目录>(简称"学科.专业目录"),是××× ...
最新文章
- makefile进阶(四)-- 条件判断 (转)
- docker desktop ubuntu镜像_「Docker」 - 镜像仓库
- 我的Firefox1.0的阻止弹出广告的功能失效了!
- 第9章:Bootstrap Token方式增加Node
- Nginx 网站定义自己的错误页面
- Kali linux安装漏洞扫描工具Nessus安装指南
- Haproxy+Percona-XtraDB-Cluster 集群
- Java捕获异常密码_Java捕获异常的问题
- 深度学习笔记(46) 深度卷积网络学习
- 2017.3.26 最长双回文串 思考记录
- python第三周笔记_Python第四周 学习笔记(1)
- 网络相关 doc 命令 netstat
- 抓取Web网页数据分析
- 何川L3管理课_模块5_给评价
- .net 导出excel_.NET Core一行代码导入导出Excel生成Word
- 全网通小区专家全自动做
- 多屏信号服务器,多屏图像拼接处理器 多种信号输出输入
- 阿拉伯数字金钱转中文大写
- 《深入剖析Tomcat》序言
- 如何阻止搜索引擎收录指定网页
热门文章
- 开源盛行:为什么学习国产达梦数据库?
- 智能制造之机器视觉缺陷检测
- msgpack的使用
- THINKPHP6.02调用百度H5实名认证接口
- linux upstart脚本,linux – 如何调试间歇性失败的upstart脚本?
- 这个情人节,写一封信,给简书的TA
- Virtual box里把乌班图系统从系统盘迁移到其他盘
- 关于HCIE专栏资料
- vue-cli基础入门教程
- 从零开始学python大数据与量化交易下载_GitHub - zhaojie1126/Python-100-Days-1: Python - 100天从新手到大师...