帮女朋友刷一下考研院校专业目录下载量,写个小爬虫,主要使用selenium,目标网址http://yz.nefu.edu.cn/info/1026/2189.htm


唯一难点是绕过验证码,直接使用ddddocr库

import ddddocr
from PIL import Image
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from io import BytesIO
import threadingtime.sleep(1)
NUM_MAX = 500000                    # 循环次数
PATH = 'C:\\Users\\yanga\\Desktop\\temp\\1.png'
url = 'http://yz.nefu.edu.cn/system/_content/download.jsp?urltype=news.DownloadAttachUrl&owner=1701911290&wbfileid' \'=66AE325B0AE6939AB54B45742A479815 'options = webdriver.ChromeOptions()
prefs = {                               # 禁用下载"download_restrictions": 3,
}
options.add_experimental_option("prefs", prefs
)
browser = webdriver.Chrome(options=options)  # 浏览器对象初始化def recognize():                  # 调用PATH路径图片并识别验证码ocr = ddddocr.DdddOcr()with open(PATH, 'rb') as f:img_bytes = f.read()res = ocr.classification(img_bytes)print(res)return resdef connect_web():                # 连接网页try:browser.get(url)except TimeoutException:print('time out!')def ocr_img():                    # 获取网页截图并裁剪至只有验证码,保存至PATH路径temp_p = browser.get_screenshot_as_png()big_image = Image.open(BytesIO(temp_p))box = (420, 170, 500, 210)rect_on_big = big_image.crop(box)rect_on_big.save(PATH)def download_dong(res):          # 调取input_ocr = browser.find_element(By.CSS_SELECTOR, "#codeValue")input_ocr.send_keys(res)time.sleep(1)button = browser.find_element(By.CSS_SELECTOR, '.code_but input')button.click()def spider_way(num_max):         # 操作浏览器,填写验证码点击提交i = 0while i < num_max:ocr_img()download_dong(recognize())browser.refresh()time.sleep(2)i = i + 1def run_t():connect_web()spider_way(NUM_MAX)browser.close()  # 关闭浏览器if __name__ == '__main__':t1 = threading.Thread(target=run_t(), name='t1')t1.start()

后续可以用多线程操作

selenium刷研究生专业目录下载量(东林)相关推荐

  1. 计算机学科专业基础综合811,2012年同济大学硕士研究生专业目录及初复试科目-914...

    09/14/11 2012年同济大学硕士研究生专业目录及初复试科目 010建筑与城市规划学院 科目代码专业名称研究方向政治.外国语业务一.业务二复试科目复试参考书招收同等学力 加试科目 083300城 ...

  2. 防止恶意刷浏览量、下载量

    防止恶意刷浏览量(人气).下载量 (简单原理:通过session判断下,这还不是最精确的,只是比起以前刷新一下就记录一下稍有提高) 1 2 3 4 5 6 7 if(empty($_SESSION[' ...

  3. 有效提高APP用户下载量的五个小妙招

    说到APP下载,真的是几个字就让推广运营们头疼,又爱又恨.每个月都是KPI中最难的目标,没有之一. 那么我们如何抓住更多的用户,增加应用下载量呢?今天,厦门巨神峰网络科技小编就和大家分享几种增加应用下 ...

  4. 江苏大学计算机学科专业基础综合,关于编制江苏大学2010年研究生招生专业目录的通知...

    各学院(中心.研究院.研究所): 我校 2009 年研究生招生考试.录取工作已经结束, 2010 年的研究生招生工作又将开始.请各学院(中心.研究院.研究所,以下简称学院)相关学科专业认真总结 200 ...

  5. android 关于刷app下载量的问题

    百度搜索了一下,各种刷app下载量的,还是收费的,不如花钱给个大平台推广app,让你的app排名.下载均靠前.

  6. 【招生目录】 2023年北京交通大学计算机学院博士研究生招生专业目录

    引言 北京交通大学是教育部是首批进入国家"211工程"建设高校,是全国具有研究生院的56所高校之一,计算机与信息技术学院为北京交通大学下属二级学院,学院成立于2000年3月,其前身 ...

  7. 重庆大学非全日制计算机专业,2018年重庆大学非全日制研究生招生专业目录

    2018年重庆大学非全日制研究生招生专业目录已经公布,详情如下: 一.公共管理学院专业代码及专业名称人数 (含推免)指导教师专业备注 (非全日制)125200 公共管理(专业学位) 研究方向: 01  ...

  8. 教育部 计算机类专业代码,科普下2020教育部703个本科专业目录及专业代码

    近日有关于科普下2020教育部703个本科专业目录及专业代码的问题受到了很多网友们的关注,大多数网友都想要知道科普下2020教育部703个本科专业目录及专业代码的具体情况,那么关于到科普下2020教育 ...

  9. 授予博士、硕士学位和培养研究生的学科、专业目录

    授予博士.硕士学位和培养研究生的学科.专业目录> (1997 颁布 ) 一.<授予博士.硕士学位和培养研究生的学科.专业目录>(简称"学科.专业目录"),是××× ...

最新文章

  1. makefile进阶(四)-- 条件判断 (转)
  2. docker desktop ubuntu镜像_「Docker」 - 镜像仓库
  3. 我的Firefox1.0的阻止弹出广告的功能失效了!
  4. 第9章:Bootstrap Token方式增加Node
  5. Nginx 网站定义自己的错误页面
  6. Kali linux安装漏洞扫描工具Nessus安装指南
  7. Haproxy+Percona-XtraDB-Cluster 集群
  8. Java捕获异常密码_Java捕获异常的问题
  9. 深度学习笔记(46) 深度卷积网络学习
  10. 2017.3.26 最长双回文串 思考记录
  11. python第三周笔记_Python第四周 学习笔记(1)
  12. 网络相关 doc 命令 netstat
  13. 抓取Web网页数据分析
  14. 何川L3管理课_模块5_给评价
  15. .net 导出excel_.NET Core一行代码导入导出Excel生成Word
  16. 全网通小区专家全自动做
  17. 多屏信号服务器,多屏图像拼接处理器 多种信号输出输入
  18. 阿拉伯数字金钱转中文大写
  19. 《深入剖析Tomcat》序言
  20. 如何阻止搜索引擎收录指定网页

热门文章

  1. 开源盛行:为什么学习国产达梦数据库?
  2. 智能制造之机器视觉缺陷检测
  3. msgpack的使用
  4. THINKPHP6.02调用百度H5实名认证接口
  5. linux upstart脚本,linux – 如何调试间歇性失败的upstart脚本?
  6. 这个情人节,写一封信,给简书的TA
  7. Virtual box里把乌班图系统从系统盘迁移到其他盘
  8. 关于HCIE专栏资料
  9. vue-cli基础入门教程
  10. 从零开始学python大数据与量化交易下载_GitHub - zhaojie1126/Python-100-Days-1: Python - 100天从新手到大师...