网页源代码批量提取下载链接字符串-非正则 | Python3
代码改编自水似冰的博客 | https://blog.csdn.net/qq_30650153/article/details/77773189
感谢启发
本脚本以 http://www.hao6v.com/mj/2017-04-27/28999.html 页面的源代码为对象
以 ed2k、thunder、magnet 三类下载链接为提取对象编写
无法确定个别影视剧下载网站源代码是否可以提取
代码思想为通过下载链接头尾部的特定格式字符识别并存入新的文件,并非使用正则表达式,编程新手,欢迎各位朋友交流
# encoding=utf-8sc_txt = open('source_code.txt', 'r') # 打开存有网页源代码的 source_code.txt 文件(需提前将源代码存入此文件)
sc_list = list(sc_txt.read()) # 源代码文件内容以每个字符为一项组成列表 sc_list
dl_list = [] # 创建空列表 dl_list 准备存入下载链接# 在整个 sc_list 字符串里以开头结尾的固定字符查找下载链接然后写入 dl_list 中
# 开头固定字符为'<a href="',这里取'f'、'='、'"'三个连续字符作为开头查找格式
# 在'f'、'='、'"'三个连续字符后,从 sc_list[3] 即第四位(前三位为开头格式字符)开始提取
# 并且只提取 'e'(ed2k)、 'm'(magnet)、 't'(thunder) 三类最常见下载链接
# 在500位内(下载链接长度一般为300字符以下)查找末尾格式字符
# ed2k、thunder 链接在'"'处结束,磁力链接('magnet')在'&'处结束
for i in range(len(sc_list)):if sc_list[i] == 'f' and sc_list[i + 1] == '=' and sc_list[i + 2] == '"':if sc_list[i + 3] == 'e' or sc_list[i + 3] == 't' or sc_list[i + 3] == 'm':for j in range(3,500):if sc_list[i + j] == '"' or sc_list[i + j] == '&':dl_list.append('\n') # 本条下载链接提取结束,换行j = 0 # 将 j 置 0 准备查找下一条下载链接breakdl_list.append(sc_list[i + j]) # 在没遇到结束字符时将各字符(也就是本条下载链接的内容)存入 dl_list 中dl_txt = open('download_link.txt', 'w') # 打开(创建)文件 download_link.txt
dl_txt.write(''.join(dl_list)) # 将内容为下载链接的列表通过空字符连接为字符串,并写入 download_link.txt
sc_txt.close() # 关闭 source_code.txt
dl_txt.close() # 关闭 download_link.txt
网页源代码批量提取下载链接字符串-非正则 | Python3相关推荐
- 百度云管家 提取下载链接(已过时,仅用作存档)
2016/11/16更新 现在只是提取下载链接已经没有用了... 要下载的话,在Get报文里还必须提供 Cookies 和 User-Agent 否则就会被重定向到 百度的 403页面.. 理论上可以 ...
- 「JavaScript」- 从页面中,提取下载链接 @20210205
问题描述 某些页面,提供多个下载链接,但是没有提供批量复制链接的功能(或者批量复制存在问题). 该笔记将记录,如何使用 JavaScript 提取页面的下载链接. 解决方案 我们要获取在 老友记第六季 ...
- 下载网页图片-如何批量下载网页图片-批量图片下载工具免费
下载网页图片,今天给大家分享一款免费批量下载网页图片软件,支持任意格式的图片批量下载,只需要输入关键词或批量导入网页链接即可下载图片.批量下载任意网页上的图片,每个人都可以拥有各种高清图源.支持批量图 ...
- pygame之飞机大战 sprite精灵类实现源代码和资源下载链接
用pygame的sprite 重写了飞机大战 实现功能: 英雄机:按住按键连续发射 子弹:各种子弹,静态的,动态的,不同的子弹不同的伤害. 发射方式:花样的发射方式,单.双.三.45度--,各种发射方 ...
- 怎么一键提取网页图片-批量提取网页的软件
怎么一键提取网页图片,日常工作和生活中我们都是离不开图片的,我们经常会在网络上存储大量的图片,以便后续在工作中或生活中使用.特别是表情包,产品图等等.都是几十上百张的保存. 接下来的文章将会给大家介绍 ...
- 图片浏览器每次只能打开一张图片_好嗨哟!微信图片批量提取下载,我只用了3秒钟~...
如果想将一篇微信图文里面的图片保存到本地,我们往往需要打开微信图文,然后定位到图片,点击图片用鼠标右键将图片另存到本地. 保存一张图片还好,如果要保存多张图篇,如此操作无疑是费时又费力.有没有什么方法 ...
- 用批处理整理百度MP3上歌曲排行榜MP3及LRC文件的批量下载链接地址(含图文教程)
http://bbs.wuyou.com/viewthread.php?tid=192322 本文结构如下: 一.缘起:问题的提出 二.试探:徒劳而返 三.峰回路转:芝麻!开门! 四.万事俱备:xml ...
- python3批量抓取电影天堂下载链接
1.思路分析 首先打开电影天堂的列表页 右键审查元素查看电影简介的链接 将此链接打开可以得到下载地址 可能是爬虫原因网站审查元素和用request得到的数据不一样,因此代码的正则表达式会改变 加上列表 ...
- bat文件打开一闪就没了_批量提取文件名
前言 我们在采用可变数据制作证件卡时,需要有Excel表格中的可变数据(姓名.电话,照片等),我们可以通过批量提取照片的文件名来提取可变数据. 在之前的文章小编分享过用N8Print软件提取的方法,感 ...
最新文章
- C++指针与地址详解 _0
- Oracle 树操作(select…start with…connect by…prior)
- WiFi已攻占世界 芯片原厂、模组方案商盘点
- matlab 实现 stacked Autoencoder 解决图像分类问题
- 【干货集锦】如何轻松玩转文档管理工具?我们为你精心准备了一份学习大礼包...
- css first-child,CSS :first-child 伪类
- 自定义View的三个构造函数
- c语言程序执行完main函数后,一个c程序在执行main函数之前和main之后都做了那些事情啊该如何解决...
- 启发式搜索 迭代加深搜索 搜索对象的压缩存储
- 规则引擎 drools_Drools的入门初探
- 初中计算机excel考试系统,基于Excel构建计算机考试系统
- 失意不灰心得意莫忘形
- 波士顿房价预测(终版讲解)
- 关于淘宝API的详细说明(淘宝开放平台API揭秘)
- 985计算机英语六级,大学英语六级比四级难多少?985学长含泪告诉你!
- 健身的基本知识(4)
- linux电脑开机进不了系统更新失败,电脑卡在配置Windows Update失败界面无法开机怎么办...
- 如何逆向破解HawkEye keylogger键盘记录器,进入攻击者邮箱?
- python可以做网页开发么_Python可以开发网页吗?Python学习班
- 4款精美绝伦的优质软件,一个比一个精彩