python 抽取xml_python批量爬取xml文件
2.需要下载的页面文件:
3.该页面需要登陆,然后批量下载共享漏洞文件,我们就通过cookie来实现。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
Date: 2019-08-17
Author: Bob
Description: python爬取xml文件
"""
import requests
from bs4 import BeautifulSoup
def cnvd_spider():
url = 'https://www.cnvd.org.cn/shareData/list?max=240&offset=0'
headers = {
"Cookie": "__jsluid_s=65d5e7902f04498e89b16e93fb010b3c; __jsluid_h=1ab428e655aee36ac3c9835db29b6714; JSESSIONID=91BB91B37543D365AA64895EDFCD828F; __jsl_clearance=1566003116.655|0|CYPFsKirGYBG12qtoOrS5Kq1rM0%3D",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
}
html = requests.get(url=url, headers=headers).text
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('a', attrs={'title': '下载xml'})
for link in links:
url = 'https://www.cnvd.org.cn' + link.get('href')
file_name = link.get_text()
html_data = requests.get(url=url, headers=headers)
with open(file_name, 'w') as f:
f.write(html_data.content)
if __name__ == '__main__':
cnvd_spider()
python 抽取xml_python批量爬取xml文件相关推荐
- python用akshare批量爬取金融数据并保存为excel格式
python用akshare批量爬取数据并保存为excel格式 爬取的网站为http://vip.stock.finance.sina.com.cn/mkt/#hs_a的历史数据 首先,确定好你 下载 ...
- 【Python实战】批量爬取微博素材,一分钟百张大图自动下载
目录 前言 一.思考逻辑 二.观察URL 三.微博爬虫 四.下载保存 结尾 前言 大家好,我是Samaritan. 这期本来想做个咸鱼 写个学习笔记发的,然后没做成咸鱼 临时变卦,再写一期实战. 事情 ...
- Python爬虫:批量爬取变形金刚图片,下载保存到本地。
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文文章来自:CSDN 作者:Guapifang 其实和爬取普通数据本质一样,不过 ...
- Python爬虫项目--批量爬取公司债券平台网公司信息并下载PDF
# 下载公司债券平台项目PDF信息 08年6月 合起来67页数据import os import time import requests from selenium import webdriver ...
- akshare批量爬取数据并保存为excel格式
作用:根据aa.txt内的代码,爬取数据,保存在以代码为名的xls文件中,注意"aa.txt"路径,路径中有"\"时,需用"\\"替代: 爬 ...
- python自动搜索爬取下载文件-python批量爬取下载抖音视频
本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...
- 最新!使用Python爬取蓝奏云文件下载直链并下载,支持批量爬取,已封装为函数,可直接使用(含注释、库的使用解释)
程序说明 本程序不借助第三方网站来获取蓝奏云直链,那样没意思,且程序流程已经过分块化处理(多函数),方便理解和阅读.程序使用了requests.re.lxml库,来请求.解析数据.具有一定学习价值,对 ...
- python爬取抖音用户数据_python批量爬取下载抖音视频
本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...
- json spr路驾驶技术视频api_每天弄个小爬取之Python爬取批量爬取B站小视频
1. 批量爬取B站小视频 哔哩哔哩网站(英文名称: bilibili),是年轻人的文化社区,被粉丝们亲切的称为B站.该网站中拥有动画.番剧.国创.音乐.舞蹈.游戏.科技.生活.鬼畜.娱乐.时尚等多个内 ...
最新文章
- phpstorm支持php7吗,PHPStorm支持PHP7类型提示等新语法
- CNN 图像增强--DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
- CTF---安全杂项入门第三题 这是捕获的黑客攻击数据包,Administrator用户的密码在此次攻击中泄露了,你能找到吗?...
- Linux下gcc编译中关于头文件与库文件搜索路径相关问题
- QQ空间的“神奇”图片
- Python中浅拷贝与深拷贝的骚操作
- DI / CDI –基础
- 分布与并行计算—生产者消费者模型RabbitMQ(Java)
- std::map用法总结
- 网络规划设计师考试经验分享
- 哈工大2015秋 编译原理课程实验1:词法分析
- ASP.NET WebAPI构建API接口服务实战演练
- MVC中验证码的生成
- 拓扑排序:编译依赖问题
- lammps建模_lammps建模方法,即生成data文件
- 十折交叉验证python_Python机器学习:6.2 K折交叉验证评估模型性能
- 学会计学java_我只是一个初中毕业的,现在很想学会计,我不知道从何学起?...
- Creating schema using Saiku Schema Designer
- 【零基础】极星量化入门十一:远程遥控的简单办法
- 人肉反编译使用yield关键字的方法