2.需要下载的页面文件:

3.该页面需要登陆,然后批量下载共享漏洞文件,我们就通过cookie来实现。

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""

Date: 2019-08-17

Author: Bob

Description: python爬取xml文件

"""

import requests

from bs4 import BeautifulSoup

def cnvd_spider():

url = 'https://www.cnvd.org.cn/shareData/list?max=240&offset=0'

headers = {

"Cookie": "__jsluid_s=65d5e7902f04498e89b16e93fb010b3c; __jsluid_h=1ab428e655aee36ac3c9835db29b6714; JSESSIONID=91BB91B37543D365AA64895EDFCD828F; __jsl_clearance=1566003116.655|0|CYPFsKirGYBG12qtoOrS5Kq1rM0%3D",

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",

}

html = requests.get(url=url, headers=headers).text

soup = BeautifulSoup(html, 'lxml')

links = soup.find_all('a', attrs={'title': '下载xml'})

for link in links:

url = 'https://www.cnvd.org.cn' + link.get('href')

file_name = link.get_text()

html_data = requests.get(url=url, headers=headers)

with open(file_name, 'w') as f:

f.write(html_data.content)

if __name__ == '__main__':

cnvd_spider()

python 抽取xml_python批量爬取xml文件相关推荐

  1. python用akshare批量爬取金融数据并保存为excel格式

    python用akshare批量爬取数据并保存为excel格式 爬取的网站为http://vip.stock.finance.sina.com.cn/mkt/#hs_a的历史数据 首先,确定好你 下载 ...

  2. 【Python实战】批量爬取微博素材,一分钟百张大图自动下载

    目录 前言 一.思考逻辑 二.观察URL 三.微博爬虫 四.下载保存 结尾 前言 大家好,我是Samaritan. 这期本来想做个咸鱼 写个学习笔记发的,然后没做成咸鱼 临时变卦,再写一期实战. 事情 ...

  3. Python爬虫:批量爬取变形金刚图片,下载保存到本地。

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文文章来自:CSDN 作者:Guapifang 其实和爬取普通数据本质一样,不过 ...

  4. Python爬虫项目--批量爬取公司债券平台网公司信息并下载PDF

    # 下载公司债券平台项目PDF信息 08年6月 合起来67页数据import os import time import requests from selenium import webdriver ...

  5. akshare批量爬取数据并保存为excel格式

    作用:根据aa.txt内的代码,爬取数据,保存在以代码为名的xls文件中,注意"aa.txt"路径,路径中有"\"时,需用"\\"替代: 爬 ...

  6. python自动搜索爬取下载文件-python批量爬取下载抖音视频

    本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...

  7. 最新!使用Python爬取蓝奏云文件下载直链并下载,支持批量爬取,已封装为函数,可直接使用(含注释、库的使用解释)

    程序说明 本程序不借助第三方网站来获取蓝奏云直链,那样没意思,且程序流程已经过分块化处理(多函数),方便理解和阅读.程序使用了requests.re.lxml库,来请求.解析数据.具有一定学习价值,对 ...

  8. python爬取抖音用户数据_python批量爬取下载抖音视频

    本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...

  9. json spr路驾驶技术视频api_每天弄个小爬取之Python爬取批量爬取B站小视频

    1. 批量爬取B站小视频 哔哩哔哩网站(英文名称: bilibili),是年轻人的文化社区,被粉丝们亲切的称为B站.该网站中拥有动画.番剧.国创.音乐.舞蹈.游戏.科技.生活.鬼畜.娱乐.时尚等多个内 ...

最新文章

  1. phpstorm支持php7吗,PHPStorm支持PHP7类型提示等新语法
  2. CNN 图像增强--DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
  3. CTF---安全杂项入门第三题 这是捕获的黑客攻击数据包,Administrator用户的密码在此次攻击中泄露了,你能找到吗?...
  4. Linux下gcc编译中关于头文件与库文件搜索路径相关问题
  5. QQ空间的“神奇”图片
  6. Python中浅拷贝与深拷贝的骚操作
  7. DI / CDI –基础
  8. 分布与并行计算—生产者消费者模型RabbitMQ(Java)
  9. std::map用法总结
  10. 网络规划设计师考试经验分享
  11. 哈工大2015秋 编译原理课程实验1:词法分析
  12. ASP.NET WebAPI构建API接口服务实战演练
  13. MVC中验证码的生成
  14. 拓扑排序:编译依赖问题
  15. lammps建模_lammps建模方法,即生成data文件
  16. 十折交叉验证python_Python机器学习:6.2 K折交叉验证评估模型性能
  17. 学会计学java_我只是一个初中毕业的,现在很想学会计,我不知道从何学起?...
  18. Creating schema using Saiku Schema Designer
  19. 【零基础】极星量化入门十一:远程遥控的简单办法
  20. 人肉反编译使用yield关键字的方法

热门文章

  1. vertx源码_Vert.x(vertx) 认证和授权
  2. linux移除包的命令,linux的yum卸载包命令说明
  3. 微信小程序标题栏和导航栏的设置 —— 微信小程序教程系列(7)
  4. 一命二运三风水,四积功德五读书。
  5. java网络封包_java网络编程(套接字)
  6. 2021-09-01[ZJCTF 2019]NiZhuanSiWei
  7. three.js 地形法向量生成
  8. LSTM基础理论与实例
  9. mPaaS小程序一些记录
  10. iPhone隐藏的9个功能,你肯定是第一次知道,很好用~