使用Python+xpath爬取知网所有中英文期刊的封面背景图片

使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片`

import json
import requests
from bs4 import BeautifulSoup
from lxml import etree
from pymongo import MongoClient
from gridfs import *# ajax请求参数太多太复杂，这里省掉了for index in range(1, 107):# ajax请求参数payload = {'searchStateJson': json.dumps(searchStateJson),'displaymode': 1,'pageindex': index,'pagecount': 21,'index': 'subject','searchType': '刊名(曾用刊名)','clickName': '社会科学II','switchdata': 'leftnavi'}# 获取期刊编码response = requests.post(base_url, data=payload, headers=headers)ul_html = etree.HTML(response.text)# print(html.text)urls = ul_html.xpath('*//ul[@class="list_tup"]/li/a/@href')journal_encode_list = []for ur in urls:journal_code = ur.split('&')[1].split('=')[1]journal_encode_list.append(journal_code)# 前往期刊详情页抓取详细信息for co in journal_encode_list:url = 'https://navi.cnki.net/knavi/journals/' + co + '/detail'html = requests.get(url, headers=headers)soup = BeautifulSoup(html.text, 'html.parser')title = soup.title.string.replace('/', '_')cntk_img_url = soup.find('img', attrs={'class': 'pic-book'})['src']img = requests.get('http:' + cntk_img_url)f = open(base_dir + title + '.jpg', 'ab')f.write(img.content)  # 多媒体存储contentf.close()print(title)print('-----------')

使用Python+xpath爬取知网所有中英文期刊的封面背景图片相关推荐

python爬虫爬取知网
python爬虫爬取知网话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
Python爬取知网信息——Python+selenium爬取知网信息（文献名，作者，来源，发表日期，文献类型）
# -*- coding: utf-8 -*- #时间:2019.5.1 #运行环境Python 3.* ''' 1.运行此代码前需要先下载Chrome浏览器,去百度搜索下载 2.我是利用seleni ...
python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
使用Python爬取知网信息
使用Python爬取知网信息 import requests from urllib import request from lxml import etree import re import cs ...
[python爬虫] BeautifulSoup和Selenium简单爬取知网信息测试
作者最近在研究复杂网络和知识图谱内容,准备爬取知网论文相关信息进行分析,包括标题.摘要.出版社.年份.下载数和被引用数.作者信息等.但是在爬取知网论文时,遇到问题如下: 1.爬取内容总为空,其原因 ...
python xpath爬取新闻标题_爬取知乎热榜标题和连接（python，requests，xpath）
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User-Agen ...
使用Scrapy、PhantomJS和Selenium爬取知网文献摘要
使用Scrapy.PhantomJS和Selenium爬取知网文献摘要.以下例子用于爬取"医药卫生科技"类文献摘要. 1.使用Scrapy创建项目 scrapy startproj ...
java+selenium爬取知网数据
使用selenium工具爬取知网相关数据,思路:根据几个关键词搜索出相关的内容,然后爬取列表中所有论文的访问链接. 注意:直接爬取的链接是不能用的,需要自己拼接一下.具体看代码.新手,代码写的有点乱. ...
爬虫练习（一）爬取知网、万方、维普文献标题、作者、刊物来源等信息
刚刚开始学习Python,今天一周整,浏览了站内一些大侠博客相关内容,自己也尝试着写了一个爬虫. 直接借鉴了几位大侠的经验,如有冒犯之处恳请海涵. 先说说目的吧,本爬虫的目的是根据EXCEL文件的作者 ...

使用Python+xpath爬取知网所有中英文期刊的封面背景图片

使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片`

使用Python+xpath爬取知网所有中英文期刊的封面背景图片相关推荐

最新文章

热门文章