使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片`

import json
import requests
from bs4 import BeautifulSoup
from lxml import etree
from pymongo import MongoClient
from gridfs import *# ajax请求参数太多太复杂,这里省掉了for index in range(1, 107):# ajax请求参数payload = {'searchStateJson': json.dumps(searchStateJson),'displaymode': 1,'pageindex': index,'pagecount': 21,'index': 'subject','searchType': '刊名(曾用刊名)','clickName': '社会科学II','switchdata': 'leftnavi'}# 获取期刊编码response = requests.post(base_url, data=payload, headers=headers)ul_html = etree.HTML(response.text)# print(html.text)urls = ul_html.xpath('*//ul[@class="list_tup"]/li/a/@href')journal_encode_list = []for ur in urls:journal_code = ur.split('&')[1].split('=')[1]journal_encode_list.append(journal_code)# 前往期刊详情页抓取详细信息for co in journal_encode_list:url = 'https://navi.cnki.net/knavi/journals/' + co + '/detail'html = requests.get(url, headers=headers)soup = BeautifulSoup(html.text, 'html.parser')title = soup.title.string.replace('/', '_')cntk_img_url = soup.find('img', attrs={'class': 'pic-book'})['src']img = requests.get('http:' + cntk_img_url)f = open(base_dir + title + '.jpg', 'ab')f.write(img.content)  # 多媒体存储contentf.close()print(title)print('-----------')

使用Python+xpath爬取知网所有中英文期刊的封面背景图片相关推荐

  1. python爬虫爬取知网

    python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...

  2. Python爬取知网信息——Python+selenium爬取知网信息(文献名,作者,来源,发表日期,文献类型)

    # -*- coding: utf-8 -*- #时间:2019.5.1 #运行环境Python 3.* ''' 1.运行此代码前需要先下载Chrome浏览器,去百度搜索下载 2.我是利用seleni ...

  3. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  4. 使用Python爬取知网信息

    使用Python爬取知网信息 import requests from urllib import request from lxml import etree import re import cs ...

  5. [python爬虫] BeautifulSoup和Selenium简单爬取知网信息测试

    作者最近在研究复杂网络和知识图谱内容,准备爬取知网论文相关信息进行分析,包括标题.摘要.出版社.年份.下载数和被引用数.作者信息等.但是在爬取知网论文时,遇到问题如下:   1.爬取内容总为空,其原因 ...

  6. python xpath爬取新闻标题_爬取知乎热榜标题和连接 (python,requests,xpath)

    用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User-Agen ...

  7. 使用Scrapy、PhantomJS和Selenium爬取知网文献摘要

    使用Scrapy.PhantomJS和Selenium爬取知网文献摘要.以下例子用于爬取"医药卫生科技"类文献摘要. 1.使用Scrapy创建项目 scrapy startproj ...

  8. java+selenium爬取知网数据

    使用selenium工具爬取知网相关数据,思路:根据几个关键词搜索出相关的内容,然后爬取列表中所有论文的访问链接. 注意:直接爬取的链接是不能用的,需要自己拼接一下.具体看代码.新手,代码写的有点乱. ...

  9. 爬虫练习(一)爬取知网、万方、维普文献标题、作者、刊物来源等信息

    刚刚开始学习Python,今天一周整,浏览了站内一些大侠博客相关内容,自己也尝试着写了一个爬虫. 直接借鉴了几位大侠的经验,如有冒犯之处恳请海涵. 先说说目的吧,本爬虫的目的是根据EXCEL文件的作者 ...

最新文章

  1. java 常用接口的实现--compareable
  2. idea 整合SSM(spring spring-mvc mybatis)
  3. Office+SharePoint+Server+2007+部署图示指南
  4. 亲戚再也看不见我一个人食吉野家了
  5. 使用cocoapods
  6. 组合数学 —— 概述
  7. centos7-每天定时备份 mysql数据库
  8. DbVisualizer 使用方法 图解(可以连接多种数据库的客户端)
  9. u3d目标与摄像机之间的遮挡物变为透明
  10. 电商产品经理的那些图 订单、确认支付、发货、退货、退款、换货...
  11. 13、图灵机器人能力
  12. 卡方线性趋势检验_趋势性卡方检验专题讨论
  13. uniapp小程序自定义分享按钮
  14. 【原理图专题】OrCAD Capture CIS中元件产生A,B属性解决办法
  15. eap wifi 证书_WIFI用户EAP-TLS认证.pdf
  16. pdf压缩工具_18MB秒变1MB,最好用的PDF在线压缩工具
  17. Bob 的生存概率问题
  18. js实现天降字母打字小游戏
  19. 12种纸飞机的折法 - T爸写给小T的书
  20. 耳机插入听不到声音或者对方听不见你说话问题

热门文章

  1. 中小企业人员培训体系建设建议
  2. GeoTools简介
  3. CCF 202209-3 防疫大数据JAVA题解
  4. c语言程序while,C语言之while循环
  5. 给13寸macbook pro升级ssd,并重装双系统.
  6. IDEA快捷键设置/从Eclipse转IDEA快捷键设置
  7. 蓝桥杯单片机学习必备资源
  8. 用单片机C语言生成PDF文档
  9. (超详细)python环境安装
  10. zookeeper单机服务器启动流程