#!/usr/bin/env python
# encoding: utf-8
"""
@version:2.7.13
@author: wenjiaGuo
@contact: 601152819@qq.com
@software: PyCharm
@file: paGirl.py
@用途:抓取今日头条上的任意图片。
@使用方法:直接执行即可
@time: 2017/9/7 17:25
"""
import urllib
import sys
import urllib2 #请求网站
import re  #正则表达式
import random  #随机数
import  time
import json#jsons  网络中网页源码不包含jsons,额外读取
# url = "http://www.toutiao.com/search_content/?offset=20&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count=20&cur_tab=1"
def loadPicture(keyword,pagenumber,path):print keyword,type(keyword)keyword=urllib.quote(keyword)print keyword, type(keyword)# 美女 < type'str' ># % E7 % BE % 8E % E5 % A5 % B3 < type 'str' ># 美女 < type'str' ># % C3 % C0 % C5 % AE < type'str' >url1="http://www.toutiao.com/search_content/?keyword="+keyword+"&count="+str(pagenumber)+"&format=json"req=urllib2.Request(url1)data=urllib2.urlopen(req).read().decode("utf-8")dict=json.loads(data)#json转化为字典# print str(dict["data"])regex1=re.compile(r"'(http://p[(b){0,1}]\d*.pstatp.com.*?)'")lastlist=re.findall(regex1,str(dict['data']))for  i  in range(len(lastlist)):print (lastlist[i],"  ")regex2=re.compile(r"http://p[(b){0,1}]\d*.pstatp.com/large/(.*)")#挖掘名称namelist=re.findall(regex2,lastlist[i])if(len(namelist)!=0):urllib.urlretrieve(lastlist[i], path + namelist[0] + ".png")
loadPicture("美女",10,"D:/360Downloads/")

重点知识点:

知识点1.

1.今日头条是json存储图片的,而且有4个关键字。

search_content
keyword
count
format=json

具体怎么来的,不知道,但是确实很重要。

知识点2

这里json.load是把json转换为字典。而这个字典里面的key不能要。
通过key,取出value。而value也是一个字典。后面再次进行操作。

知识点3.

urllib.urlretrieve 用于保存文件。

知识点4

编码问题。这个详见

正则的一点问题及抓取must(str)

今日头条爬美女图片知识点1相关推荐

  1. 爬取今日头条街拍图片

    ** *爬取今日头条街拍图片 * ** # coding=utf-8 import os import re import time from multiprocessing.pool import ...

  2. 爬虫(4)-使用Ajax爬取今日头条表情包图片

    文章目录 爬取今日头条表情包图片 1.获取信息 2.代码 改进 认为有用的话请点赞,码字不易,谢谢. 其他爬虫实战请查看:https://blog.csdn.net/qq_42754919/categ ...

  3. 爬取今日头条上的图片

    一.动态页面逆向分析爬取 (1)今日头条搜索界面如上:(2)页面分析获取Jason数据格式http://www.toutiao.com/search_content/?offset=20&fo ...

  4. 今日头条街拍图片爬取

    其中遇到的问题和一些新知识: 1. 注意页面请求参数:(会改变) 即Query String Parameters 例: 今日头条里街拍综合的数据为 'offset': 0, 'format': 'j ...

  5. 我的爬虫 之 爬今日头条街拍图片

    近日学习了python 爬虫方面的内容 ,决定实战--爬今日头条的街拍图片 首先先分析今日头条的请求方式,进入https://www.toutiao.com  F12 搜索街拍 查看当前请求 http ...

  6. Scrapy 爬取今日头条街拍图片

    scrapy 爬取今日头条图片保存至本地 之前用 requests 爬取过今日头条街拍的图片,当时只是爬取每篇文章的缩略图,今天尝试用 scrapy 来大规模爬取街拍详细图片. 分析页面 今日头条的内 ...

  7. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  8. Python爬虫:爬取今日头条“街拍”图片(修改版)

    前言 在参考<Python3网络爬虫开发实战>学习爬虫时,练习项目中使用 requests ajax 爬取今日头条的"街拍"图片,发现书上的源代码有些已经不适合现在了, ...

  9. python爬取今日头条_爬取今日头条街拍图片

    参考于崔庆才的Python爬虫教程,但是崔的视频时间过长,今日头条网站反爬虫也有了变化,因此写下此文章来记录自己的爬取过程遇到的问题,也给大家一些借鉴.欢迎大家讨论. 一.获取索引页. 我们会发现do ...

  10. 分析Ajax爬取今日头条,下载图片

    这几天打算趁着寒假时间把之前学的爬虫捡回来,发现现在今日头条改了一丢丢.与崔庆才老师有关分析Ajax爬取今日头条街拍美图已经有点出入. 获取搜索结果的ur的方法与崔庆才老师是一样的,这里就不细说了,不 ...

最新文章

  1. Netty 系列一(核心组件和实例).
  2. React Native调用原生模块
  3. java.util.date转化成java.sql.date
  4. RocketMQ-初体验RocketMQ(01)_RocketMQ初体验
  5. 五天学习Mysql数据库教程(一)1.1数据库的基本概念
  6. 【.NETCore 3】Ids4 ║ 统一角色管理(上)
  7. 怎么玩转CSS内部样式表与外部样式表?
  8. LeetCode MySQL 1571. 仓库经理
  9. mysql数据库mha_MySQL高可用性大杀器之MHA
  10. 【IntelliJ IDEA】idea导入项目只显示项目中的文件,不显示项目结构
  11. Javascript---js的编码及解码
  12. oracle alter database,DBA常用命令之alter database
  13. JAVA合并两个PDF文件
  14. 笔记本处理器排名_上半年最受欢迎处理器TOP10榜单:AMD终进榜,9代酷睿无缘前10...
  15. 用友公司来访,一些关于用友最新旗舰产品U9的一些介绍(图文)
  16. iOS程序拨打电话方法
  17. 像素px跟点pt大不同
  18. 用计算机如何编辑文档,怎么使用手机word文档编辑
  19. 美团专家:35岁是程序员的终点?
  20. 内置函数 - getattr()函数

热门文章

  1. IP-GUARD是否支持对打了水印的文档去除水印?
  2. Zksync Era空投要求,快照日期推演
  3. 实现window10于虚拟机的复制粘贴
  4. Charles + iphone手机 抓取https包
  5. 从入门到删库跑路的过程
  6. 为什么用交叉熵做损失函数
  7. 英语口语362之每日二十个英语单词
  8. Android集成vivo推送
  9. 【笔记】高德技术2019合辑
  10. python列表、元组、字典、集合的简单操作