刚开始学习python爬虫,想实现对搜狗公众号搜索结果的爬取

发现问题是抓到的信息没有直接在浏览器访问的URL信息完整。

以下是基本实现,代码很简单,爬取到的页面中没有“最近文章”(在浏览器中直接访问有“最近文章”内容)

请高手们指点一二,谢谢!

#-*- coding: utf-8 -*-

import urllib2

import sys

import urllib

from bs4 import BeautifulSoup

reload(sys)

sys.setdefaultencoding('utf8')

url = 'http://weixin.sogou.com/gzh?openid=oIWsFt5l9RDYeAjdXZBYtGzbH0JI'

print url

i_headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0"}

req = urllib2.Request(url, headers=i_headers)

content = urllib2.urlopen(req).read()

soup = BeautifulSoup(content)

print soup

siteUrls = soup.findAll(attrs={'class':'img_box2'})

print siteUrls

file_object = open('test.htm','w+')

file_object.write(content)

file_object.close()

python爬虫爬取微信_python爬虫对搜狗抓取微信搜索信息不全问题相关推荐

  1. python抓取交易所_Python百行代码抓取美股三大交易所历史数据

    最近闲来无事,琢磨着去投资下美股,投资嘛,当然得先分析下市场行情个股行情啦, 分析就需要有数据,那么数据从哪里来呢,当然是从交易所官方网站获取咯.自己动手丰衣足食,于是花了点时间写个Python脚本来 ...

  2. python爬虫爬图片教程_python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  3. python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  4. python怎么爬网站视频教程_python爬虫爬取某网站视频的示例代码

    把获取到的下载视频的url存放在数组中(也可写入文件中),通过调用迅雷接口,进行自动下载.(请先下载迅雷,并在其设置中心的下载管理中设置为一键下载) 实现代码如下: from bs4 import B ...

  5. python爬虫爬图片教程_Python爬虫入门教程 5-100 27270图片爬取

    获取待爬取页面 今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥 ...

  6. python爬虫爬图片教程_Python爬虫爬图片需要什么

    Python爬虫爬图片需要什么?下面用两种方法制作批量爬取网络图片的方法: 第一种方法:基于urllib实现 要点如下: 1.url_request = request.Request(url) 2. ...

  7. python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图

    Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

  8. python爬虫爬取图片代码_python爬虫实战 爬取天极图片

    学习爬虫个人的意见是直接实战效果会很好 不要等全学完requests ,正则表达式,BeautifulSoup等再来实际操作.其实很多实战我们并不会用到requests库,BeautifulSoup, ...

  9. python爬虫爬取图片代码_python爬虫-20行代码爬取王者荣耀所有英雄图片,小白也轻轻松松...

    1.环境python3.6 需要用到的库: re.os.requests 2.简介 王者荣耀可以算得上是比较受欢迎的手游之一了,应该有不少的人都入坑过农药,我们今天的目的就是要爬取王者荣耀的高清英雄壁 ...

  10. python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...

    Python爬虫包 BeautifulSoup  递归抓取实例详解 概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到 ...

最新文章

  1. Pure-FTPd服务器
  2. ASP.NET Core Web Razor Pages系列教程一:使用ASP.NET Core 创建一个Razor Pages网络应用程序
  3. 【vue】使用localStorage解决vuex在页面刷新后数据被清除的问题
  4. 信息系统项目管理师:第6章:项目进度管理-章节真题
  5. 微信小程序组件通信入门及组件生命周期函数
  6. C# 3.0新特性初步研究 Part5:匿名类型
  7. “约见”面试官系列之常见面试题第三十一篇之vue-router得守卫(建议收藏)
  8. 51nod 1091 重叠的线段(贪心)
  9. 15款最佳的 jQuery 分步引导插件
  10. 经历一次方知书中千百蕴意 ——读《人月神话》有感
  11. linux中怎么卸载gamit,GAMIT 解算各步骤-详细
  12. Mac 给新人的入手指南
  13. 云上Java System Profiling与Debugging——蚂蚁金服观察与实践
  14. 【备读学术论文总览】研究方向论文清单
  15. 二级路由器设置,二级路由器无法上网
  16. 安达智能通过注册:拟募资11.7亿 刘飞与何玉姣夫妇为大专学历
  17. 用photoshop制作证件照片
  18. python png 背景透明_Python - 移除PNG透明图的alpha通道
  19. 基于小波分析与深度学习的脑电信号分类(matlab)
  20. C#鸡兔同笼(一个笼子里面关了鸡和兔子(鸡有2 只脚,兔子有4 只脚,没有例外)。已经知道了笼子里面脚的总数a,问笼子里面至少有多少只动物,至多有多少只动物? 请用C#语言实现这个计算过程;)

热门文章

  1. 做题笔记 2019/10/6
  2. 台式计算机与蓝牙音箱有,蓝牙音箱怎么连电脑台式
  3. 图像的偏色检测及颜色校正方法
  4. 计算机图形学基础-图形的表示和数据结构
  5. 首个写博客的Android任务
  6. 计算机网络层协议介绍icmp/arp
  7. 鸿蒙系统操作界面跟苹果很像,鸿蒙手机UI界面曝出!图标拟物化、操作逻辑近似苹果iOS13...
  8. 123所985、211等高校特点及优势专业
  9. Git的基本配置信息
  10. java使用数组来存储学生基本信息