python爬虫爬取微信_python爬虫对搜狗抓取微信搜索信息不全问题
刚开始学习python爬虫,想实现对搜狗公众号搜索结果的爬取
发现问题是抓到的信息没有直接在浏览器访问的URL信息完整。
以下是基本实现,代码很简单,爬取到的页面中没有“最近文章”(在浏览器中直接访问有“最近文章”内容)
请高手们指点一二,谢谢!
#-*- coding: utf-8 -*-
import urllib2
import sys
import urllib
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding('utf8')
url = 'http://weixin.sogou.com/gzh?openid=oIWsFt5l9RDYeAjdXZBYtGzbH0JI'
print url
i_headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0"}
req = urllib2.Request(url, headers=i_headers)
content = urllib2.urlopen(req).read()
soup = BeautifulSoup(content)
print soup
siteUrls = soup.findAll(attrs={'class':'img_box2'})
print siteUrls
file_object = open('test.htm','w+')
file_object.write(content)
file_object.close()
python爬虫爬取微信_python爬虫对搜狗抓取微信搜索信息不全问题相关推荐
- python抓取交易所_Python百行代码抓取美股三大交易所历史数据
最近闲来无事,琢磨着去投资下美股,投资嘛,当然得先分析下市场行情个股行情啦, 分析就需要有数据,那么数据从哪里来呢,当然是从交易所官方网站获取咯.自己动手丰衣足食,于是花了点时间写个Python脚本来 ...
- python爬虫爬图片教程_python爬虫实战之爬取京东商城实例教程
前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...
- python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
- python怎么爬网站视频教程_python爬虫爬取某网站视频的示例代码
把获取到的下载视频的url存放在数组中(也可写入文件中),通过调用迅雷接口,进行自动下载.(请先下载迅雷,并在其设置中心的下载管理中设置为一键下载) 实现代码如下: from bs4 import B ...
- python爬虫爬图片教程_Python爬虫入门教程 5-100 27270图片爬取
获取待爬取页面 今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥 ...
- python爬虫爬图片教程_Python爬虫爬图片需要什么
Python爬虫爬图片需要什么?下面用两种方法制作批量爬取网络图片的方法: 第一种方法:基于urllib实现 要点如下: 1.url_request = request.Request(url) 2. ...
- python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图 来源:李英杰 链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
- python爬虫爬取图片代码_python爬虫实战 爬取天极图片
学习爬虫个人的意见是直接实战效果会很好 不要等全学完requests ,正则表达式,BeautifulSoup等再来实际操作.其实很多实战我们并不会用到requests库,BeautifulSoup, ...
- python爬虫爬取图片代码_python爬虫-20行代码爬取王者荣耀所有英雄图片,小白也轻轻松松...
1.环境python3.6 需要用到的库: re.os.requests 2.简介 王者荣耀可以算得上是比较受欢迎的手游之一了,应该有不少的人都入坑过农药,我们今天的目的就是要爬取王者荣耀的高清英雄壁 ...
- python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...
Python爬虫包 BeautifulSoup 递归抓取实例详解 概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到 ...
最新文章
- Pure-FTPd服务器
- ASP.NET Core Web Razor Pages系列教程一:使用ASP.NET Core 创建一个Razor Pages网络应用程序
- 【vue】使用localStorage解决vuex在页面刷新后数据被清除的问题
- 信息系统项目管理师:第6章:项目进度管理-章节真题
- 微信小程序组件通信入门及组件生命周期函数
- C# 3.0新特性初步研究 Part5:匿名类型
- “约见”面试官系列之常见面试题第三十一篇之vue-router得守卫(建议收藏)
- 51nod 1091 重叠的线段(贪心)
- 15款最佳的 jQuery 分步引导插件
- 经历一次方知书中千百蕴意 ——读《人月神话》有感
- linux中怎么卸载gamit,GAMIT 解算各步骤-详细
- Mac 给新人的入手指南
- 云上Java System Profiling与Debugging——蚂蚁金服观察与实践
- 【备读学术论文总览】研究方向论文清单
- 二级路由器设置,二级路由器无法上网
- 安达智能通过注册:拟募资11.7亿 刘飞与何玉姣夫妇为大专学历
- 用photoshop制作证件照片
- python png 背景透明_Python - 移除PNG透明图的alpha通道
- 基于小波分析与深度学习的脑电信号分类(matlab)
- C#鸡兔同笼(一个笼子里面关了鸡和兔子(鸡有2 只脚,兔子有4 只脚,没有例外)。已经知道了笼子里面脚的总数a,问笼子里面至少有多少只动物,至多有多少只动物? 请用C#语言实现这个计算过程;)