python 学习爬虫教程~
思路::
(本文没有用xpath定位,xpath需要导入第三方库 from lxml import etree)
1.首先通过urllib类获取到网页的所有内容
2.通过partition获取其中的部分内容
3.在通过指定内容放到放到一个list中1!
代码如下:
#encoding: utf-8 import urllib, os# 获取网页内容 def getContent(urlAddr):page = urllib.urlopen(urlAddr)html = page.read()return html # 获取指定内容 def content(html):str = r'<div id="post_list">'content = html.partition(str)[2]str1 = r'<script>'content = content.partition(str1)[0]# 爬取内容太存到list中 def getTitleName(content, beg = 0):try:title_list = []while True:num1 = content.index('target="_blank">', beg)+16num2 = content.index('</a>', num1)title_list.append(content[num1:num2])beg = num2except ValueError:return title_listSourceUrl = "http://www.cnblogs.com/pick/" contentTotal = getContent(SourceUrl) specilContent = content(contentTotal)for i in range (1, 40):print "%d标题是:%s" % (i, getTitleName(contentTotal)[i])
显示效果为:
1标题是:架构之路(五):忘记数据库 2标题是:.NET基础拾遗(5)多线程开发基础 3标题是:你为什么不分享 4标题是:架构之路(三) 单元测试 5标题是:从中间件的历史来看移动App开发的未来 6标题是:架构之路(二):性能 7标题是:每个人都应该懂点函数式编程 8标题是:程序员读书这件事情 9标题是:前端代码异常日志收集与监控 10标题是:iOS开发系列--Swift语言 11标题是:设计-简约而不简单 12标题是:Entity Framework教程(第二版) 13标题是:搞个这样的APP要多久? 14标题是:REST简介 15标题是:探索C#之6.0语法糖剖析 16标题是:CLR 这些年有啥变化吗? 17标题是:理想的应用框架 18标题是:Web性能优化:What? Why? How? 19标题是:CSS十问——好奇心+刨根问底=CSSer 20标题是:难免的尴尬:代码依赖 21标题是:反馈或建议 22标题是:官方博客 23标题是:博客模板 24标题是:.NET招聘 25标题是:Java招聘 26标题是:C++招聘 27标题是:PHP招聘 28标题是:Web前端招聘 29标题是:<img src="http://img.cnblogs.com/friend_links/logo_aliyun.jpg" alt="阿里云" /> 30标题是:沪江网 31标题是:站长之家 32标题是:天极网 33标题是:A5源码下载 34标题是:葡萄城控件 35标题是:又拍云存储 36标题是:高考查分 37标题是:听云APP 38标题是:融云IM云 39标题是:极光推送 [Finished in 0.7s]
github地址为:
转载于:https://www.cnblogs.com/ievjai/p/4943943.html
python 学习爬虫教程~相关推荐
- python课程开课吧怎么样-廖雪峰总结的Python商业爬虫教程,请查收!
原标题:廖雪峰总结的Python商业爬虫教程,请查收! 2018 IEEE最热门48种编程语言榜,Python雄踞四项第一! 据介绍,IEEE Spectrum 的排序是综合 10 个精选线上数据源, ...
- python网络爬虫教程(四):强大便捷的请求库requests详解与编程实战
上一章中,我们了解了urllib的基本用法,详情可浏览如下链接python网络爬虫教程(三):详解urllib库,但其中确实有不方便的地方,为此,我们可以使用更方便更简洁的HTTP请求库request ...
- python学习——高级教程
Python学习 高级教程 目录 1. Python面向对象 2. Python正则表达式 3. Python多线程 4. Python GUI编程 5. Python JSON 一.Python面向 ...
- python网络爬虫教程-教你从零开始学会写 Python 爬虫
原标题:教你从零开始学会写 Python 爬虫 写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚 ...
- python网络爬虫教程-如何入门 Python 爬虫?
"入门"是良好的动机,但是可能作用缓慢.如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习. 另外如果说知识体系里的每一个知识点是图里的点,依 ...
- python网络爬虫教程-终于明了python网络爬虫从入门到实践
Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门.以下是小编为你整理的python网络爬虫从入门到实践 环境配置:下载Pyth ...
- python新闻爬虫教程_python简易爬虫教程--(一)批量获取搜狐新闻
我们先从简单的抓取文本信息开始,来写我们的第一个爬虫程序,获取搜狐新闻的内容. 我们首先来介绍一下我们需要用到的库. 爬虫程序的步骤,一般可以分为三步: 1.获取网页源码(html源码): 2.从代码 ...
- python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...
廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...
- python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程
如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...
最新文章
- 使用神经网络做二分类,输出层需要几个神经元?应该选择哪一种激活函数?如果要处理minst数据、输出层需要几个神经元?使用那种激活函数?如果使用神经网络预测房价,输出层需要几个神经元、使用什么激活函数?
- (23)逆向分析 MmIsAddressValid 函数(XP系统 10-10-12分页)
- ACM入门之【最短路】
- linux 同步 mac,WorkFlowy Beta for Mac(跨平台同步笔记工具)
- 【pmcaff专栏】项目管理失败?如何避免?
- Matlab与C/C++混合编程接口及应用
- 【转】linux tar.gz zip 解压缩 压缩命令
- Feign深入学习(一)
- this super java_java中 this 和super的用法
- 星光 SaaS 伙伴甄云科技:如何构建更适合快成长企业的数字化采购管理平台?
- 怎样做高质量的财务分析?
- 我慕了!腾讯大手一挥,员工买房最高可申请免息借款90万
- 网页设计中JS与Java的区别
- 剑指offer面试题32 - I. 从上到下打印二叉树(二叉树)(BFS)
- 使用c#访问access数据库
- 苹果CMSv10自适应视频站原创挖片网高端seo收录模板
- iOS 越狱检测/反越狱
- Matlab:绘制正弦曲线与余弦曲线
- 程序员必会的计算机网络知识 --酷勤网
- HBase原理 -Regin切分