思路::

(本文没有用xpath定位,xpath需要导入第三方库   from lxml import etree)

1.首先通过urllib类获取到网页的所有内容

2.通过partition获取其中的部分内容

3.在通过指定内容放到放到一个list中1!

代码如下:

#encoding: utf-8
import urllib, os# 获取网页内容
def getContent(urlAddr):page = urllib.urlopen(urlAddr)html = page.read()return html
# 获取指定内容
def content(html):str = r'<div id="post_list">'content = html.partition(str)[2]str1 = r'<script>'content = content.partition(str1)[0]# 爬取内容太存到list中
def getTitleName(content, beg = 0):try:title_list = []while True:num1 = content.index('target="_blank">', beg)+16num2 = content.index('</a>', num1)title_list.append(content[num1:num2])beg = num2except ValueError:return title_listSourceUrl = "http://www.cnblogs.com/pick/"
contentTotal = getContent(SourceUrl)
specilContent = content(contentTotal)for i in range (1, 40):print "%d标题是:%s" % (i, getTitleName(contentTotal)[i])

显示效果为:

1标题是:架构之路(五):忘记数据库
2标题是:.NET基础拾遗(5)多线程开发基础
3标题是:你为什么不分享
4标题是:架构之路(三) 单元测试
5标题是:从中间件的历史来看移动App开发的未来
6标题是:架构之路(二):性能
7标题是:每个人都应该懂点函数式编程
8标题是:程序员读书这件事情
9标题是:前端代码异常日志收集与监控
10标题是:iOS开发系列--Swift语言
11标题是:设计-简约而不简单
12标题是:Entity Framework教程(第二版)
13标题是:搞个这样的APP要多久?
14标题是:REST简介
15标题是:探索C#之6.0语法糖剖析
16标题是:CLR 这些年有啥变化吗?
17标题是:理想的应用框架
18标题是:Web性能优化:What? Why? How?
19标题是:CSS十问——好奇心+刨根问底=CSSer
20标题是:难免的尴尬:代码依赖
21标题是:反馈或建议
22标题是:官方博客
23标题是:博客模板
24标题是:.NET招聘
25标题是:Java招聘
26标题是:C++招聘
27标题是:PHP招聘
28标题是:Web前端招聘
29标题是:<img src="http://img.cnblogs.com/friend_links/logo_aliyun.jpg" alt="阿里云" />
30标题是:沪江网
31标题是:站长之家
32标题是:天极网
33标题是:A5源码下载
34标题是:葡萄城控件
35标题是:又拍云存储
36标题是:高考查分
37标题是:听云APP
38标题是:融云IM云
39标题是:极光推送
[Finished in 0.7s]

github地址为:

转载于:https://www.cnblogs.com/ievjai/p/4943943.html

python 学习爬虫教程~相关推荐

  1. python课程开课吧怎么样-廖雪峰总结的Python商业爬虫教程,请查收!

    原标题:廖雪峰总结的Python商业爬虫教程,请查收! 2018 IEEE最热门48种编程语言榜,Python雄踞四项第一! 据介绍,IEEE Spectrum 的排序是综合 10 个精选线上数据源, ...

  2. python网络爬虫教程(四):强大便捷的请求库requests详解与编程实战

    上一章中,我们了解了urllib的基本用法,详情可浏览如下链接python网络爬虫教程(三):详解urllib库,但其中确实有不方便的地方,为此,我们可以使用更方便更简洁的HTTP请求库request ...

  3. python学习——高级教程

    Python学习 高级教程 目录 1. Python面向对象 2. Python正则表达式 3. Python多线程 4. Python GUI编程 5. Python JSON 一.Python面向 ...

  4. python网络爬虫教程-教你从零开始学会写 Python 爬虫

    原标题:教你从零开始学会写 Python 爬虫 写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚 ...

  5. python网络爬虫教程-如何入门 Python 爬虫?

    "入门"是良好的动机,但是可能作用缓慢.如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习. 另外如果说知识体系里的每一个知识点是图里的点,依 ...

  6. python网络爬虫教程-终于明了python网络爬虫从入门到实践

    Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门.以下是小编为你整理的python网络爬虫从入门到实践 环境配置:下载Pyth ...

  7. python新闻爬虫教程_python简易爬虫教程--(一)批量获取搜狐新闻

    我们先从简单的抓取文本信息开始,来写我们的第一个爬虫程序,获取搜狐新闻的内容. 我们首先来介绍一下我们需要用到的库. 爬虫程序的步骤,一般可以分为三步: 1.获取网页源码(html源码): 2.从代码 ...

  8. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

  9. python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程

    如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...

最新文章

  1. 使用神经网络做二分类,输出层需要几个神经元?应该选择哪一种激活函数?如果要处理minst数据、输出层需要几个神经元?使用那种激活函数?如果使用神经网络预测房价,输出层需要几个神经元、使用什么激活函数?
  2. (23)逆向分析 MmIsAddressValid 函数(XP系统 10-10-12分页)
  3. ACM入门之【最短路】
  4. linux 同步 mac,WorkFlowy Beta for Mac(跨平台同步笔记工具)
  5. 【pmcaff专栏】项目管理失败?如何避免?
  6. Matlab与C/C++混合编程接口及应用
  7. 【转】linux tar.gz zip 解压缩 压缩命令
  8. Feign深入学习(一)
  9. this super java_java中 this 和super的用法
  10. 星光 SaaS 伙伴甄云科技:如何构建更适合快成长企业的数字化采购管理平台?
  11. 怎样做高质量的财务分析?
  12. 我慕了!腾讯大手一挥,员工买房最高可申请免息借款90万
  13. 网页设计中JS与Java的区别
  14. 剑指offer面试题32 - I. 从上到下打印二叉树(二叉树)(BFS)
  15. 使用c#访问access数据库
  16. 苹果CMSv10自适应视频站原创挖片网高端seo收录模板
  17. iOS 越狱检测/反越狱
  18. Matlab:绘制正弦曲线与余弦曲线
  19. 程序员必会的计算机网络知识 --酷勤网
  20. HBase原理 -Regin切分

热门文章

  1. 002-软件质量模型
  2. 基于Swoole和beanstalkd实现多进程处理消息队列。
  3. GreenDao 配置和使用
  4. Linux常用的网络服务基础命令
  5. Ubuntu安装anaconda,tensorflow,keras,pytorch
  6. js中将html文档写入静态界面当中
  7. MySQL读写分离(二)—— jdbc驱动实现
  8. 彻底搞懂Html5本地存储技术(一)
  9. Linux格式化分区报错Could not start /dev/sda No such file or directory 解决办法
  10. Excel对话框大全