http://www.cnblogs.com/chenqingyang/p/3762123.html这篇《静态页面爬虫》
1. 不确定到底是不是在登陆状态下抓取用户评论的。
我在浏览器里,不登陆也能看到别的用户所有评论。
所以那个#带着cookie访问别的页面#的问题依然没有解决
2. 根据用户的社交圈计算其pagerank值并进行排序,在本地对某个电影或某本书进行查询,返回所有对该电影评论过的用户,并根据pagerank值排序,权威的用户的评论会被顶到前面
我猜大概就是把

print itemTitle[0]
if itemTitle[0] > '龟'.decode('utf-8') or itemTitle[0] < '一'.decode('utf-8'):  # 此处比较时仍是用unicodefilePath = 'others'
else:utfString = repr(itemTitle)[unicode_identityStart:]filePath = utfString[0:2]
print filePath

这段代码逆过来:假如要搜索《万历十五年》这本书的所有评论(“所有”并不是指豆瓣网的所有用户,而是给的contacts list.txt里的所有用户,因为就爬了这些用户的社交圈和评论),“万”字变成Unicode编码,它的[4,5]两位(从0开始计数)就是database文件夹下的txt文件,在这里找。当然这个文件里还有别的书目和《万历十五年》一样是这个编码的。

最后:本来是想学学cookie的,结果这个代码基本上就是我已经知道了的东西,还有一些实现的细节问题。有点重复已知的感觉不好不好。
3. 还有那个使用代理ip,这样就不怕被封了我也没搞定

不过可以改进的是:

  • 我应该以后用python3来写了。这个ascii can’t encode 的error时有时没的。运行时没问题,单步调试又有了。简直烦死人。
  • 用数据库存储info(我还没有用过)
  • 写成函数,模块化更清晰

《静态页面爬虫》读后总结相关推荐

  1. 《一线架构师实践指南》—— 读后总结

    之前总觉得架构是一件很高大上的工作,跟普通的编码设计不太一样.前一段实践,自己也尝试做过架构的工作,可惜经验不足导致架构非常混乱.这里读完这本书,大体上对架构的工作有所了解,也稍微摸清了些门道. 我理 ...

  2. 读了本号称“App架构师实践指南”的书

    大家好我是张拭心,最近读了本书,书名比较厉害<App架构师实践指南>,读完还是有一定收获的,记录分享给大家. 什么是 app 架构师 这本书主要内容 读完感受 什么是 App 架构师 成为 ...

  3. 《App架构师实践指南》:移动开发的进阶指南

    文章主要内容: 什么是 app 架构师 这本书主要内容 读完感受 什么是 App 架构师 成为"架构师"是许多程序员的梦想,当然也包括我,在工作的几年里,我见过很多架构师,他们在设 ...

  4. App架构师实践指南四之性能优化一

    1.性能维度 常见用来衡量App性能的维度如图9-1所示.其中,性能指标包括电池(电量/温度).流量(上行流量/下行流量等).CPU(平均/最大/最小).内存(平均/最大/最小).帧率(平均/最高/最 ...

  5. Android屏幕适配很难嘛其实也就那么回事,app架构师实践指南pdf

    程序员的劫 最近,又被程序员年龄的事情刷屏了.37岁被公司优化,找工作几个月都没有很好的归属,所谓的小公司还看不上.等等类似的话题变成了程序员的吐槽固定标题,无论是程序员,还是其他行业人员,都可以就这 ...

  6. 高级架构师都在读的10本Java实战书籍,Java开发进阶必备书单

    关乎于程序员,除了做项目来提高自身的技术,还有一种提升自己的专业技能就是:多!看!书! 毕竟,书是学习的海洋呢!So,Java程序员你们准备好了吗?双手奉上Java程序员必读之热门书单. 在下面这 1 ...

  7. 大厂资深架构师都在读的10本Java实战书籍,Java开发进阶必备书单

    入门 <SSM企业级框架实战> 作者: 肖睿/丁慧洁/张宁彬 **简介:**框架(Framework)的本质为某种应用的半成品,即把不同应用程序中的共性内容抽取出来而形成的半成品程序.SS ...

  8. 架构师实践日 · 6.30 杭州站 | 视觉 AI 技术如何助力行业提升?来西子湖畔与业内大咖面对面交流!

    伴随内容形式的变迁(文字 → 图片 → 视频),目前视觉 AI 技术不仅被应用到传统领域的升级革新中,还作为最重要的基础人工智能技术渗透到前沿技术的创新研究中. 七牛架构师实践日第二十九期将以视觉 A ...

  9. 如何构建 FinTech 科学反欺诈体系|架构师实践日

    微众圈 > 微信资讯 > 科技 > 文章 如何构建 FinTech 科学反欺诈体系|架构师实践日 摘自公众号:七牛云发布时间:2017-4-11 21:28:33 FinTech,即 ...

  10. 【架构师实践课】微服务如何拆分?大型微服务项目从何下手?

    继上期[架构师实践课]单体和微服务怎么选?单体到微服务怎么转?之后,万老师为我们带来了微服务系统设计专题的第二个议题:微服务设计痛点. 以下内容根据实践课整理. 微服务如何拆分 首先想和大家分享的,就 ...

最新文章

  1. Gitlab VM安装过程
  2. python微信自动机器人
  3. Android 动态添加Button(1)
  4. Docker中未指定挂载点容器间volume卷的数据共享
  5. matplotlib markers的类型
  6. HTTPS学习笔记一----HTTPS的基础理论知识
  7. 华为P50真机谍照曝光:璀璨粉色机身 牢牢锁定女性用户
  8. 通过JAVA的反射调用类中的公有私有方法
  9. [!] No `Podfile' found in the project directory.
  10. teamcity mysql 配置_TeamCity
  11. 关于编译ns3的myfirst.cc问题
  12. js 获取到number的length
  13. 使用VS2015,office 2007自带的OCR组件来实现OCR功能
  14. Fugl-Meyer Assessment(FMA)
  15. 李一男离开华为时的忠告
  16. 【安全知识分享】新员工公司级安全生产教育培训(附下载)
  17. 关系型数据库中联合主键和唯一索引的应用
  18. 考研计算机选择北大还是上交,北大计算机技术考研经验分享
  19. 好用的矢量绘图软件:EazyDraw 9 for Mac中文破解版!
  20. WEB页面源代码查看

热门文章

  1. springboot日志输出格式
  2. 数据结构与算法weeks05
  3. 《 Mind Map Book 思维导图中文版》读书笔记
  4. 搭建BitTorrent环境
  5. 在线教育网站源码,让学习不再枯燥
  6. 同一数据库在两台机上不同路径的备份还原
  7. cc-project详细文档
  8. MATLAB 自定义函数拟合
  9. 一行代码教你伪装黑客
  10. 使用C语言分析分析英文字符串中的单词