《静态页面爬虫》读后总结
http://www.cnblogs.com/chenqingyang/p/3762123.html这篇《静态页面爬虫》
1. 不确定到底是不是在登陆状态下抓取用户评论的。
我在浏览器里,不登陆也能看到别的用户所有评论。
所以那个#带着cookie访问别的页面#的问题依然没有解决
2. 根据用户的社交圈计算其pagerank值并进行排序,在本地对某个电影或某本书进行查询,返回所有对该电影评论过的用户,并根据pagerank值排序,权威的用户的评论会被顶到前面
我猜大概就是把
print itemTitle[0]
if itemTitle[0] > '龟'.decode('utf-8') or itemTitle[0] < '一'.decode('utf-8'): # 此处比较时仍是用unicodefilePath = 'others'
else:utfString = repr(itemTitle)[unicode_identityStart:]filePath = utfString[0:2]
print filePath
这段代码逆过来:假如要搜索《万历十五年》这本书的所有评论(“所有”并不是指豆瓣网的所有用户,而是给的contacts list.txt里的所有用户,因为就爬了这些用户的社交圈和评论),“万”字变成Unicode编码,它的[4,5]两位(从0开始计数)就是database文件夹下的txt文件,在这里找。当然这个文件里还有别的书目和《万历十五年》一样是这个编码的。
最后:本来是想学学cookie的,结果这个代码基本上就是我已经知道了的东西,还有一些实现的细节问题。有点重复已知的感觉不好不好。
3. 还有那个使用代理ip,这样就不怕被封了我也没搞定
不过可以改进的是:
- 我应该以后用python3来写了。这个ascii can’t encode 的error时有时没的。运行时没问题,单步调试又有了。简直烦死人。
- 用数据库存储info(我还没有用过)
- 写成函数,模块化更清晰
《静态页面爬虫》读后总结相关推荐
- 《一线架构师实践指南》—— 读后总结
之前总觉得架构是一件很高大上的工作,跟普通的编码设计不太一样.前一段实践,自己也尝试做过架构的工作,可惜经验不足导致架构非常混乱.这里读完这本书,大体上对架构的工作有所了解,也稍微摸清了些门道. 我理 ...
- 读了本号称“App架构师实践指南”的书
大家好我是张拭心,最近读了本书,书名比较厉害<App架构师实践指南>,读完还是有一定收获的,记录分享给大家. 什么是 app 架构师 这本书主要内容 读完感受 什么是 App 架构师 成为 ...
- 《App架构师实践指南》:移动开发的进阶指南
文章主要内容: 什么是 app 架构师 这本书主要内容 读完感受 什么是 App 架构师 成为"架构师"是许多程序员的梦想,当然也包括我,在工作的几年里,我见过很多架构师,他们在设 ...
- App架构师实践指南四之性能优化一
1.性能维度 常见用来衡量App性能的维度如图9-1所示.其中,性能指标包括电池(电量/温度).流量(上行流量/下行流量等).CPU(平均/最大/最小).内存(平均/最大/最小).帧率(平均/最高/最 ...
- Android屏幕适配很难嘛其实也就那么回事,app架构师实践指南pdf
程序员的劫 最近,又被程序员年龄的事情刷屏了.37岁被公司优化,找工作几个月都没有很好的归属,所谓的小公司还看不上.等等类似的话题变成了程序员的吐槽固定标题,无论是程序员,还是其他行业人员,都可以就这 ...
- 高级架构师都在读的10本Java实战书籍,Java开发进阶必备书单
关乎于程序员,除了做项目来提高自身的技术,还有一种提升自己的专业技能就是:多!看!书! 毕竟,书是学习的海洋呢!So,Java程序员你们准备好了吗?双手奉上Java程序员必读之热门书单. 在下面这 1 ...
- 大厂资深架构师都在读的10本Java实战书籍,Java开发进阶必备书单
入门 <SSM企业级框架实战> 作者: 肖睿/丁慧洁/张宁彬 **简介:**框架(Framework)的本质为某种应用的半成品,即把不同应用程序中的共性内容抽取出来而形成的半成品程序.SS ...
- 架构师实践日 · 6.30 杭州站 | 视觉 AI 技术如何助力行业提升?来西子湖畔与业内大咖面对面交流!
伴随内容形式的变迁(文字 → 图片 → 视频),目前视觉 AI 技术不仅被应用到传统领域的升级革新中,还作为最重要的基础人工智能技术渗透到前沿技术的创新研究中. 七牛架构师实践日第二十九期将以视觉 A ...
- 如何构建 FinTech 科学反欺诈体系|架构师实践日
微众圈 > 微信资讯 > 科技 > 文章 如何构建 FinTech 科学反欺诈体系|架构师实践日 摘自公众号:七牛云发布时间:2017-4-11 21:28:33 FinTech,即 ...
- 【架构师实践课】微服务如何拆分?大型微服务项目从何下手?
继上期[架构师实践课]单体和微服务怎么选?单体到微服务怎么转?之后,万老师为我们带来了微服务系统设计专题的第二个议题:微服务设计痛点. 以下内容根据实践课整理. 微服务如何拆分 首先想和大家分享的,就 ...
最新文章
- Gitlab VM安装过程
- python微信自动机器人
- Android 动态添加Button(1)
- Docker中未指定挂载点容器间volume卷的数据共享
- matplotlib markers的类型
- HTTPS学习笔记一----HTTPS的基础理论知识
- 华为P50真机谍照曝光:璀璨粉色机身 牢牢锁定女性用户
- 通过JAVA的反射调用类中的公有私有方法
- [!] No `Podfile' found in the project directory.
- teamcity mysql 配置_TeamCity
- 关于编译ns3的myfirst.cc问题
- js 获取到number的length
- 使用VS2015,office 2007自带的OCR组件来实现OCR功能
- Fugl-Meyer Assessment(FMA)
- 李一男离开华为时的忠告
- 【安全知识分享】新员工公司级安全生产教育培训(附下载)
- 关系型数据库中联合主键和唯一索引的应用
- 考研计算机选择北大还是上交,北大计算机技术考研经验分享
- 好用的矢量绘图软件:EazyDraw 9 for Mac中文破解版!
- WEB页面源代码查看