一个页面包含10条定位微博,可以利用feed_page=number进行翻页爬取。

<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\"  action-type=\"feed_list_item\">\r\n\t\t\t\t<div class=\"WB_feed_datail S_line2 clearfix\">\r\n\t\t\t<div class=\"WB_face\">代码后开始定位微博信息,前面是周边热门图片信息。

共XXXX条周边微博

以下分别定位字段为,mid,content,locate,geo,date

<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\"

<\/div>\r\n\t\t\t\t<div class=\"WB_text\" node-type=\"feed_list_content\>+微博内容(例如:这里很堵啊。。。。)

<div class=\"map_data\"><span class=\"W_ico16 icon_locate\"><\/span>+位置信息(例如:浙江省,杭州市,上城区,环城东路 )

- <a href=\"javascript:void(0);\" action-type=\"feed_list_geo_info\" action-data=\"geo=120.183074,30.243961&head=http:\/\/tp3.sinaimg.cn\/2843497510\/50\/40021333668\/1&title=尤文-觉罗-不满族-浙江省,杭州市,上城区,环城东路\">

<a target=\"_blank\" href=\"\/2843497510\/ztXIX8GxG\" title=\"2013-04-26 19:03\" date=\"1366974184000\"

一条微博结束的标志

<\/div>\r\n\t\t\t<\/div>\r\n\t\t<\/div>\r\n\t<\/div>\r\n\t\t \r\n

利用相应标志通过正则式提取需要的字段存进数据库,其中mid用于判重。

数据库表的设计

date类型表示YYYY-MM-DD

datetime类型表示YYYY-MM-DD HH:MM:SS

+-----------+----------+------+-----+---------+-------+
| Field     | Type     | Null | Key | Default | Extra |
+-----------+----------+------+-----+---------+-------+
| mid       | char(16) | YES  |     | NULL    |       |
| content   | blob     | YES  |     | NULL    |       |
| locate    | char(20) | YES  |     | NULL    |       |
| longitude | char(10) | YES  |     | NULL    |       |
| latitude  | char(10) | YES  |     | NULL    |       |
| date      | datetime | YES  |     | NULL    |       |
+-----------+----------+------+-----+---------+-------+

在实践过程过程中发现存入blob的时候中文出现乱码问题,所以改成用text了

+-----------+----------+------+-----+---------+-------+
| Field     | Type     | Null | Key | Default | Extra |
+-----------+----------+------+-----+---------+-------+
| mid       | char(16) | YES  | UNI | NULL    |       |
| content   | text     | YES  |     | NULL    |       |
| locate    | char(20) | YES  |     | NULL    |       |
| longitude | char(10) | YES  |     | NULL    |       |
| latitude  | char(10) | YES  |     | NULL    |       |
| date      | datetime | YES  |     | NULL    |       |
+-----------+----------+------+-----+---------+-------+
6 rows in set (0.01 sec)

新浪微博定位页面代码解析相关推荐

  1. 如何在IE浏览器里面定位到关键字的位置(页面代码)和这个关键字位置模块的请求

    1 问题 比如用IE浏览器,打开一个页面,如何定位到关键字的具体位置,以及这个位置请求是什么?可能这个请求不是主页面的请求,因为我们知道页面html里面可以嵌套很多Frame(框架),把页面分割成很多 ...

  2. php中高光显示的高数,[技术博客]React Native——HTML页面代码高亮数学公式解析...

    问题起源 原有博文显示时代码无法高亮,白底黑字的视觉效果不好. 原有博文中无法解析数学公式,导致页面会直接显示数学公式源码. 为了解决这两个问题,尝试了一些方法,最终利用开源类库实现了页面美化. (失 ...

  3. vue重构html css,使用vue重构资讯页面的实例代码解析

    从我接手到将这个页面代码重构前,一直都还是使用angular1的代码去做的,需求来了也是用angular去实现:作为一个憧憬新技术的前端,怎么忍受得了现在还在使用这么有历史感的框架,所以,以前就一直在 ...

  4. selenium第三课(selenium八种定位页面元素方法)

    selenium webdriver进行元素定位时,通过seleniumAPI官方介绍,获取页面元素的方式一共有以下八种方式,现按照常用→不常用的顺序分别介绍一下. 官方api地址:https://s ...

  5. 视觉SLAM开源算法ORB-SLAM3 原理与代码解析

    来源:深蓝学院,文稿整理者:何常鑫,审核&修改:刘国庆 本文总结于上交感知与导航研究所科研助理--刘国庆关于[视觉SLAM开源算法ORB-SLAM3 原理与代码解析]的公开课. ORB-SLA ...

  6. Python selenium根据class定位页面元素,xpath定位

    Python selenium根据class定位页面元素 在日常的网页源码中,我们基于元素的id去定位是最万无一失的,id在单个页面中是不会重复的.但是实际工作中,很多前端开发人员并未给每个元素都编写 ...

  7. vue锚点定位(代码通用) - 总结篇

    vue锚点定位(应用场景) 当前页面锚点 跨页面锚点 hash模式下的锚点 history模式下的锚点 应用前提:(重要的事情,说3+1遍) 任意场景.任意代码.任意框架 都能对接! 都能采用! 都能 ...

  8. Selenium学习 - 库代码解析

    Selenium学习 - 库代码解析 一.selenium/common exceptions.py 定义了一个继承自Exception类的WebDriverException基础异常类,然后通过它扩 ...

  9. 视频直播美颜SDK算法代码解析

    随着短视频.直播软件一类app的流行,美颜sdk的应用也越来越广泛.所谓"美颜",简单解释下,就是通过视频(图片)技术对人脸进行美化.但是就"美化"这个词,却牵 ...

最新文章

  1. 解决Ubuntu 14.04 Unity桌面环境登录后冻结问题
  2. 运行webpack命令每次提示安装webpack-cli
  3. 使用嵌入式关系型SQLite数据库存储数据
  4. 改变状态栏的背景色和文字的颜色
  5. 分布式缓存服务器设计原理
  6. 【项目管理】记第一次出差到客户现场推进项目验收感悟-后续1
  7. JAVA WEB开发实战-张晨光-专题视频课程
  8. 52. SQL Server -- 表分区实战系列(文章索引)
  9. 分享下多年积累的对JAVA程序员成长之路的总结
  10. 一文学会,胶位偏移、缺胶、断胶、溢胶检测
  11. maven项目引用新模块,依赖的jar包与新模块中的jar包版本不一致
  12. 撤销commit且未push操作的git命令
  13. gitlab部署、配置更改、备份及恢复
  14. HADOOP学习_grep和wordcount的例子
  15. 【vue】vue中element表格导出为excel表格
  16. Win11打印机脱机了怎么重新连接?Win11打印机脱机的解决方法
  17. Enterprise Architect 15 使用指南 II
  18. DNS服务器未响应惊叹号,怎么办呢电脑连接网络出现感叹号?
  19. vmdk to vhdx 虚拟磁盘格式转换qemu-img
  20. java 修改Excel表 在指定位置插入行列

热门文章

  1. OpenGL中glRotatef()函数究竟对矩阵做了什么
  2. go语言下载gin失败解决方案
  3. redis incr和incrBy的使用
  4. python中redis incr的使用
  5. 【统计】假设检验方法
  6. vector erase
  7. 访问者模式(Visitor模式)
  8. 谈谈互联网时代的信息安全——如何让自己不受骗
  9. mybatis 绑定失败:Invalid bound statement (not found): com.demo.service.api.dao.SysUserMapper.insert
  10. JVM参数详细配置说明