使用软件(集搜客)

  1. 下载后页面如图所示(需要进行账户绑定)
  2. 进入微博采集工具箱,官网里面直观看到
  3. 按网页提示进行操作,这样你会跳到爬虫界面

使用python代码进行解决

  • 目的:将一些人的博文单元格另存为txt文件,有的单元格是空的,我们可以替换这这些单元格,比如,向空单元格填入无有效数据等,这样有一个缺点就是数据量有点大,导致复制粘贴等效率低下
from openpyxl import load_workbook
#打开相应文档
inwb = load_workbook("06.xlsx")
#选择相应的表名
sheet = inwb.get_sheet_by_name('sheet1')
list_sheet_column_C = []
# 将数据存储
for i in sheet["B"]:list_sheet_column_C.append(i.value)print(i.value)print(i)
print(len(list_sheet_column_C))
a = 1
#将数据进行写入txt文档
for i in range(25460):c = a + 10434if list_sheet_column_C[c] == None:list_sheet_column_C[c] = "无有效内容"
# txt文档是没有办法写入none,并且这种的数据一般是视频或者全图片,我们选择直接让它无有效内容b = "/home/lsgo16/PycharmProjects/untitled1/2012-2013year/{0}.txt".format(a)with open(b,"w",encoding="utf-8") as f:# if list_sheet_column_C[a] == :#     list_sheet_column_C[a] == ""f.write(list_sheet_column_C[c])print("{0}保存成功".format(a))a = a + 1
  • 整体框架

使用第三方软件爬取微博关键字相关推荐

  1. 爬取微博搜索关键字标题

    目标:爬取微博文章搜索标题 步骤: 1.加载模块 import requests from lxml import etree from urllib import parse from fake_u ...

  2. 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)...

    一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...

  3. python根据关键字爬取微博_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  4. python爬取微博动态页面id、内容、评论点赞数存入MongoDB 详解

    目录 前情提要 一.具体操作及注意事项 1.获取解析json文件 2.获取微博内容 3.存入MongoDB数据库 总代码及结果展示 前情提要 本次爬取有未解决的问题 1.用urlencode合成的ur ...

  5. python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容

    想要爬取某个博主的微博数据.在网络上寻找了很多关于爬取微博内容的教程,发现有些教程比较老旧了,已经无法再用,有些教程在我这里出现一些问题,比如爬取移动端的微博需要获取登陆cookie,而我的谷歌浏览器 ...

  6. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  7. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  8. python 登陆微博 被删除 token_爬取微博信息,使用了cookie仍然无法登录微博

    按照网上的模板自己写了类似的代码爬取微博,可是response回来的html是登录界面的html,应该是没有成功登陆微博,但是和网上的代码是基本一样的 from bs4 import Beautifu ...

  9. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

最新文章

  1. html 省份,城市 选择器附效果图
  2. 任意多相机系统的SLAM重设计
  3. 干货丨一文看懂人工智能、机器学习和深度学习的区别与联系
  4. 下一个十年的C位:物联网产业全景解析
  5. linux java mysql 备份 runtime_Linux下mysql定时备份脚本以及java实现
  6. python import io_Python3 IO
  7. Java黑皮书课后题第4章:*4.7(顶点坐标)假设一个正五边形的中心位于(0,0),其中一个点位于0点位置。编写程序,提示用户输入正五边形外接圆的半径,显示p1到p5的5个坐标,保留两位小数
  8. PHP内核——内存管理
  9. [REGEX] 匹配任意字符(包括换行符)
  10. python支持按指定字符串分割成数组_python – 如何切割numpy数组字符串的每个元素?...
  11. 音频特效:Delay 和 Vibrato
  12. 用printf做彩色日志记录
  13. 3D模型格式全解|含RVT、3DS、DWG、FBX、IFC、OSGB、OBJ等70余种
  14. 用JavaSocket编程开发聊天室,附超详细注释
  15. JVM进阶(六)——鲜为人知的二次标记
  16. Java判断字符串中是否包含中英文标点符号
  17. Qt数据库:(五)QSqlQueryModel
  18. WPF免费视频教程,来自Lynda.com
  19. 四大国际快递时效、优势对比
  20. SEO技术是一个很好的方式来分享和做SEO代码。分享一下keysioncms的调用代码。

热门文章

  1. 一分钟就能让你了解NLP!
  2. 实训第五天:播放器现目的实现
  3. html 载入视频wmv,[转]Html中添加.wmv视频文件-Windows Media Player
  4. 生化分离介质:离子交换层析介质/疏水作用层析介质/亲和层析介质/凝胶层析介质/活化中间体
  5. 用Python画一个螺旋彩虹超级简单
  6. 《C语言常见问题集》 -- 摘录和C学习资源(部分已下载)
  7. php 控件开发,分享一些PHP开发者实用工具(上)
  8. java毕业生设计二手车交易网站计算机源码+系统+mysql+调试部署+lw
  9. 制作全景图的软件都有哪些?全景图怎么制作做的?
  10. 我使用Asp.net MVC WebAPI支持OData协议进行分页操作的笔记(第二篇)