今天笔者分享一下使用scrapy爬取百度贴吧的时候遇到的表情问题,一直未解决因为表情入库的问题再网上查了好久,从网上看到修改数据库字段的编码格式,但是一直修改的有问题,最终修改了好久才得解决,今天分享下来方便其他人如果遇到这类的问题。

python2的解决方法直接上代码如下:
def filter_emoji(desstr, restr=''):'''过滤表情'''try:co = re.compile(u'[\U00010000-\U0010ffff]')except re.error:co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')return co.sub(restr, desstr)# safe_name = self.filter_emoji(item['lzhu_name'])  //字段的过滤
# safe_title = self.filter_emoji(item['title'])  //字段的过滤
python3的解决方法


建表的时候是每一个字段都设置成utf8mb4字符集,保存即可,当然存到数据库中的数据并不能去除表情而是表情变成了如下图:

网页链接可以分享给你自己看: http://tieba.baidu.com/p/4936875375

好分享结束,希望能帮到你。

python-爬取贴吧的时候表情的处理。相关推荐

  1. 聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包

    聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包 前言 分析页面 具体实现 解析页面 获取网页内容 解析网页内容 文件下载 多线程下载 成果 总结 前言 事情要从几天前说起,我有一个朋 ...

  2. python爬取表情包,并下载到本地

    python爬取表情包 需求:爬取2页表情包,网址是:https://www.fabiaoqing.com/biaoqing 上代码 import requests # 数据请求模块 import p ...

  3. 教你用Python爬取表情包网站下的全部表情图片

    教你用Python爬取表情包网站下的全部表情图片 又是我啦~~~ 最近上网的时候老看到有人用Python爬取表情包,心痒痒自己也整了一个. 使用到的扩展库:BeautifulSoup, request ...

  4. python爬取斗图啦表情包并下载到本地

    迫于无聊,又刚好正在学习python,就来记录一篇关于python爬取图片链接下载本地的入门文章... 主要用到的模块: request 和 BeautifulSoup4 开发之前建议先看一下官方给出 ...

  5. 聊天没有表情包被嘲讽,用python爬取了十万张表情包

    来源于网络,侵删 前言 事情要从几天前说起,我有一个朋友,他在和他喜欢的小姐姐聊天时,聊天的气氛一直非常尬,这时他就想发点表情包来缓和一下气氛,但一看自己的表情包收藏都是这样的... ...这发过去, ...

  6. Python 爬取表情包-斗图不会输在起跑线

                   Python 爬取表情包-斗图不会输在起跑线 对于酷爱聊天的朋友来说,表情包应该是他们心中的灵魂,没有图的聊天只能算虾扯蛋了.图片(表情包)赋予了聊天更多的内涵,很多时候 ...

  7. python全网表情包_Python爬虫爬取最右公众号表情包资源

    某天上厕所刷手机,看到最右公众号里面有一个表情包资源合集 点进去发现有70多期表情包,突然就想到了最近学的爬虫,立马跑回去打开电脑准备看能不能全部爬下来. 我的想法是先找到这70多期的url链接,然后 ...

  8. 看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云

    简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...

  9. 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...

  10. 用Python爬取微信好友头像,才知道好友都是这样的人

    用Pyhon爬取微信好友头像,才知道好友是这样的人 看你的微信头像,就知道你没见过世面 看你的微信名称,我就猜到了你是个渣男 看你的朋友圈,就能反映出你很好追 选择微信头像的纠结症 现如今,不管是常用 ...

最新文章

  1. c++ auto 关键字
  2. 《系统集成项目管理工程师》必背100个知识点-22实施整体变更ITTO
  3. SSM格式化导出报表时间的格式
  4. [JS]手写动画最小时间间隔设置
  5. Anaconda 一直停留在 Loading apps list... 解决方案
  6. 前端学习(2355):uni里面的样式学习
  7. python数据预测代码_手把手教你用Python玩转时序数据,从采样、预测到聚类丨代码...
  8. Suse系统用户不能登录报错
  9. Ubuntu18.04开机卡在“starting Gnome Display Manager”的解决方法
  10. jsp九大内置对象的使用详解
  11. vim/nvim键盘映射
  12. 基于 Mybatis 和 Springboot 的后台管理系统 BootDo | 软件推介
  13. 三星内存编码_想问一下三星内存条的型号有什么区别
  14. echarts 饼状图渐变色
  15. POI实现Excel模板下载
  16. 手机QQ后台清理不掉的秘密——anddroid悬浮窗
  17. ubuntu下安装git安装及使用
  18. 数据挖掘课程小结——1)数据预处理
  19. 看房一次就租下的90后,大概都喜欢Q房网
  20. 用于汽车传感器的混合点云语义压缩:性能评估

热门文章

  1. Assembler--Error: invalid instruction suffix for `push‘
  2. matlab线性规划的最优化,【OR】Matlab求解最优化问题(1) 线性规划
  3. 银行客户流失分析预测
  4. 无需翻墙解决谷歌浏览器-谷歌翻译无法使用的解决方法
  5. Windows2012 系统从MBR转GPT免重装的经验
  6. 题目 2260: 求arccos值
  7. 企业盈利能力五大指标之:总资产收益率
  8. uva1391-Astronauts
  9. 彩虹表MD5破解分析
  10. 【教程】docker容器间跨宿主机通信-基于overlay