(来自文通 杨晓伟)

长微博是通过图片发布文字信息的一种形式,起因是微博通常不得超过140字,故将文字转化为点阵图像发布。长微博最主要的作用是突破140字限制,但后来通过附带相应文字版本的链接演变为博客和长文章的入口。

由于长微博的引入,微博与生俱来的“碎片化传播”特征发生了明显变化。迎合“快餐文化”而出现的微博,通常将字数限制在140字,使得信息“碎片化”,进入日常生活的“边角”时间。而长微博则非常成功地将博客的功能集成到微博中,使得微博用户时常通过长微博或者其附带的博客链接阅读长文。长微博的引入使得博客和微博的联系更加紧密,区别更小,并相互促进——“话题构造在博客空间,而舆论发酵却在微博平台”。用户通过长微博或博客更充分地消化信息,而通过微博发表观点,将更多人引入话题的讨论。

互联网时代人人都是自媒体,人人都有麦克风,5.91亿的中国网民都在通过论坛、贴吧、微博、SNS、博客等网络平台发表言论,参与交流,汇集成网络民意,形成网络舆论。在经过2012年网络监督年、2013年微博反腐年等一系列的网络事件,各政府及企业越来越关注网络舆情动态。

但是长微博和普通的论坛、贴吧有本质的区别,因为长微博是通过图片发布文字信息。这也就意味着对于长微博内容的分析不可能像对于论坛帖子一样,无法做到直接把文字拿来分析。

文字信息存放在图片里,这一致命的缺点,导致了长微博成为某些不法分子危害网络的不良工具。

传统的网络舆情监测系统,只能针对网络上的文字来进行抓取、分析、筛选、判断。一旦遇到长微博这种图片类型的内容,只能望洋兴叹!无法获取图片里的文字信息,就无法正确判断图片带给网络到底是利还是弊。只能放任一些携带违法内容的图片流窜于网络,危害网民。

长微博让人们享受生活“边角时间”带来的速食文化,这毫无疑问是大有好处的。但是那些网络不法分子,一旦利用长微博发布一些危害国家、人民和社会的不良内容。让暴力、色情、犯罪这些违反人伦道德的内容肆虐在网络上,人们被迫的耳濡目染,让那些没有分辨是非能力的青少年接受负面的教育影响,带来的后果是致命的,灾难性的。所以我们要做的就是确保收到的每一条长微博,都是要干净的、都是要健康的。

最核心也是最关键的一步工作,就是要正确识别长微博里的文字内容。做到这一步,我们就可以像分析论坛里的帖子一样,对图片做出正确的判断,究竟是放行还是枪毙!

OCR文字识别技术在这个节骨眼上发挥了巨大的作用。

长微博生来各不相同,背景的颜色五花八门,图文混排,文字在图上,形形色色的长微博充斥在我们的网络世界当中,想要把长微博中的文字识别出来难上加难。

清华大学图文实验室,从国家863计划开始,一直致力于图像文字识别,也就是OCR识别技术。在丁晓青教授的带领下,目前终于攻克了长微博这种复杂背景图片的上的文字识别。在和北京文通科技有限公司的强强合作下,成功把这一识别技术应用在舆情监测的领域,造福了网络世界。让那些污染我们眼睛和心灵的垃圾长微博被扼杀在萌芽之中。

这款长微博识别系统,不仅能对长微博有效的进行版面分析,精确定位到文字内容,而且可以很好的进行二值化处理,把文字内容识别出来,让长微博内容的监测不再有技术门槛。

Inernet自从面世以来,就备受争议。我们应该自觉的维护网络世界,还网络世界一片净土。拒绝传播不良的图文信息。当然如果有人不自觉的想以身试法,那我们就应该拿出OCR识别技术这样的利器来维护我们的权益,让危害无处藏身。

保护地球,人人有责。同样,保护我们虚拟的网络世界,同样刻不容缓。

北京文通科技有限公司相信,在清华大学技术的带领下,我们一定能把OCR技术推广到各行各业,让技术服务于社会,让OCR技术绽放异彩!

长微博识别—让图片里的文字走出来!相关推荐

  1. Python PDF转Word,以及提取Word中图片里的文字

    PDF转Word,以及提取Word中图片里的文字 PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除 软件截图: #!/usr/bin/ ...

  2. 图像 - 识别出图片里的数字和字母

    本文给大家分享的是C#识别出图片里的数字和字母的代码,主要是识别以前公司的软件注册码截图里的数字和字母,功能很简单,也存在很大的局限性,这里仅仅是分享,小伙伴们参考下. 一个图片识别小工具,原先主要是 ...

  3. 怎么从扫描的PDF文档/图片里提取文字

    时间浪费在打字上可不好! 关于"怎么从扫描的PDF文档/图片里提取文字",我集思广益,得到如下结果: 首先是这里的一篇文章:http://hi.baidu.com/d_zzn047 ...

  4. 初次爬虫:读取PDF转成图片,再提取图片里的文字信息

    读取PDF转成图片,再提取图片里的文字信息 三步走 第一步 读取PDF并转换成图片 第二步 调用百度API来识别图片里面的文字信息 第三步 提取自己想要的文字信息 三步走 1 读取PDF,将PDF转换 ...

  5. 如何快速识别提取图片上的文字

    我们在日常工作中,我们经常会遇到将图片上文字转换成Word文档这样的情况,要知道, 图片上的文字是不能直接复制的,这是一件令人头疼的一件事情.那么要怎样才能快速的 提取这些图片的文字呢? 快速识别提取 ...

  6. php网页怎么修改文字内容,图片里的文字怎么修改

    修改图片里的文字方法:首先使用画图打开,点击编辑:然后点击橡皮擦工具,并点击颜色选取器,吸取原来的颜色:最后点击[A]输入字体即可. 本文操作环境:Windows7系统,mspaint6.2软件,De ...

  7. 图片里的文字如何提取?试试这几种提取方法

      最近收到了一些小伙伴的私信,他们收到了对方发送过来的图片,觉得图片上的文字信息比较重要,但是又不知道有什么快速的方法能提取到图片中的文字.平时你们遇到这种情况会怎么做呢?今天我给大家分享几个可以将 ...

  8. python向图片里添加文字

    #!/usr/bin/python #-*-coding:utf-8-*- from PIL import Image,ImageDraw,ImageFontdef main():#python创建图 ...

  9. python数据分析水果_超酷炫的事情,使用python识别出图片里的水果

    文章首发于公众号 coolpython 机器学习是计算机视觉已经成为一种热潮,但进入该领域却是一件非常困难的事情,因为这需要非常扎实的数学背景,其所需要的专业知识,即便是大学本科毕业也近乎难以满足. ...

最新文章

  1. 软件开发详细设计说明书_汽车软件开发之ASPICE系统需求过程组
  2. 核磁共振波谱分析_实验室各种仪器原理动图剖析,这么多分析仪器原理,1次搞清楚了...
  3. centos mysql权限不够_centos执行文件时权限不够怎么解决_网站服务器运行维护,centos...
  4. Nginx负载均衡记录
  5. 一张图看懂H5、混合应用、微信小程序
  6. android adb shell常用命令(四)
  7. 基本程序 打印Scala的Hello World
  8. 小白学 Python 爬虫:Selenium 获取某大型电商网站商品信息
  9. Python标准库判断图片文件和声音文件的格式
  10. Linux中用户与组群管理
  11. 全息营销话题提纲(2-1)--王甲佳全息营销系列15
  12. webbench 压力测试软件
  13. Win32API编程_切换窗口
  14. 百度IP地址查询API使用: 应用类型为浏览器端
  15. DeepStream 快速入门
  16. JavaScript 中的事件类型4(读书笔记思维导图)
  17. 4/2 三元表达式/函数递归/匿名函数/内置函数
  18. Nginx 代理缓存
  19. 跨境电商RPA是什么意思?用PRA工具能做啥?
  20. matlab如何导出表格图表,如何将matlab绘制的图表导入到Word中 | 我爱分享网

热门文章

  1. 数据结构——栈和队列(上)
  2. java计算机毕业设计校园一卡通服务平台源码+mysql数据库+lw文档+系统+调试部署
  3. 无忧考吧python编译环境不存在_无忧考吧考试系统题库2019年9月 ((装载资源)...
  4. 计算机网络的答案,计算机网络参考答案
  5. 【Unity】实现类似皇室战争使用“火球”将敌人“炸开”效果
  6. jQuery 回调函数和方法链接使用
  7. 硬件加速器中常用的几种加密算法
  8. 物联网实训_Day01~Day06
  9. 华为:挽狂澜之既倒,扶大厦之将倾
  10. 乐视手机型号和cpu