本文是Python版本的介绍,只有数据清洗部分不含对Excel的操作,包含去除html标签和去掉信息里的url地址。

Python的代码相对java简明了太多

# -*- coding: UTF-8 -*-

'''

Created on 2013年12月10日

@author: daT dev.tao@gmail.com

'''

import re

def dealHtmlTags(html):

'''

去掉html标签

'''

from HTMLParser import HTMLParser

html=html.strip()

html=html.strip("\n")

result=[]

parse=HTMLParser()

parse.handle_data=result.append

parse.feed(html)

parse.close()

return "".join(result)

def dealUrl(text):

'''

去掉微博信息中的url地址

'''

return re.sub('''http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+''', '',text)

if __name__== "__main__":

html = """接下来一年,我希望在惠普电脑看到更人性化,各科技化的东西,更能提升视觉享受的东西。 地址:http://t.cn/8kUAX2z

"""

html = dealHtmlTags(html)

print dealUrl(html)

python数据清洗代码_微博数据清洗(Python版)相关推荐

  1. 二分查找python实现代码_二分查找——Python实现

    一.排序思想 二.python实现 def binarySearchDemo(arr, key): """ python二分查找非递归方式 :param arr:待排序列 ...

  2. python一行代码_一行有效python代码

    完成同样的功能,尽量少写代码 伊始 今天跟大家分享几个有趣的kata,刚开始做这几个kata的时候,我也写了很长的代码才完成,随着后来对python的深入接触,发现python一些简单却十分强大的特性 ...

  3. 用python表白代码_程序员python表白代码

    原博文 2019-06-13 17:33 − python表白代码 源代码如下: # -*- coding:utf-8 -*- import turtle import time # 画爱心的顶部 d ...

  4. python猪代码_猪圈密码python脚本实现

    CTF比赛中,MISC题型中有时候会考到一种一种叫做"猪圈密码"(Pigpen_chiper)的简单加密方式.网上有个表可以对照地来实现解密,但是实际中太慢不符合竞速思维,于是写一 ...

  5. python渐变色代码_如何在Python中创建颜色渐变?

    6 个答案: 答案 0 :(得分:54) 我还没有看到一个简单的答案就是使用colour package. 通过pip安装 pip install colour 如此使用: from colour i ...

  6. 用python表白代码_如何用Python代码向心爱的姑娘花式表白?

    刚好之前用turtle 写过一个https://www.zhihu.com/video/1058809172984004608 这是我当时自学python第二天写的一个,书上讲到了一个turtle模块 ...

  7. python扫雷代码_谁说Python不能做游戏的?能做这些游戏,附赠所有游戏源码文件...

    Python编程语言的强大,几乎是众所周知的! 不仅能用来做web.爬虫.数据分析等,没想到还能用做这么多的游戏,实在令人惊讶不已. 那么,下面我给大家介绍一下几个用Python实现的各种游戏吧. 注 ...

  8. python函数代码_如何显示Python函数的代码?

    这有点老套,但是如果这是您经常要做的事情,您可以使用readline模块和函数修饰符.在class PrintableFunction(object): """A cla ...

  9. python双重差分代码_即将开班 | Python数据挖掘与Stata应用能力提升与实证前沿寒假工作坊...

    1月25日上午 主讲人:邓旭东 课程安排:python语法入门 1.Python跟英语一样是一种语言 2.数据类型之字符串 3. 数据类型之列表元组集合 4. 数据类型之字典 5.数据类型之布尔值.N ...

  10. python+selenium 爬取微博(网页版)并解决账号密码登录、短信验证

    使用python+selenium 爬取微博 前言 为什么爬网页版微博 为什么使用selenium 怎么模拟微博登录 一.事前准备 二.Selenium安装 关于selenium 安装步骤 三.sel ...

最新文章

  1. python log文件_Python logging基本使用
  2. golang中的sync.WaitGroup
  3. 【图表】java 24年发展历史及长期支持jdk版本(up to 2020.04)
  4. java语言静态分析工具_PMD 6.16.0 发布,跨语言静态代码自动分析工具
  5. 关于android 自定义TitleBar 会遇到的问题
  6. android右上角设置按钮,Android:如何在右上角的按钮角添加三角形
  7. 第一次面试总结--中国电子科学研究院
  8. UIImagePickerController---iOS-Apple苹果官方文档翻译
  9. Ubuntu16.04安装VirtualBox及无法启动的解决办法
  10. html json加密 ajax请求问题
  11. python题目-回文数判断
  12. 实验四 shell 编程
  13. 卡巴斯基和Endtab.org开设新课程教授用户如何防范人肉搜索
  14. 教你一招轻松搞定mp3格式转换
  15. 2022国庆头像小程序最新可用源码
  16. [SWPU2019]伟大的侦探1
  17. [商业]博客中国的新广告方式
  18. WebMatrix进阶教程(1):如何安装和使用微软全新开发工具WebMatrix
  19. c语言重画清屏函数,写了个小程序,一直会闪屏,用的gotoxy函数,求大神教
  20. python实现dem输出三维模型_使用DEM生成3D模型(补完)

热门文章

  1. 程序员常用字体(vs字体修改方案)
  2. Vivado远程编辑与下载
  3. 如何将OFD文件转成Word?教你2种实用方法
  4. 怎么SSH远程连接云服务器
  5. 威信游戏小程序源码-合成大西瓜小游戏(合成版)源码 附带流量主功能
  6. 国产手机企业在IOT行业展开混战,华为增长势头凶猛
  7. 万恶的流氓首页~~我要干掉你
  8. html日期选择器小日历样式,9 款样式华丽的 jQuery 日期选择和日历控件
  9. H5如何实现唤起APP
  10. BP神经网络之BP算法手写推导