python数据清洗代码_微博数据清洗(Python版)
本文是Python版本的介绍,只有数据清洗部分不含对Excel的操作,包含去除html标签和去掉信息里的url地址。
Python的代码相对java简明了太多
# -*- coding: UTF-8 -*-
'''
Created on 2013年12月10日
@author: daT dev.tao@gmail.com
'''
import re
def dealHtmlTags(html):
'''
去掉html标签
'''
from HTMLParser import HTMLParser
html=html.strip()
html=html.strip("\n")
result=[]
parse=HTMLParser()
parse.handle_data=result.append
parse.feed(html)
parse.close()
return "".join(result)
def dealUrl(text):
'''
去掉微博信息中的url地址
'''
return re.sub('''http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+''', '',text)
if __name__== "__main__":
html = """接下来一年,我希望在惠普电脑看到更人性化,各科技化的东西,更能提升视觉享受的东西。 地址:http://t.cn/8kUAX2z
"""
html = dealHtmlTags(html)
print dealUrl(html)
python数据清洗代码_微博数据清洗(Python版)相关推荐
- 二分查找python实现代码_二分查找——Python实现
一.排序思想 二.python实现 def binarySearchDemo(arr, key): """ python二分查找非递归方式 :param arr:待排序列 ...
- python一行代码_一行有效python代码
完成同样的功能,尽量少写代码 伊始 今天跟大家分享几个有趣的kata,刚开始做这几个kata的时候,我也写了很长的代码才完成,随着后来对python的深入接触,发现python一些简单却十分强大的特性 ...
- 用python表白代码_程序员python表白代码
原博文 2019-06-13 17:33 − python表白代码 源代码如下: # -*- coding:utf-8 -*- import turtle import time # 画爱心的顶部 d ...
- python猪代码_猪圈密码python脚本实现
CTF比赛中,MISC题型中有时候会考到一种一种叫做"猪圈密码"(Pigpen_chiper)的简单加密方式.网上有个表可以对照地来实现解密,但是实际中太慢不符合竞速思维,于是写一 ...
- python渐变色代码_如何在Python中创建颜色渐变?
6 个答案: 答案 0 :(得分:54) 我还没有看到一个简单的答案就是使用colour package. 通过pip安装 pip install colour 如此使用: from colour i ...
- 用python表白代码_如何用Python代码向心爱的姑娘花式表白?
刚好之前用turtle 写过一个https://www.zhihu.com/video/1058809172984004608 这是我当时自学python第二天写的一个,书上讲到了一个turtle模块 ...
- python扫雷代码_谁说Python不能做游戏的?能做这些游戏,附赠所有游戏源码文件...
Python编程语言的强大,几乎是众所周知的! 不仅能用来做web.爬虫.数据分析等,没想到还能用做这么多的游戏,实在令人惊讶不已. 那么,下面我给大家介绍一下几个用Python实现的各种游戏吧. 注 ...
- python函数代码_如何显示Python函数的代码?
这有点老套,但是如果这是您经常要做的事情,您可以使用readline模块和函数修饰符.在class PrintableFunction(object): """A cla ...
- python双重差分代码_即将开班 | Python数据挖掘与Stata应用能力提升与实证前沿寒假工作坊...
1月25日上午 主讲人:邓旭东 课程安排:python语法入门 1.Python跟英语一样是一种语言 2.数据类型之字符串 3. 数据类型之列表元组集合 4. 数据类型之字典 5.数据类型之布尔值.N ...
- python+selenium 爬取微博(网页版)并解决账号密码登录、短信验证
使用python+selenium 爬取微博 前言 为什么爬网页版微博 为什么使用selenium 怎么模拟微博登录 一.事前准备 二.Selenium安装 关于selenium 安装步骤 三.sel ...
最新文章
- python log文件_Python logging基本使用
- golang中的sync.WaitGroup
- 【图表】java 24年发展历史及长期支持jdk版本(up to 2020.04)
- java语言静态分析工具_PMD 6.16.0 发布,跨语言静态代码自动分析工具
- 关于android 自定义TitleBar 会遇到的问题
- android右上角设置按钮,Android:如何在右上角的按钮角添加三角形
- 第一次面试总结--中国电子科学研究院
- UIImagePickerController---iOS-Apple苹果官方文档翻译
- Ubuntu16.04安装VirtualBox及无法启动的解决办法
- html json加密 ajax请求问题
- python题目-回文数判断
- 实验四 shell 编程
- 卡巴斯基和Endtab.org开设新课程教授用户如何防范人肉搜索
- 教你一招轻松搞定mp3格式转换
- 2022国庆头像小程序最新可用源码
- [SWPU2019]伟大的侦探1
- [商业]博客中国的新广告方式
- WebMatrix进阶教程(1):如何安装和使用微软全新开发工具WebMatrix
- c语言重画清屏函数,写了个小程序,一直会闪屏,用的gotoxy函数,求大神教
- python实现dem输出三维模型_使用DEM生成3D模型(补完)