Python数据清洗实战案例–拉勾招聘数据清洗

（本篇博客主要介绍个人对一份数据的清洗代码和清洗效果）
主要涉及应用的库是numpy、pandas、matplotlib,话不多说，直接上代码

#全部行都能输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
#导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('seaborn')
plt.rcParams['axes.unicode_minus']=False    #设置显示中文后,负号显示受影响。解决坐标轴上乱码问题
plt.rcParams['font.family'] = ['Arial Unicode MS'] #mac解决中文显示问题# 首先导入数据df = pd.read_csv(r"C:\Users\Administrator\Desktop\1201\数据清洗\第五天\拉钩上\lagou1.csv")
df.head()

观察一下原始数据的状态

# 查看数据的形状和各列信息
df.shape
df.info()

# 提取出公司名称缺失的行. 并删除该行
df[df.公司名称.isnull()]

缺失值处理

# 删除这一列
df.drop(index=872, inplace=True)

# 提取出城市中有缺失的行
df[df.城市.isnull()]

# 根据公司地点信息将城市中有缺失的行填充成武汉
df['城市'] = df.城市.fillna('武汉')

接下来查看城市的类别和计数，并用直方图画出，随着城市变化，职位数目的变化，降序

a = df.城市.value_counts()
a

接下来就是利用删除缺失值的方式继续处理其他的列，如果有信息可以指示替换缺失值的时候就替换，方法同上面两种缺失值处理方法，这里就不一一赘述了。

处理异常值和异常列

把公司地点的中括号和公司短评中的引号去掉

# 查看数据情况
s = '[东城区]'
s

处理数据

# 定义一个函数取出目标值
def x(s):return s[1:-1]
#  利用Series对象的map属性添加出新的公司地点
df['公司地点'] = df.公司地点.map(x)

用同样的方法处理公司短评列：

def x(s):return s.replace('“', '').replace('”', '')df['公司短评'] = df.公司短评.map(x)

处理后的数据情况

把工位要求改为公司要求

df.rename(columns = {'工位要求':'公司要求'}, inplace=True)

将公司要求这一列拆分成薪资, 经验要求,学历要求

s = df.公司要求[0]
s
a = df.公司要求.map(lambda s:s.split()[0])
a
df['薪资'] = a
df[df.薪资.map(lambda s:'年'in s)]
b = df.公司要求.map(lambda s:'经验1-3年 ' in s)
b
df[(df.城市=='南京') & b]  # 7k--10k
df.loc[[868, 875], '薪资'] = ['7k-10k',' 7k-10k']
df.loc[[868, 875], '薪资']
df[df.薪资.map(lambda s:'年'in s)]
df.drop(index=1624, inplace=True)
# 观察结果
df.薪资.value_counts().index.tolist()

以同样的方法处理经验要求和学历要求，代码不做一一赘述。

将公司级别拆分成公司领域、融资阶段、公司规模三列 , 然后删除该列

a = df.公司级别.str.split('/', expand=True)
a.columns = ['公司领域','融资阶段', '公司规模']
a
df = pd.concat([df, a], axis=1, sort=False)
df

处理结果为：

重置索引

df.reset_index(drop=True, inplace=True)

新增列平均薪资, 放在薪资的后面

def x(s):a = s.replace('K', 'k').replace('k', '').split('-')return (int(a[0])+int(a[-1]))/2*1000df.薪资.map(x)

按照城市进行分组，查看平均薪资的平均值和标准差

gp = df.groupby('城市')
gp
a = gp['平均薪资'].agg(['mean', 'std'])
a

可视化一些数据

将上表按照平均值进行降序，并画出，随着城市变化，平均薪资的直方图

b = a['mean'].sort_values(ascending=False)
b
plt.figure(figsize=(8, 6), dpi=80)
plt.bar(b.index, b, color='c')
plt.title('各城市平均薪资直方图');

将上诉平均薪资的分析过程封装成一个函数

def x(c):gp =df.groupby(c)a = gp['平均薪资'].agg('mean').sort_values(ascending=False)if len(a)<=8:b = aelse:b=a[0:8]plt.figure(figsize=(8, 6), dpi=80)plt.bar(b.index, b, color='c')plt.xticks(rotation=30)plt.title('各{}平均薪资直方图'.format(c));

查看学历要求与平均薪资的关系

x('学历要求')

公司领域与平均薪资之间的关系

x('公司领域')

画一些高阶图

技能需求饼图
统计技能需求里面一些关键字出现的次数，比如 BI SPSS SQL Python 机器学习数据挖掘算法等出现的次数，画出相对应的技能所占的饼图百分比。
统计规则如下:

1 统计数据库，凡是出现 SQL Oracle MongoDB都算是数据库的
2 统计 Python，凡是出现 Python 数据挖掘机器学习算法都算是Python的
3 统计 BI
4 统计 SPSS
5 统计 Hive

s = ''
for i in df.岗位技能:s = s+' '+i
s
L = ['数据库', 'SQL', 'Oracle', 'MongoDB', 'Python', '数据挖掘', '机器学习', '算法', 'BI', 'SPSS', 'Hive']z = []
for i in L:z.append((i, s.count(i)))
print(z)

数据分析技能占比的饼图

L = [534, 205, 153, 84, 39]
plt.figure(figsize=(8, 6), dpi=80)
plt.pie(L,  labels=['数据库', 'Python',  'BI', 'SPSS', 'Hive'],  autopct='%.2f',  explode=[0, 0.1, 0, 0, 0] );
plt.title('数据分析各技能占比');

利用pyecharts画词云图

# 安装pyecharts
pip install pyecharts -i https://pypi.douban.com/simple# 处理数据中不要的部分
a = set(s.split())
a.remove('数据分析')
a.remove('分析')
a.remove('数据')
L = []
for i in a:L.append((i, s.count(i)))# 实例化一个词云图对象
wordcloud = WordCloud()
wordcloud.add(series_name='数据分析岗位技能词云图', data_pair =L, shape = 'diamond', rotate_step=0)
wordcloud.render_notebook()

地理图

a = df.城市.value_counts()
a
b = list(zip(a.index, a.values.tolist()))
b
# 导入地理类
from pyecharts.charts import Geo
# 导入配置项类
from pyecharts import options as opts# 主题类
from pyecharts.globals import ThemeType
# 设置地图北京 China
geo.add_schema(maptype='china')# 添加数据
geo.add(series_name='各城市数据分析职位地理图',  data_pair=b, type_ = 'effectScatter')# 添加全局配置项#  群居配置项下的标题配置项
geo.set_global_opts(title_opts= opts.TitleOpts(title = '全国各城市数据分析职位统计图'),# 全局配置项下的视觉设置配置项visualmap_opts=opts.VisualMapOpts(min_ = 0 , max_=450),# 全局配置项下的工具箱配置项toolbox_opts= opts.ToolboxOpts(is_show=False))# 系列配置项
geo.set_series_opts(label_opts=opts.LabelOpts(False))
geo.render_notebook()

保存图片

geo.render('地理图2.gif')

最后保存处理好的数据

df.to_csv('lagou2.csv', index=False)