Python男友日记 | 获取TaoBao上4000+条的口红数据，我发现了…

导入库

数据信息

数据探索

数据预处理

数据分析

店铺数量分析

价格分析

付款人数分析

店铺的付款人数分析

发货地分析

描述词云图

口红品牌数量分析

总结

最后

大家好，我是王某人。

最近终于对口红下手啦~从网上获取到了4000+多条的口红数据，进行了数据处理和分析工作，简直是发现了新大陆！

想知道这张图是什么意思吗？请一定要看完全文~

导入库

import pandas as pd
import numpy as np
import re
import jieba# 显示所有列
# pd.set_option('display.max_columns', None)# 显示所有行
# pd.set_option('display.max_rows', None)# 设置value的显示长度为100，默认为50
# pd.set_option('max_colwidth',100)# 绘图相关
import matplotlib.pyplot as plt
from pyecharts.globals import CurrentConfig, OnlineHostType   # 事先导入，防止不出图
from pyecharts import options as opts  # 配置项
from pyecharts.charts import Bar, Scatter, Pie, Line,Map, WordCloud, Grid, Page  # 各个图形的类
from pyecharts.commons.utils import JsCode
from pyecharts.globals import ThemeType,SymbolTypeimport plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots  # 画子图

数据信息

数据来自淘气的宝宝tb，主要是爬取了5个字段信息：

价格
店铺
发货地
付款人数
描述信息

通过导入数据，发现最终是4450条：

数据探索

查看下数据的基本信息：数据大小、缺失值、数据类型

数据预处理

预处理工作主要是针对购买人数和发货地两个字段信息进行：

1、购买人数

原始的购买人数是一个字符类型的数据，每个后面带有“人付款”，部分还有“+”。

我们处理数值型的数据，缺失值用0代替：

df["人数"] = df["人数"].fillna("0人付款",inplace=False)  # 缺失值处理def change_buy_people(x):if "+" in "x":return x.split("+")[0]elif "付款" in x:return x.split("人")[0]df["人数"] = df["人数"].apply(change_buy_people)
df

第二步是去掉+号：

第三步：处理带有万的数据

得到最终的结果！！！

2、处理发货地

如果是国内的省份和市，进行切割处理。发货地中存在外国的国家，比如：美国、韩国等

df["发货地"] = df["发货地"].fillna("无信息",inplace=False)df["省_国家"] = df["发货地"].apply(lambda x: x.split(" ")[0] if " " in x else x)
df["市"] = df["发货地"].apply(lambda x: x.split(" ")[1] if " " in x else x)
df.head()

上面就是处理数据的全部过程，你看懂了吗？

数据分析

数据分析不展示具体的数据处理过程，主要是展示结果：

店铺数量分析
价格分析
购买人数分析
发货地分析
描述词云图

店铺数量分析

查看我们获取到的数据中店铺的数量分布情况，我们取出前30名：

天猫国际相关的店铺最多
品牌方面：屈臣氏的最多

通过店铺的占比显示：仍然是天猫的店铺是最多的

价格分析

口红的价格是有高有低的，我们首先看下具体的数值情况：

均价在165元！真的假的呀？
数据中单价最高在6160元！！！真踏马贵呀

Python男友日记 | 获取TaoBao上4000+条的口红数据，我发现了…相关推荐
1. 分析了2.2W条抖音数据，发现“95后”其实很养生……
  导读:通过一些特殊渠道,我拿到了2月26日-3月27日的2.2W条视频数据,清洗梳理后得到一些好玩的结论,你们或许会喜欢: 抖音的核心用户群体"95后"们也很养生,0点以后基本都睡 ...
2. python如何爬虫获取图形上点的坐标_python调用百度地图WEB服务API获取地点对应坐标值...
  本篇博客介绍如何使用Python调用百度地图WEB服务API获取地点对应坐标值,现有一系列结构化地址数据(如:北京市海淀区上地十街十号),目的是获取对应坐标值. 百度地图开发者平台路线规划使用说明网址 ...
3. windows下利用python 2.7获取电脑上所有的wifi名称和密码
  # -*- coding: UTF-8 -*- import os import sysreload(sys) sys.setdefaultencoding('utf-8')# 定义一个函数check ...
4. MYSQL删除上亿条的大量数据的具体实现
  ourmysql博客中提供了 <大表删除数据的思路>,对于大表依据主键删除的思路是必须的,删除几千万的数据还算是比较简单的,如果你的数据库中的表高达数百亿条记录 ,删除其中的几十亿,就需要 ...
5. Python网络爬虫实战：世纪佳缘爬取近6万条小姐姐数据后发现惊天秘密
  翻着安静到死寂的聊天列表,我忽然惊醒,不行,我们不能这样下去,光羡慕别人有什么用,我们要行动起来,去找自己的幸福!!! 我也想"谈不分手的恋爱" !!!内牛满面!!! 注册登陆一气 ...
6. 利用python从GitHub获取https代理，采集网站的数据的速度翻倍
  现在爬个网页太难了. 爬快了被封IP 爬慢了,等得着急还是用代{过}{滤}理好了,从github上找到了大佬分享的免费代{过}{滤}理,貌似可以用,写了一个小脚本获取. from multiproc ...
7. java导出excel带上进度条_导出数据至Excel前台js进度条不能隐藏
  在导出数据至Excel时,有时数据会比较大,响应的时间会比较长,想做一个提示进度条,在点击导出数据按钮进,进度条显示出来,在数据导出完毕并成功弹出保存对话框时,进度条自动隐藏起来,但现在有个问题,点击 ...
8. python爬虫脚本获取网易招聘某个职业的全部数据信息
  目标网页:网易招聘抓取目标: 1.根据输入职业抓取该职业的全部数据 2.存入excel 用到的库: import requests import pandas 全部代码: import reques ...
9. 利用python爬虫技术获取每天每场的每位球员NBA数据以及每日范特西评分
  想法来源:虎扑体育app中有个游戏叫做"每日范特西",此游戏给于NBA每位球员一个与他能力(数据)相符的身价,玩家的任务是给定金额120,根据每位球员的身价以及位置组建一个自己的阵 ...
最新文章
热门文章

Python男友日记 | 获取TaoBao上4000+条的口红数据，我发现了…

导入库

数据信息

数据探索

数据预处理

数据分析

店铺数量分析

价格分析

Python男友日记 | 获取TaoBao上4000+条的口红数据，我发现了…相关推荐

最新文章

热门文章