Python男友日记 | 获取TaoBao上4000+条的口红数据,我发现了…
目录
导入库
数据信息
数据探索
数据预处理
数据分析
店铺数量分析
价格分析
付款人数分析
店铺的付款人数分析
发货地分析
描述词云图
口红品牌数量分析
总结
最后
大家好,我是王某人。
最近终于对口红下手啦~从网上获取到了4000+多条的口红数据,进行了数据处理和分析工作,简直是发现了新大陆!
想知道这张图是什么意思吗?请一定要看完全文~
导入库
import pandas as pd
import numpy as np
import re
import jieba# 显示所有列
# pd.set_option('display.max_columns', None)# 显示所有行
# pd.set_option('display.max_rows', None)# 设置value的显示长度为100,默认为50
# pd.set_option('max_colwidth',100)# 绘图相关
import matplotlib.pyplot as plt
from pyecharts.globals import CurrentConfig, OnlineHostType # 事先导入,防止不出图
from pyecharts import options as opts # 配置项
from pyecharts.charts import Bar, Scatter, Pie, Line,Map, WordCloud, Grid, Page # 各个图形的类
from pyecharts.commons.utils import JsCode
from pyecharts.globals import ThemeType,SymbolTypeimport plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots # 画子图
数据信息
数据来自淘气的宝宝tb,主要是爬取了5个字段信息:
价格
店铺
发货地
付款人数
描述信息
通过导入数据,发现最终是4450条:
数据探索
查看下数据的基本信息:数据大小、缺失值、数据类型
数据预处理
预处理工作主要是针对购买人数和发货地两个字段信息进行:
1、购买人数
原始的购买人数是一个字符类型的数据,每个后面带有“人付款”,部分还有“+”。
我们处理数值型的数据,缺失值用0代替:
df["人数"] = df["人数"].fillna("0人付款",inplace=False) # 缺失值处理def change_buy_people(x):if "+" in "x":return x.split("+")[0]elif "付款" in x:return x.split("人")[0]df["人数"] = df["人数"].apply(change_buy_people)
df
第二步是去掉+号:
第三步:处理带有万的数据
得到最终的结果!!!
2、处理发货地
如果是国内的省份和市,进行切割处理。发货地中存在外国的国家,比如:美国、韩国等
df["发货地"] = df["发货地"].fillna("无信息",inplace=False)df["省_国家"] = df["发货地"].apply(lambda x: x.split(" ")[0] if " " in x else x)
df["市"] = df["发货地"].apply(lambda x: x.split(" ")[1] if " " in x else x)
df.head()
上面就是处理数据的全部过程,你看懂了吗?
数据分析
数据分析不展示具体的数据处理过程,主要是展示结果:
店铺数量分析
价格分析
购买人数分析
发货地分析
描述词云图
店铺数量分析
查看我们获取到的数据中店铺的数量分布情况,我们取出前30名:
天猫国际相关的店铺最多
品牌方面:屈臣氏的最多
通过店铺的占比显示:仍然是天猫的店铺是最多的
价格分析
口红的价格是有高有低的,我们首先看下具体的数值情况:
均价在165元!真的假的呀?
数据中单价最高在6160元!!!真踏马贵呀
Python男友日记 | 获取TaoBao上4000+条的口红数据,我发现了…相关推荐
- 分析了2.2W条抖音数据,发现“95后”其实很养生……
导读:通过一些特殊渠道,我拿到了2月26日-3月27日的2.2W条视频数据,清洗梳理后得到一些好玩的结论,你们或许会喜欢: 抖音的核心用户群体"95后"们也很养生,0点以后基本都睡 ...
- python如何爬虫获取图形上点的坐标_python调用百度地图WEB服务API获取地点对应坐标值...
本篇博客介绍如何使用Python调用百度地图WEB服务API获取地点对应坐标值,现有一系列结构化地址数据(如:北京市海淀区上地十街十号),目的是获取对应坐标值. 百度地图开发者平台路线规划使用说明网址 ...
- windows下利用python 2.7获取电脑上所有的wifi名称和密码
# -*- coding: UTF-8 -*- import os import sysreload(sys) sys.setdefaultencoding('utf-8')# 定义一个函数check ...
- MYSQL删除上亿条的大量数据的具体实现
ourmysql博客中提供了 <大表删除数据的思路>,对于大表依据主键删除的思路是必须的,删除几千万的数据还算是比较简单的,如果你的数据库中的表高达数百亿条记录 ,删除其中的几十亿,就需要 ...
- Python网络爬虫实战:世纪佳缘爬取近6万条小姐姐数据后发现惊天秘密
翻着安静到死寂的聊天列表,我忽然惊醒,不行,我们不能这样下去,光羡慕别人有什么用,我们要行动起来,去找自己的幸福!!! 我也想"谈不分手的恋爱" !!!内牛满面!!! 注册登陆一气 ...
- 利用python从GitHub获取https代理,采集网站的数据的速度翻倍
现在爬个网页太难了. 爬快了被封IP 爬慢了,等得着急 还是用代{过}{滤}理好了,从github上找到了大佬分享的免费代{过}{滤}理,貌似可以用,写了一个小脚本获取. from multiproc ...
- java导出excel带上进度条_导出数据至Excel前台js进度条不能隐藏
在导出数据至Excel时,有时数据会比较大,响应的时间会比较长,想做一个提示进度条,在点击导出数据按钮进,进度条显示出来,在数据导出完毕并成功弹出保存对话框时,进度条自动隐藏起来,但现在有个问题,点击 ...
- python爬虫脚本获取网易招聘某个职业的全部数据信息
目标网页:网易招聘 抓取目标: 1.根据输入职业抓取该职业的全部数据 2.存入excel 用到的库: import requests import pandas 全部代码: import reques ...
- 利用python爬虫技术获取每天每场的每位球员NBA数据以及每日范特西评分
想法来源:虎扑体育app中有个游戏叫做"每日范特西",此游戏给于NBA每位球员一个与他能力(数据)相符的身价,玩家的任务是给定金额120,根据每位球员的身价以及位置组建一个自己的阵 ...
最新文章
- PyTorch | (3)Tensor及其基本操作
- 仰望众位Oracle大牛
- 数据库单表数据过亿_最受欢迎的三大数据库,你用过吗?
- java 反复器_Java数组去掉反复的方法集
- python的socket编程
- 深入理解JVM虚拟机(四):Class类文件结构(一)
- 三星s8和android auto,手机资讯导报:穿上马甲也认得三星GalaxyS8与LGG6再曝光
- android 多布局
- 栈在前端中的应用,顺便再了解下深拷贝和浅拷贝!
- Nsis 使用1-- 依条件显示自定义页面 custom page on condition
- TYVJ P1012 火柴棒等式 Label:枚举
- 基于Transformer的通用视觉架构:Swin-Transformer带来多任务大范围性能提升
- 玩家在RTX 3090显卡中发现了指套
- 马斯克:电动皮卡Cybertruck尺寸在短时间内不会变小
- 程序员的修神之路是?
- memset()详解
- Linux 搭建NTP服务器
- Kotlin的一些特殊运算符
- swfupload 实例 php,文件上传之SWFUpload插件(代码)_php实例
- 机器学习--红酒质量检测分析(包含数据集,直接可用)
热门文章
- 【MATLAB appdesigner】27_如何在appdesigner中调试,查看变量?(举例+技巧)
- denied ftp permission_FTP常见错误解决办法
- Java反射机制与工厂模式
- UEFI移植LVGL
- 微型计算机技术单片机,微型计算机技术讲义01-C51基础
- jquery学习2_jquery知识预览
- 抓实“链长制”,维护产业链稳定,推进产业链纵深拓展和升级再造
- 富士施乐3065扫描教程_精简高效灵活 富士施乐3065使用测试
- 5. PostCSS
- vant 验证手机号_手机维修英汉小辞典(V字头1:VA-VB)
- 分析了2.2W条抖音数据,发现“95后”其实很养生……