作者 | AJ Gordon

责编 | 李雪敬

出品 | CSDN（ID：CSDNnews）

当你手头有一件闲置的物品时，最好的办法不是放在家里积灰，而是拿到二手网站上进行拍卖，例如淘宝的闲鱼，京东的拍拍等等。有这方面经验的小伙伴都知道，这两个平台都会自动给出一个最佳的售价。假设我现在有一堆旧手机想二手转让，但又不知道定价多少合适时，最好的办法是上网查查相同配置的二手手机价格后，再进行定价。

京东平台上有专门的二手手机分类，因此选择它作为定价参考。为了方便进行分析，最省时的方法就是直接把数据都抓取到本地，再进行分析。下面一起看看如何用程序的方式获取我们想要的：

数据获取

由于京东的防爬措施，直接用requests去读取链接是不行的，我的抓取方式是这样的：

首先，获取详情页链接前均是采用selenium进行无界面访问。先获取各手机品牌的ID，再用手机品牌的ID构建二级链接，获取各手机品牌的总页码数Page。再用ID+Page构建三级链接，获取二手手机的详情页链接。最后用requests读取详情页链接，获取具体数据。

# 获取手机型号id
def get_mobile_model_id():# 浏览器设置option = webdriver.ChromeOptions()# 防拦截option.add_experimental_option('excludeSwitches', ['enable-automation'])# 不加载图片option.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})# 无界面option.add_argument('--headless')option.add_argument('--disable-gpu')#browser = webdriver.Chrome(options=option)browser.get('https://list.jd.com/list.html?cat=13765%2C13767')#获取浏览器当前打开页面的页面源码数据page_text = browser.page_sourcebrowser.quit()# 获取手机型号IDsoup = BeautifulSoup(page_text,'lxml')model_type = soup.find_all('ul',{'class':'J_valueList clearfix'})[1].find_all('li')for i in model_type:# 手机型号名称# type = i.find('a').get_text()# 手机型号idtype_id = i.find('a')['href'].split('ev=')[-1].split('&cid2=')[0]redis_db.sadd('jd_mobile_model_id', type_id)

截止至2020年6月22日，总共抓取了2.2万件二手手机商品，27.7万条评论数据。总体上分为三个部分：商品基本信息，店铺评论信息和商品评论信息。

商品基本信息：商品ID，店铺ID，新旧程度，品牌，机型，颜色，内存和单价等等。

店铺评论信息：店铺ID，好评率，总评论数，默认好评数和好评数等等。

商品评论信息：商品ID，用户ID，打分，评论内容，评论时间和下单时间。

数据描述

接下来，对清洗后的数据进行描述性统计。

图1 日期与销售量的关系

根据历史买家下单时间，从图1可以看出每年的峰值都是出现在618，双11，双12这些电商节日，并且每年销售量同比增长了300%。

图2 时间与销售量的关系

根据历史买家下单时间，从图2可以看出每天的销量趋势，早上4:00 – 12:00一路飙升，下午12:00 – 16:00保持平缓，傍晚16:00 – 19:00有所下降，晚上19:00 – 22:00回到下午水平，22:00 – 4:00逐渐下降到最低点。

图3 颜色与销量的关系

根据图3可知，在售的二手手机颜色主要是金色，黑色和银色，而销售出去的颜色主要是金色，黑色和玫瑰金。虽然在售的红色手机也挺多的，但是销量却很低。

图4 价格与销量的关系

根据图4可知，在售的二手手机价格主要是2000元以下，5000元以上的二手手机也是有不少的。而销量最高的1000元以下的二手手机，价格越高，销量越低。

图5 品牌与销量的关系

从图5可以看出来，京东上的手机品牌有19个。苹果的产品数量和销售量远远超过了其它品牌的总和。国产品牌中主要卖的是华为、小米、OPPO和Vivo。其它牌子的机型产品数量少，销售量就也很少。

图6 各品牌机型销量TOP3

目前二手手机市场上的品牌主要有苹果，OPPO，Vivo，小米，华为和三星，所以可以了解一下每个品牌销量最好的前三名机型分别是什么。苹果主要是iphone 6s、iphone x和iphone 7。华为主要是mate20、p20和p20pro。

图7 差评词云图

图7是将评论信息中打分分数1和2的归为差评，然后利用jieba分词将文本内容截成若干个词，再用词云图展示。从这个差评词云图可以看出大多数用户对二手手机的不满主要是客服、屏幕和电池这三个原因。首先商家对买家的态度就是“买前是上帝，买后置之不理”，购买前会很热情地接待，但售后又变成另一副嘴脸。其次，原装屏幕和组装屏幕的利润差的是一副二手手机的价格，所以很多二手手机用的都是组装屏幕，效果自然没有新机好。最后，手机用久了就会出现电池老化的问题，耗电量特别快，这个也是部分人更换新手机的原因。

数据建模

经过前面的数据获取和数据描述之后，对二手手机已经大致了解。现在可以开始对这些二手手机数据进行建模，因为现在是需要进行定价，属于回归模型。

1) 导入库和数据

首先，导入需要用到的库和数据。

import pandas as pd
import numpy as np
from scipy.special import boxcox1p,inv_boxcox1p
from sklearn.preprocessing import MinMaxScaler,StandardScaler,RobustScaler
from sklearn.model_selection import GridSearchCV,RandomizedSearchCV
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error,r2_score
from sklearn.metrics import make_scorer
import seaborn as sns
import matplotlib.pyplot as plt
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False #负号显示def load_data():data = pd.read_csv('result.csv',dtype={'skuId':str})data = data[['skuId','old_new_degree', 'brand', 'model', 'color','version', 'Double_card_machine_type', 'Front_card_machine_type','Rear_camera_pixel','Battery_capacity', 'Running_memory','screen_size', 'price']].drop_duplicates('skuId')return data

2) 清洗数据

对部分字段进行缺失值填充，以及将类似的分类合并为同一个。

def clean_data(data):# 缺失值填充data['model'].fillna('Missing', inplace=True)data['color'].fillna('Missing', inplace=True)# 修改字段data['old_new_degree'] = data.apply(lambda x: str(x['old_new_degree']),axis=1)data['version'] = data.apply(lambda x:'0' if x['version']=='Missing' else str(x['version']),axis=1)data['Front_card_machine_type'] = data.apply(lambda x:'0' if x['Front_card_machine_type']=='Missing' else str(x['Front_card_machine_type'][:4].replace('万','')),axis=1)data['Rear_camera_pixel'] = data.apply(lambda x:'0' if x['Rear_camera_pixel']=='Missing' else str(x['Rear_camera_pixel'][:4].replace('万','')),axis=1)data['Battery_capacity'] = data.apply(lambda x:'0' if x['Battery_capacity']=='Missing' else str(x['Battery_capacity']),axis=1)data['Running_memory'] = data.apply(lambda x:'0' if x['Running_memory']=='Missing' else str(x['Running_memory'].replace('GB','')),axis=1)data['screen_size'] = data.apply(lambda x:'0' if x['screen_size']=='Missing' else str(x['screen_size'].replace('英寸','')),axis=1)return data

3) 离散变量-独热编码

离散变量分为有序和无序两种变量，例如手机的内存越高越好，属于有序离散变量。颜色属于无序离散变量。这里我都是用pandas自带的get_dummy()进行独热编码，sklearn也有一个独热编码OnehotEncoder()，两者的区别在于get_dummy()无法适用于新类别，并且每次都要重新执行，只适用于数据量小的模型。

def get_dummy(df):cols = ['version', 'Front_card_machine_type', 'Rear_camera_pixel', 'Battery_capacity', 'Running_memory','screen_size','old_new_degree', 'brand', 'model', 'color','Double_card_machine_type']dummy_cols = df[cols].copy()df = df.drop(cols,axis=1)dummy_cols = pd.get_dummies(dummy_cols,prefix=cols)df = pd.concat([df,dummy_cols],axis=1)return df

4) 拆分数据

将原始数据集拆分成两部分：训练集和测试集（后100条），由于回归模型要求标签满足正态分布，所以对训练集的标签进行boxcox1p正态变换，使其满足正态分布。

def cut_data(df):# 拆分数据all_rows = df.shape[0]## 训练集X_train = df[:all_rows-100]y_train = X_train['price'].copy()y_train = boxcox1p(y_train, 0)X_train = X_train.drop(['skuId','price'],axis=1)## 测试集X_test = df[all_rows-100:]y_test = X_test[['skuId','price']].copy()X_test = X_test.drop(['skuId','price'],axis=1)return X_train,y_train,X_test,y_test

5) 数据降维

由于独热编码后的特征会增加很多，所以需要进行降维。

def value_pca(X_train,X_test):pca = PCA(n_components=0.9)X_train = pca.fit_transform(X_train)X_test = pca.transform(X_test)#variance = pd.DataFrame(pca.explained_variance_ratio_)#np.cumsum(pca.explained_variance_ratio_)return X_train,X_test

6) 数据建模

将特征都处理好之后，就可以套用模型了，这里我用随机森林回归模型。并且用GridSearchCV()网格搜索,自定义RMSE作为其判断标准。最后用最佳参数进行预测，并用R2比较真实值和预测值的效果，R2越接近1效果越好，这次的模型R2值是0.912。

def model(X_train,y_train,X_test,y_test):# 设置自定义评分函数def my_custom_loss_func(y_true, y_pred):return np.sqrt(mean_squared_error(y_true, y_pred))rmse = make_scorer(my_custom_loss_func, greater_is_better=False) # 以_error结尾的函数，返回一个最小值，越小越好；如果使用make_scorer来创建scorer时，将greater_is_better设为False# 设置自定义参数rfr_param_test = {'n_estimators': [10,20,30,40,50,60],'max_depth': [5,6,7,8,9,10]}# 进行网格搜索grid_search = GridSearchCV(estimator=RandomForestRegressor(), param_grid=rfr_param_test, cv=5, scoring=rmse)grid_search.fit(X_train,y_train)print(grid_search.best_params_) # 预测结果rft_model = grid_search.best_estimator_rft_model.fit(X_train, y_train)y_pred = rft_model.predict(X_test)y_pred = inv_boxcox1p(y_pred, 0)# 输出R2值R2 = r2_score(y_test['price'], y_pred)print('R2：{}'.format(R2))# 输出结果result = pd.DataFrame({'skuID':y_test['skuID'],'price_old':y_test['price'],'price_pred':y_pred})result.to_csv('Regress_result.csv',index=False,encoding='utf_8_sig')return result

总结

通过上述分析，我发现目前二手手机市场上，最热卖的是iphone，虽然国产机近几年的知名度越来越高，但是店家或者消费者都更倾向于iphone。此外，二手手机的价格越低，销量就会越高。但便宜所带来的弊端就是店家的售后差，屏幕效果不佳，电池损耗快等等。当你有二手手机转让的需求时，用数据建模的方法，也能为你提供一个定价的标准。

更多精彩推荐
☞头秃，在线求名字：网易使用昵称交流，再也没有“哥，姐，总”
☞高科技公司的 CEO 要写代码吗？
☞文件系统：隐匿在 Linux 背后的机制
☞CPU有个禁区，内核权限也无法进入！
☞5年5亿美金，华为昇腾如何构建全行业AI生态？
☞将比特币用作结算网络中蕴含的经济学知识

点分享点点赞点在看

该买哪家二手手机呢？程序员爬取京东告诉你！相关推荐

python程序员爬取分析20万场吃鸡数据，带妹吃鸡，终成人生赢家
首先,神枪镇楼 python程序员爬取分析20万场吃鸡数据,带妹吃鸡,终成人生赢家吃鸡,撩妹神器吃鸡游戏受到很多年轻人的喜爱,用户量也非常大.有很多地图,场景逼真,技术玩法,增加了游戏可玩性.而且 ...
程序员爬取 5000+ 口红数据，差点比女朋友更懂口红？
作者 | YaJie 来源 | Giao数据责编 | 王晓曼摘要:本文以"口红"为关键字,爬取了[1]淘宝与天猫官网下100页口红数据,经过去重,得到共计4353条口红商品信息 ...
程序员爬取 3 万条评论，《长安十二时辰》槽点大揭秘！
作者 | Alfred Wu 责编 | 伍杏玲本文经授权转载自Alfred数据室(ID:Alfred_Lab) 最近,悄悄上线的<长安十二时辰>在朋友圈被吹爆了:年度最佳古装剧.服道化精 ...
程序员爬取 5000+ 口红商品数据，差点比女朋友更懂口红？
作者 | YaJie 来源 | Giao数据责编 | 王晓曼摘要:本文以"口红"为关键字,爬取了[1]淘宝与天猫官网下100页口红数据,经过去重,得到共计4353条口红商品信息 ...
秋天的第一杯奶茶该买哪家？我用爬虫爬取所有数据教你买哪家
现在越来越多年轻人手里的那一杯快乐肥宅水,从可乐换成了奶茶.上世纪80年的奶茶并不像现在的奶茶口味繁多,配料多样,而大部分80.90后童年的奶茶只有一个名字,那就是"台湾珍珠奶茶" ...
python黑客库长安十二时辰更新_程序员爬取 3 万条评论，《长安十二时辰》槽点大揭秘！...
该剧总体评价如何? 优酷给<长安十二时辰>打出了8.8的高分(首播时为9.0分).该剧在豆瓣.IMDB.时光网等平台分别收获了8.6.8.5.8.4分,这足以说明该剧总体评价还是不错的. ...
python爬虫高级知识分子的风骨_Python程序员爬取《万物理论》10万影评，带你解读霍金的有趣故事...
相信昨天的Breaking news(爆搜)是本世纪伟大的物理学家霍金辞世,享年76岁.小伙伴肯定知道霍金的故事肯定很励志,他是智商肯定不是常人能及的,因为他的引领,不断的拓宽了人类对宇宙的认识. 作 ...
我悄咪咪告诉你：罩杯越小的妹子倾向买越贵的内衣~~Python爬取京东9000条内衣销售数据之数据关联度分析
将爬取的9000条内衣销售数据整理清洗后,基于Apriori关联算法,针对"罩杯和消费价格倾向这两个元素有无关系"这个问题进行分析上一篇用数据库清洗数据,点这里再上一篇爬取数据 ...
Python爬虫系列之多多买菜小程序数据爬取
Python爬虫系列之多多买菜小程序数据爬取小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流, ...

该买哪家二手手机呢？程序员爬取京东告诉你！