GBDT实战 —— 产品定价模型
1.读取数据
import pandas as pd
df = pd.read_excel('产品定价模型.xlsx')
df.head()
df['类别'].value_counts()
2.分类型文本变量处理
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['类别'] = le.fit_transform(df['类别']) # 处理类别
# 将类别一列处理后,我们可以使用value_counts()方法查看转化效果:
df['类别'].value_counts()
# 下面我们使用同样的方法处理“纸张”一列:
le = LabelEncoder()
df['纸张'] = le.fit_transform(df['纸张'])
# 此时的表格如下:
df.head()
3.提取特征变量和目标变量
X = df.drop(columns='价格')
y = df['价格']
4.划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
5.模型训练及搭建
from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor(random_state=123)
model.fit(X_train, y_train)
模型预测及评估
# 模型搭建完毕后,通过如下代码预测测试集数据:
y_pred = model.predict(X_test)
print(y_pred[0:50])
# 通过和之前章节类似的代码,我们可以将预测值和实际值进行对比:
a = pd.DataFrame() # 创建一个空DataFrame
a['预测值'] = list(y_pred)
a['实际值'] = list(y_test)
a.head()
# 查看预测评分 - 方法1:自带的score函数,本质就是R-squared值(也即统计学中常说的R^2)
model.score(X_test, y_test)
# 查看特征重要性
model.feature_importances_
# 通过DataFrame的方式展示特征重要性
features = X.columns # 获取特征名称
importances = model.feature_importances_ # 获取特征重要性# 通过二维表格形式显示
importances_df = pd.DataFrame()
importances_df['特征名称'] = features
importances_df['特征重要性'] = importances
importances_df.sort_values('特征重要性', ascending=False)
GBDT实战 —— 产品定价模型相关推荐
- vue实战-产品详情页(轮播图、放大镜)
vue实战-产品详情页(轮播图.放大镜) 1.添加产品详情页的静态组件 因为它是路由组件,将其放入pages文件夹下. 注册路由组件 1)router中添加Detail的路由. {path:'/det ...
- 项目实战-----产品经理要做什么?
文章目录 写在前面: 兴奋地开始干我在AR的第一个彻头彻尾的需求,发现原来产品经理脑袋竟然要转这么多圈,果然是术业有专攻啊~,但是既然要成为一个全栈工程师,我也来挑战一下吧~ 第一版 显示我学的课还有 ...
- 项目实战——产品设计
产品设计 背景 公司产品设计理念 如果你设计的软件猪不能使你就是猪 让每一个软件使用者都成为我们软件的设计者 总结 如果博主的文章对您有所帮助,可以评论.点赞.<font color=bule& ...
- GBDT模型及案例(Python)
目录 1 GBDT算法核心思想 2 GBDT算法的数学原理 3 GBDT算法数学原理举例 补充知识点:梯度提升树中梯度的理解 4 使用sklearn实现GBDT算法 5 案例:产品定价模型 5.1 模 ...
- python大数据分析入门实例-Python大数据分析与机器学习商业案例实战
大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力.本书以功能强大且较易上手的Python语言为编程环境,全面讲解了大数据分析与机器学习技术的商业应用实战.全书共16章,讲解了线性回归模 ...
- 梯度提升决策树(GBDT)与XGBoost、LightGBM
20211224 [机器学习算法总结]XGBoost_yyy430的博客-CSDN博客_xgboost xgboost参数 默认:auto.XGBoost中使用的树构造算法.可选项:auto,exac ...
- AI 产品经理的三重门
http://www.woshipm.com/pmd/1528765.html AI时代的AI产品经理应该像创业者一样,全局把控公司产品方向,用AI技术赋能重新定义手头的产品,真正的成为AI产品经理型 ...
- 转行做产品经理需要学什么?
很多转行产品经理的小伙伴都跟我说,我会axure.墨刀的使用,我可不可以做产品经理?其实这些工具谁花费个几天时间都能学好,我觉得要成为一名真正的产品经理更重要的是要有产品思维. 关于什么是产品思维,在 ...
- 【2016年第6期】数据产品在线定制平台的探索实践
张峰1,孙宗哲2,OCHORA Dennis Reagan2,刘建楠3,宋杰2 1. 国家海洋信息中心,天津 300171: 2. 东北大学软件学院,辽宁 沈阳 110819: 3 ...
最新文章
- SQL Server Profiler工具
- ubuntu 对apahce的php 服务器使用
- VB.NET启动外部程序
- 网易智慧企业亮相TOP 100 Summit,以创新和匠心探索行业前沿
- ITK:创建高斯导数内核
- RTMP直播应用与延时分析
- caffe运行训练脚本时报错:Unknown bottom blob 'data' (layer 'conv1',bottom index 0)
- linux搭建mcpe服务器_Ubuntu Linux下搭建Minecraft我的世界服务器
- 02-方法-课后思考
- 计算机音乐至少还有你,至少还有你-林忆莲
- nvcc-V 程序“nvcc”尚未安装。 您可以使用以下命令安装: sudo apt install nvidia-cuda-toolkit
- python包:scikit-learn
- h5 每页打印固定表头以及表尾 解决表头过长打印分页表头不固定问题
- Java程序员的技术进阶成长路线
- 大数据分析的下一代架构--IOTA架构[上]
- 理解S.M.A.R.T.格式及从中获取硬盘状态信息
- GD32 SPI0 REMAP设置
- 最全的linux上git教程
- python数据导出excel模板中的脚本_Python实现将数据库一键导出为Excel表格的实例...
- 树的高度,节点的深度和高度