国能日新太阳辐射指数预测大赛个人baseline(0.17)

刚接触这种比赛也没多久，大佬太多，主要是学习大佬的trick吧，拿奖是没想过了。
该baseline是本人自己写的，跟大佬的baseline没法比的。
特征基本上没有做，就清洗了下数据，模型采用的是最简单的线性回归模型。
目前线上成绩 0.17339
提升空间：做特征，换模型，做下融合。用深度学习应该也没问题。

比赛地址
完整代码

import pandas as pd
import numpy as np
import seaborn as sns
import warnings
import datetime
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_errorwarnings.filterwarnings("ignore")
data_train = pd.read_csv("input/train_feature.csv") #训练数据
data_train_y = pd.read_csv("input/train_label.csv") #训练标签
data_test = pd.read_csv("input/test_feature.csv") #测试数据#对训练集reshape 8时刻合一天 ，维度增加到64维，最后再清洗去掉重复列
train_feature = data_train.values.ravel().reshape(-1)
print(train_feature, '\n shape :', train_feature.shape, '=', 17008 * 8)
feature_train_64 = train_feature.reshape([2126, 64])
print(feature_train_64, '\nshape :', feature_train_64.shape)#对测试集reshape 8时刻合一天，维度增加到64维，最后再清洗去掉重复列
test_feature = data_test.values.ravel().reshape(-1)
print(test_feature, '\n shape :', test_feature.shape, '=', 7296 * 8)
feature_test_64 = test_feature.reshape([912, 64])
print(feature_test_64, '\nshape :', feature_test_64.shape)#数据简单的清洗
feature_name = data_train.columns.tolist()
feature_name.remove('日期')
time = data_train['时刻'][0:8].tolist()
feature_list = []
for j in time:feature_list.append('日期')for i in feature_name:fn = i+'_'+str(j)feature_list.append(fn)len(feature_list)
print(feature_list)#对训练集转换为DataFrame
#转换成DataFrame类型的数据
data_train = pd.DataFrame(feature_train_64,columns = feature_list)
#去除重复列
columns = data_train.columns.tolist()
data_train_deal = data_train[columns].T.drop_duplicates().T
data_train_deal.head()
data_train.head()#合并数据集，将变量和目标变量合并
data_train_final = pd.concat([data_train_deal,data_train_y['电场实际太阳辐射指数']],axis = 1,join='inner')#对测试集转换为DataFrame
data_test_deal = pd.DataFrame(feature_test_64,columns = feature_list)
#将重复列去掉
columns = data_test_deal.columns.tolist()
data_test_final = data_test_deal[columns].T.drop_duplicates().T
data_test_final.head()#划分数据集
X = np.array(data_train_final.drop(['电场实际太阳辐射指数'],axis = 1))
y = np.array(data_train_y['电场实际太阳辐射指数'])
print(X.shape,y.shape)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.3,random_state = 45)
(X_train.shape,X_test.shape,y_train.shape,y_test.shape)
X_test2 = np.array(data_test_final)
print(X_test2.shape)#数据标准化
#标准化
scaler_train = StandardScaler().fit(X)
X_train_std = scaler_train.transform(X)
print(X_train_std.shape)
X_train_std,X_test_std,y_train_std,y_test_std = train_test_split(X_train_std,y,test_size = 0.3,random_state = 45)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)#对测试集进行标准化
scaler_test = StandardScaler().fit(X_test2)
X_test_std = scaler_test.transform(X_test2)
print(X_test_std.shape)#使用线性模型训练
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit(X_train_std,y_train_std)
y_pred_line = reg.predict(X_test_std)
mae_line = mean_absolute_error(y_pred_line,y_test)
print("MAE line_score:",mae_line)#导出数据
index = np.array(data_test_final['日期']).astype("int32")
now = datetime.datetime.now()
now = now.strftime('%m-%d-%H-%M')y_hat_line = reg.predict(X_test_std)
result = pd.DataFrame({"time":index,"prediction":y_hat_line})
columns = ["time","prediction"]
result = result.loc[:,columns]
result.to_csv("output/submit_baseline_line{}.csv".format(now),index = False)```

国能日新太阳辐射指数预测大赛个人baseline(0.17)相关推荐

国能日新光伏功率预测大赛的总结
目录写在前面的话关于比赛数据和特征工程 1. 时间 2.float数据 3.category数据 4.其他特征关于特征选择关于模型调参关于模型融合反思和总结写在前面的话人生第二次打比 ...
DC竞赛国能日新功率预测题 rank21 解决方案（适合新手）
DataCastle国能日新光伏功率预测数据异常处本题在测试集中提供了时间.辐照度.风速.风向.温度.压强.湿度.实发辐照度 8个特征,以及标签**实际功率**. 而在训练集中只有前七个特征,无实 ...
国能日新通过注册：年营收3亿雍正为实控人
雷递网雷建平 3月14日报道国能日新科技股份有限公司(简称:"国能日新")日前通过注册,预计近期在深交所上市,预计募资3.45亿元. 其中,2.2亿元用于新能源功率预测产品及大 ...
noip复赛普及组2020_我校学子在2020年“外研社·国才杯”全国英语写作大赛（高职组）复赛中斩获佳绩...
10月24日,2020"外研社·国才杯"全国英语写作大赛(高职组)(原"外研社杯"全国高等职业院校英语写作大赛)上海赛区复赛在上海工艺美术职业学院徐汇校区举行. ...
2021全球抗体亲和力预测大赛来了！
生命的复杂,远超我们的想象.当我们已经能探寻到5500万公里外火星的秘密,却还难以将我们身体里仅200微米的细胞故事讲得明白. 但我们对生命的探索却从未停止,从最开始的肉眼观察,到使用精密的仪器检测, ...
用户人品预测大赛--getmax队--竞赛分享
用户人品预测大赛--getmax队--竞赛分享 DataCastle运营发表于 2016-3-24 14:49:32 533 0 0 答辩PPT 转载于:https://www.cnblogs ...
上证指数开盘指数预测 Matlab
SVM简介支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机:SVM还包括核技巧, ...
【baseline】Kaggle新赛！信用违约预测大赛
日前,Kaggle发布了American Express - Default Prediction 信用违约预测大赛.要求参赛者: 运用机器学习技能来预测信用违约这是一个金融风控场景下的结构化数据挖 ...
kaggle新赛：蛋白质功能预测大赛baseline
日前,Kaggle发布了CAFA 5 Protein Function Prediction蛋白质功能预测大赛.这是一个机器学习中的序列预测任务,需要你开发一个基于蛋白质氨基酸序列和其他数据的模型,预 ...

国能日新太阳辐射指数预测大赛个人baseline(0.17)

国能日新太阳辐射指数预测大赛个人baseline(0.17)相关推荐

最新文章

热门文章