刚接触这种比赛也没多久,大佬太多,主要是学习大佬的trick吧,拿奖是没想过了。
该baseline是本人自己写的,跟大佬的baseline没法比的。
特征基本上没有做,就清洗了下数据,模型采用的是最简单的线性回归模型。
目前线上成绩 0.17339
提升空间:做特征,换模型,做下融合。用深度学习应该也没问题。

比赛地址
完整代码

import pandas as pd
import numpy as np
import seaborn as sns
import warnings
import datetime
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_errorwarnings.filterwarnings("ignore")
data_train = pd.read_csv("input/train_feature.csv") #训练数据
data_train_y = pd.read_csv("input/train_label.csv") #训练标签
data_test = pd.read_csv("input/test_feature.csv") #测试数据#对训练集reshape 8时刻合一天 ,维度增加到64维,最后再清洗去掉重复列
train_feature = data_train.values.ravel().reshape(-1)
print(train_feature, '\n shape :', train_feature.shape, '=', 17008 * 8)
feature_train_64 = train_feature.reshape([2126, 64])
print(feature_train_64, '\nshape :', feature_train_64.shape)#对测试集reshape 8时刻合一天,维度增加到64维,最后再清洗去掉重复列
test_feature = data_test.values.ravel().reshape(-1)
print(test_feature, '\n shape :', test_feature.shape, '=', 7296 * 8)
feature_test_64 = test_feature.reshape([912, 64])
print(feature_test_64, '\nshape :', feature_test_64.shape)#数据简单的清洗
feature_name = data_train.columns.tolist()
feature_name.remove('日期')
time = data_train['时刻'][0:8].tolist()
feature_list = []
for j in time:feature_list.append('日期')for i in feature_name:fn = i+'_'+str(j)feature_list.append(fn)len(feature_list)
print(feature_list)#对训练集转换为DataFrame
#转换成DataFrame类型的数据
data_train = pd.DataFrame(feature_train_64,columns = feature_list)
#去除重复列
columns = data_train.columns.tolist()
data_train_deal = data_train[columns].T.drop_duplicates().T
data_train_deal.head()
data_train.head()#合并数据集,将变量和目标变量合并
data_train_final = pd.concat([data_train_deal,data_train_y['电场实际太阳辐射指数']],axis = 1,join='inner')#对测试集转换为DataFrame
data_test_deal = pd.DataFrame(feature_test_64,columns = feature_list)
#将重复列去掉
columns = data_test_deal.columns.tolist()
data_test_final = data_test_deal[columns].T.drop_duplicates().T
data_test_final.head()#划分数据集
X = np.array(data_train_final.drop(['电场实际太阳辐射指数'],axis = 1))
y = np.array(data_train_y['电场实际太阳辐射指数'])
print(X.shape,y.shape)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.3,random_state = 45)
(X_train.shape,X_test.shape,y_train.shape,y_test.shape)
X_test2 = np.array(data_test_final)
print(X_test2.shape)#数据标准化
#标准化
scaler_train = StandardScaler().fit(X)
X_train_std = scaler_train.transform(X)
print(X_train_std.shape)
X_train_std,X_test_std,y_train_std,y_test_std = train_test_split(X_train_std,y,test_size = 0.3,random_state = 45)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)#对测试集进行标准化
scaler_test = StandardScaler().fit(X_test2)
X_test_std = scaler_test.transform(X_test2)
print(X_test_std.shape)#使用线性模型训练
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit(X_train_std,y_train_std)
y_pred_line = reg.predict(X_test_std)
mae_line = mean_absolute_error(y_pred_line,y_test)
print("MAE line_score:",mae_line)#导出数据
index = np.array(data_test_final['日期']).astype("int32")
now = datetime.datetime.now()
now = now.strftime('%m-%d-%H-%M')y_hat_line = reg.predict(X_test_std)
result = pd.DataFrame({"time":index,"prediction":y_hat_line})
columns = ["time","prediction"]
result = result.loc[:,columns]
result.to_csv("output/submit_baseline_line{}.csv".format(now),index = False)```   

国能日新太阳辐射指数预测大赛个人baseline(0.17)相关推荐

  1. 国能日新光伏功率预测大赛的总结

    目录 写在前面的话 关于比赛 数据和特征工程 1. 时间 2.float数据 3.category数据 4.其他特征 关于特征选择 关于模型调参 关于模型融合 反思和总结 写在前面的话 人生第二次打比 ...

  2. DC竞赛 国能日新功率预测题 rank21 解决方案(适合新手)

    DataCastle国能日新光伏功率预测 数据异常处 本题在测试集中提供了时间.辐照度.风速.风向.温度.压强.湿度.实发辐照度 8个特征,以及标签**实际功率**. 而在训练集中只有前七个特征,无实 ...

  3. 国能日新通过注册:年营收3亿 雍正为实控人

    雷递网 雷建平 3月14日报道 国能日新科技股份有限公司(简称:"国能日新")日前通过注册,预计近期在深交所上市,预计募资3.45亿元. 其中,2.2亿元用于新能源功率预测产品及大 ...

  4. noip复赛普及组2020_我校学子在2020年“外研社·国才杯”全国英语写作大赛(高职组)复赛中斩获佳绩...

    10月24日,2020"外研社·国才杯"全国英语写作大赛(高职组)(原"外研社杯"全国高等职业院校英语写作大赛)上海赛区复赛在上海工艺美术职业学院徐汇校区举行. ...

  5. 2021全球抗体亲和力预测大赛来了!

    生命的复杂,远超我们的想象.当我们已经能探寻到5500万公里外火星的秘密,却还难以将我们身体里仅200微米的细胞故事讲得明白. 但我们对生命的探索却从未停止,从最开始的肉眼观察,到使用精密的仪器检测, ...

  6. 用户人品预测大赛--getmax队--竞赛分享

    用户人品预测大赛--getmax队--竞赛分享  DataCastle运营 发表于 2016-3-24 14:49:32 533  0  0 答辩PPT 转载于:https://www.cnblogs ...

  7. 上证指数开盘指数预测 Matlab

    SVM简介 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机:SVM还包括核技巧, ...

  8. 【baseline】Kaggle新赛!信用违约预测大赛

    日前,Kaggle发布了American Express - Default Prediction 信用违约预测大赛.要求参赛者: 运用机器学习技能来预测信用违约 这是一个金融风控场景下的结构化数据挖 ...

  9. kaggle新赛:蛋白质功能预测大赛baseline

    日前,Kaggle发布了CAFA 5 Protein Function Prediction蛋白质功能预测大赛.这是一个机器学习中的序列预测任务,需要你开发一个基于蛋白质氨基酸序列和其他数据的模型,预 ...

最新文章

  1. (经典)Hibernate多对多关系映射(五)
  2. EPROCESS ETHREAD简介
  3. Complex Congratulation β
  4. Java商场对顾客年龄,购物中心客群调查:不同年龄层消费者进商场都干嘛?
  5. 一通电话被骗走4年生活费,她决定用技术守护千万用户
  6. server sql 无法从long转为int_MySQL中,21个写SQL的好习惯(修正版)
  7. 绝不误人子弟!零基础应该选择学习Java、PHP,还是前端?
  8. Kotlin 密封类
  9. ESP8266-Arduino编程实例-L3GD20三轴角速率传感器驱动
  10. iphone邮件服务器 263,在iphone上怎么设置263邮箱
  11. 以智能卡平台为硬件的嵌入式加密IC的优势
  12. 一维信号小波去噪原理及python实现示例
  13. 阿里巴巴集团副总裁陈丽娟对话VMware全球副总裁原欣:助力企业数字化转型
  14. HTML制作注册页面
  15. jenkins部署 java项目到远程 windows服务器
  16. DevSecOps | 极狐GitLab 动态应用程序安全测试(DAST)使用指南
  17. 701计算机科学综合,计算机科学与技术学院“不忘初心、牢记使命”系列主题教育 “迎新杯”辩论赛总决赛...
  18. 系统集成项目管理工程师-第三章 信息系统集成专业技术知识
  19. 三星手机电池循环清零代码_巅峰对决申真谞离奇“滑标” 三星杯决赛首局柯洁轻松告捷...
  20. 使用jquery给a标签加上或去掉下划线

热门文章

  1. php 仿微信发红包 负数,php仿微信红包分配算法的实现方法
  2. pyecharts本地文件,pyEcharts安装及详细使用指南(最新)
  3. B. Weird Subtraction Proces
  4. 2022年西北工业大学“工大出版社杯”校赛参赛经历
  5. 前端会用标签模板(Tagged Templates)就能当股神
  6. 转换heic图片格式
  7. CTFshow SSRF(web351-360)
  8. 基于华为云虚拟机搭建方舟:生存进化私服(ARK Server Manager)教程
  9. 逻辑问题 ---- 谁是窃贼
  10. 合肥学院期末考试卷java_JavaWeb期末考试A卷