智算之道——人工智能应用挑战赛(初赛)-baseline

比赛类型:数据挖掘
比赛数据:表格题(csv)
学习方式:有监督

比赛链接
比赛任务:疾病的预测往往能够从病人的病历历史数据挖掘当中判断,而许多有价值的发现也往往是在对于结构化数据的建模与分析之中得出。本赛题希望通过结构化的数据预测与分析,判断一名病人的是否患有肝炎。

提交结果

:本baseline仅供大家快速上手和提交

目录

  • 智算之道——人工智能应用挑战赛(初赛)-baseline
  • 1 项目创建和使用
  • 2 数据读取
    • 2.1 导入相关库
    • 2.2 读取数据
    • 2.3 数据EDA
    • 2.4 特征工程
  • 3 模型
    • 3.1 准备数据集
    • 3.2 训练模型
    • 3.3 提交

1 项目创建和使用


从上图的平台入口进入平台——工作台——新建项目(填写项目名称和项目描述即可),之后在项目创建notebook便可进入环境

2 数据读取

2.1 导入相关库

import os
import pandas as pd
import warnings
from itertools import combinations
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import StratifiedKFold
from tqdm import tqdmfrom xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier%matplotlib inline
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows',None)
pd.set_option('display.max_columns',None)

2.2 读取数据

数据集路径在 ‘/home/kesci/data/competition_A/’ 下

path = '/home/kesci/data/competition_A/'
train_df = pd.read_csv(path+'train_set.csv')
test_df  = pd.read_csv(path+'test_set.csv')
submission  =  pd.read_csv(path+'submission_example.csv')
print('Train Shape:{}\nTest Shape:{}'.format(train_df.shape,test_df.shape))
train_df.head()

2.3 数据EDA

findfont: Font family [‘sans-serif’] not found. Falling back to DejaVu Sans.

对不起,环境中没有SimHei字体,sns的中文暂时没法显示


根据训练集的列可以得到大致如下三种特征:数字列、二值列(0或1)、字符列

num_columns = ['年龄','体重','身高','体重指数', '腰围', '最高血压', '最低血压','好胆固醇', '坏胆固醇', '总胆固醇','收入']
zero_to_one_columns = ['肥胖腰围','血脂异常','PVD']
str_columns = ['性别','区域','体育活动','教育','未婚','护理来源','视力不佳','饮酒','高血压','家庭高血压', '糖尿病', '家族糖尿病','家族肝炎', '慢性疲劳','ALF']

肝炎与年龄

从上图中可以看出在训练集中患肝炎的年龄都是比较大的,也就是说年龄将会是一个很重要的区分是否患肝炎特征

暂时先不画了,如果解决了中文字体,会持续更新

2.4 特征工程

字符编码,将如[‘A’,‘B’,‘C’,‘D’]编码成[0,1,2,3]

# 字符编码
for i in tqdm(str_columns):lbl = LabelEncoder()train_df[i] = lbl.fit_transform(train_df[i].astype(str))test_df[i] = lbl.fit_transform(test_df[i].astype(str))

数据归一化

# 数值归一化
train_df[num_columns] = MinMaxScaler().fit_transform(train_df[num_columns])
test_df[num_columns]  = MinMaxScaler().fit_transform(test_df[num_columns])

空值填充

train_df.fillna(0,inplace=True)
test_df.fillna(0,inplace=True)

3 模型

3.1 准备数据集

all_columns = [i for i in train_df.columns if i not in ['肝炎','ID']]train_x,train_y = train_df[all_columns].values,train_df['肝炎'].values
test_x  = test_df[all_columns].values
submission['hepatitis'] =0

3.2 训练模型

kfold = StratifiedKFold(n_splits=5, shuffle=False)
model = CatBoostClassifier(iterations=200,learning_rate=0.1,loss_function='Logloss')
for train, valid in kfold.split(train_x, train_y):X_train, Y_train = train_x[train], train_y[train]X_valid, Y_valid = train_x[valid], train_y[valid]model.fit(X_train,Y_train, eval_set=(X_valid, Y_valid),use_best_model=True)Y_valid_pred_prob = model.predict_proba(X_valid)submission['hepatitis'] += model.predict_proba(test_x)[:,1] / 5

3.3 提交

下述代码只需注意修改token即可

!wget -nv -O kesci_submit https://cdn.kesci.com/submit_tool/v4/kesci_submit&&chmod +x kesci_submit
submission.to_csv('submission.csv',index=False)
!./kesci_submit -token '你的队伍Token' -file '/home/kesci/work/submission.csv'

注!:上述代码除了修改Token外无需任何修改,若想提升或反查重,可以考虑增加特征工程或随机数和调参(评测指标是AUC,无需将标签改为0、1)

完整ipynb文件可见Github

智算之道——人工智能应用挑战赛(初赛)-baseline 0.844相关推荐

  1. 着眼未来 巅峰对决 | “智算之道—2020人工智能应用挑战赛”圆满收官!

    随着大数据时代的到来,以及计算能力的提升,人工智能在技术领域的突破日新月异,早已成为国家.企业.高校关注的焦点.作为引领未来的新兴技术,世界主要国家纷纷将发展人工智能视为提升国家竞争力的重大战略,并加 ...

  2. 2021华为软件精英挑战赛初赛baseline

    2021华为软件精英挑战赛初赛baseline,由ddmm大佬提供的单文件baseline按照工程开发格式改写,改为以类为单位,多文件的格式.同样没有在里面添加任何算法,相当于一个脚手架,帮助大家更快 ...

  3. 2020人工智能应用挑战赛前瞻 | 专家委员会强大阵容,震撼发布!

    截止2019年8月份全国344所高校已经开办.正在开办.即将开办人工智能方向相关专业.还记得当时浙江大学在新增机器人工程和人工智能两个超级热门专业时,不仅引起国内教育界的讨论,国外媒体也争相报道.其中 ...

  4. 计算力即生产力,智算中心就是智慧时代的“发电厂” | MEET2021

    编辑部 整理自 MEET 2021  量子位 报道 | 公众号 QbitAI 进入AI时代,什么最重要? 算法固然是AI技术的核心,但是没有强大算力的支持,AI技术就很难得到落地.现在连AI技术创新本 ...

  5. 打造标杆,中科院人工智能战队发布新一代智算平台

    AI科技评论报道 作者 | 青暮 编辑 | 陈大鑫 从去年5月份到今年6月份,大规模预训练AI模型的参数规模已经从千亿直接突破万亿.只有非常大型的超算或者人工智能计算中心才能支撑如此规模的AI模型,放 ...

  6. 直击2021人工智能计算大会:智算系统创新成AI持续发展的关键

    位来 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 10月26日,2021人工智能计算大会(AICC 2021)在京举行.本届大会以"智算·新际"为主题,旨在探讨在人工智能 ...

  7. 智源杯天文数据算法挑战赛开赛,前沿AI技术助力天文科学研究

    由北京智源人工智能研究院主办,国家天文台.数据评测平台biendata联合举办的天体分类数据竞赛于2020年1月开赛.本次比赛旨在鼓励大众参与到天文学的探索当中,利用最新的人工智能算法分析望远镜收集到 ...

  8. 智源“高能对撞粒子分类挑战赛”开启,品鉴宇宙粒子的独特“味道”

    2019 年 11 月,北京智源人工智能研究院联合数据评测平台 biendata,共同发布了粒子碰撞数据集,其中包含数百万条高能对撞中所产生的喷注信息(质量.能量.方向等),以及相关的碰撞事件信息和喷 ...

  9. 人工神经网络发现生物神经网络,智源超高清电镜图像分割挑战赛开赛

    通过人工神经网络等计算机视觉技术,从兔子视网膜的电镜图片中分割出神经元.  2019 年 10 月,北京智源人工智能研究院联合北京大学,共同发布了超高清晰电镜图像分割挑战赛神经元数据集,其中包含兔子的 ...

最新文章

  1. python基础第三章选择结构答案-Python days03-选择结构【if】
  2. math_functions
  3. 进一步掌握linux吧
  4. 北航计算机梅澜,水江澜-北京航空航天大学材料科学与工程学院
  5. 阿里云主机安装开发工具包报错处理
  6. Jdom的SAXBuilder解析String形式的XML
  7. 超微服务器双路主板系列,巨无霸核心!超微发布X12DPL系列服务器主板
  8. 补充一点地理知识(以洲来划分各个国家(240个))
  9. shouji android输入法,安卓手机主流输入法对比
  10. Ora-00942:表或视图不存在
  11. 【干货】如何搭建靠谱的数据仓库.pdf(附下载链接)
  12. 深度讲解 Python 四大常用绘图库的“绘图原理”
  13. 图解:SQL SERVER2005的安装
  14. java编译不报错但运行啥都没_java编译时与运行时概念与实例详解
  15. 服务器技术文件,服务端开发技术文档要包含什么?
  16. javatodo框架中怎么配置路由
  17. SPSS和excel数据分析之平均值和标准误差对比图
  18. mysql -prompt选项
  19. 办公自动化软件运用测试,办公自动化上机操作测试题
  20. 一款简约好看的html5音乐播放器,一款好看又简洁的HTML5音乐播放器skPlayer

热门文章

  1. 老年人手抖的治疗方法
  2. Windows下查看域名解析的IP
  3. 忆享科技戟星安全实验室|从零开始Burpsuite 插件开发
  4. 【场景方案】关于excel、pdf、word、富文本编辑器、思维导图制作、图表制作这类第三方库的推荐
  5. 利用python解决猴子吃桃问题
  6. 牛客刷题之图论-最小生成树
  7. 能源站控制(HVAC系统)
  8. cetus权限连接主从mysql_cetus/cetus-rw.md at master · eimens/cetus · GitHub
  9. 关于校招面试要怎么准备,这里有一些过来人的建议
  10. sprintf 最常见的应用之一莫过于把整数打印到字符串中