初赛 A:银行卡电信诈骗危险预测 

一、问题背景: 

数字支付正在发展,但网络犯罪也在发展。电信诈骗案件持续高发,消费者 受损比例持续走高。报告显示,64%的被调查者曾使用手机号码同时注册多个账户,包括金融类账户、社交类账户和消费类账户等,其中遭遇过电信诈骗并发生 损失的比例过半。用手机同时注册金融类账户及其他账户,如发生信息泄露,犯 罪分子更易接管金融支付账户盗取资金。

随着移动支付产品创新加快,各类移动支付在消费群体中呈现分化趋势,第三方支付的手机应用丰富的场景受到年轻人群偏爱,支付方式变多也导致个人信 息也极易被不法分子盗取。根据数据泄露指数,每天有超过 500 万条记录被盗, 这一令人担忧的统计数据表明 - 对于有卡支付和无卡支付类型的支付,欺诈仍 然非常普遍。

在今天的数字世界,每天有数万亿的银行卡交易发生,检测欺诈行为的发生 是一个严峻挑战。

二、数据描述: 

该数据来自一些匿名的数据采集机构,数据共有七个特征和一列类标签。下 面对数据特征进行一些简单的解释(每列的含义对我们来说并不重要,但对于机 器学习来说,它可以很容易地发现含义。它有点抽象,但并不需要真正了解每个 功能的真正含义。只需了解如何使用它以便您的模型可以学习。许多数据集,尤 其是金融领域的数据集,通常会隐藏一条数据所代表的内容,因为它是敏感信息。 数据所有者不想让他人知道,并且数据开发人员从法律上讲也无权知道)

➢ distance_from_home:银行卡交易地点与家的距离;

➢ distance_from_last_transaction:与上次交易发生的距离;

➢ ratio_to_median_purchase_price:近一次交易与以往交易价格中位数的比率;

➢ repeat_retailer:交易是否发生在同一个商户;

➢ used_chip:是通过芯片(银行卡)进行的交易;

➢ used_pin_number:交易时是否使用了 PIN码;

➢ online_order:是否是在线交易订单;

➢ fraud:诈骗行为(分类标签);

三、解决问题:

1) 使用多种用于数据挖掘的机器学习模型对给定数据集进行建模;

2) 对样本数据进一步挖掘分析,通过交叉验证、网格调优对不同模型的参 数进行调整,寻找最优解,将多个最优模型进行进一步比较;

3) 通过对 precision(预测精度)、recall(召回率)、f1-score(F1 分 数值)进行计算,给出选择某一种预测模型的理由;

4) 将模型性能评价通过多种作图方式进行可视化

初赛 B:航班数据分析与预测 

一.问题背景 

随着科技的发展,乘坐飞机出行为人们的生活带来了极大的便利,航空交通 管理影响着人们的工作和生活效率。在大数据和人工智能时代的今天,各种各样 的信息科学和工程技术广泛应用于航空领域,为人们的生产生活提供更高的便利 性,因此提高空中资源的优化配置,一直都是计算机科学与技术、信息科学与工 程、数学等领域的一门热点研究方向。当前航空延误是空中资源优化配置的一项 经典课题,分析与预测航空延误有助于提高资源的优化管理,提高生产生活效率,可以为乘客提供更优质的服务。

二.解决问题 

1.航班转机功能实现:当两个城市之间没有直飞航班或者在购买机票附件时 间没有直飞航班的时候,乘客通常需要购票 APP 实现转机功能。

(一)以附件中 2001-2003 年航班数据作为依据,实现在2001-2003年的航班转机功能。(注:从 A 地到 B 地可以有多种转机方案,该功能应提供时间最短 的方案,已知的航班延误信息也应考虑在内)。

(二)用上述转机功能,查询 2003 年 7 月 4 日出发 7 月 5 日到达,从 CVG 机场到 ANC 机场最短时间方案。(注:航班延误时间也考虑在内)

2.迈阿密(MIA)起飞航班的延误分析

以论文形式说明:先给出自己对问题(一)和(二)航班延误的分析,再建 立模型做实验得到航班是否延误的准确率,以实验结果检验自己最初的分析。

(一)以附件中的 2001-2003 年的航班数据作为训练集,以附件 2004-2005 年的航班数据作为测试集,以从迈阿密(MIA)到洛杉矶(LAX)和从迈阿密(MIA) 到纽约(JFK)这两组航班数据作为研究对象,先以文字形式叙述预测航班是否 延误的依据,再建立模型预测从迈阿密(MIA)起飞航班(从 MIA 到 LAX 和从 MIA 到 JFK)是否延误,以预测准确率和实验结果检验自己的分析。(注:测试集不 能参与到训练和验证中,否则作违规处理)

提示:可以在训练、验证和预测中使用机场所在地天气情况等信息,详见附件数据属性说明表。

(二)以附件中的2001-2003 年的航班数据作为训练集,以附件2004-2005 年的航班数据作为测试集,以从迈阿密(MIA)到洛杉矶(LAX)和从迈阿密(MIA) 到纽约(JFK)这两组航班数据作为研究对象,先以文字形式分析航班延误的各 种原因,再建立模型预测从迈阿密(MIA)起飞航班(从 MIA 到 LAX 和从 MIA 到 JFK)延误的原因,以预测延误原因的准确率和实验结果检验自己的分析。(注:测试集不能参与到训练和验证中,否则作违规处理)

提示:参赛队伍可以先筛选出延误航班,再对延误航班的原因进行预测与分 析,详见属性说明表中航班延误原因。在训练、验证和预测中可以使用机场所在 地天气情况等信息,详见附件数据属性说明表。

赛题附件

2022年首届“钉钉杯”大学生大数据挑战赛初赛题目

下载时间:7月22日09:00−8月10日09:00

参赛说明

每只队伍自由选择A、B赛题的其中一个进行比赛。

需要赛题数据的评论区留言给我

2022年首届“钉钉杯”大学生大数据挑战赛初赛题目相关推荐

  1. 2021微信大数据挑战赛-初赛-NN思路分享

    总结 模型 该方案是基于Deepfm的baseline模型,线上加权在0.661左右.未进行调参,未进行多折,若后续想提分,可以从模型方面进行着手调试. 特征工程 主要是通过基础id做的embeddi ...

  2. 2022年第十四届“华中杯”大学生数学建模挑战赛

    2022年第十三届"华中杯"大学生数学建模挑战赛   为了推广我国高校数学建模实践教学,培养学生的创新意识及运用数学方法和计算机技术解决实际问题的能力,第十四届"华中杯& ...

  3. 2022 第七届数维杯大学生数学建模挑战赛题目思路

    2022 第七届数维杯大学生数学建模挑战赛题目 思路我们发布在公众号 大学竞赛君 (请先阅读"2022 年数维杯大学生数学建模挑战赛论文格式规范") A 题 银行效率评价与破产成因 ...

  4. 2022年第七届数维杯大学生数学建模挑战赛报名通知

    一.竞赛背景 为了培养学生的创新意识及运用数学方法和计算机技术解决实际问题的能力,内蒙古创新教育学会.内蒙古创新教育资源开发研究院举办2022第七届数维杯大学生数学建模挑战赛(以下简称竞赛),数维杯大 ...

  5. 关于举办“全国大学生大数据技能竞赛”的通知

    附件1: "全国大学生大数据技能竞赛"详细信息 一. 大赛时间 2018年12月8日 上午9:00-13:00 二. 大赛地点 中国农业大学计算机中心3层大数据实验中心 三. 发起 ...

  6. 2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享

    2020"东方国信杯"高校大数据开发大赛最终榜第三名思路分享 2020"东方国信杯"高校大数据开发大赛刚刚结束,我所在的队伍"三人运动团"最 ...

  7. 全国大学生大数据技能竞赛(Hadoop集群搭建)

    系列文章 全国大学生大数据技能竞赛(数仓部署) 全国大学生大数据技能竞赛(Spark on Yarn安装) 文章目录 系列文章 前言 资料链接 用VMware练习配置前准备三台虚拟机并修改网络为桥接 ...

  8. 【20保研】中国科学技术大学2019年第二届大学生大数据夏令营通知

    点击文末的阅读原文或者公众号界面左下角的保研夏令营或者公众号回复"夏令营"是计算机/软件等专业的所有保研夏令营信息集合,会一直更新的. 1.申请资格 1)国内大学相关专业(如,数学 ...

  9. 2022微信大数据挑战赛复盘,rank60+菜鸟

    2022微信大数据挑战赛复盘,rank60+菜鸟 说明 初赛 模型选择 trick implement details 复赛 模型选择 trick implement details 一些遗憾的地方 ...

最新文章

  1. NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
  2. 说说“偏差处理”那点事
  3. HNSW算法原理(二)之删除结点
  4. Java实体映射工具MapStruct
  5. WEB接口测试之Jmeter接口测试自动化 (三)(数据驱动测试) 接口测试与数据驱动...
  6. 使用Python开发SQLite代理服务器
  7. mysql xp系统时间_【MySQL】时间函数
  8. u3d目标与摄像机之间的遮挡物变为透明
  9. visio mysql使用教程_Visio技巧篇之一些常用小技巧
  10. 修复 海盗船 k70 lux 未检测到设备(k70 no device detected)
  11. 运行“travel[org.apache.tomcat.maven:tomcat7 maven plugin:2.1:run]时出错:未指定项目JDK
  12. 【从零开始玩量化7】easyTrader: 自动化(程序化)交易利器
  13. 【蓝桥杯】CT107D开发板没有操作的led灯频闪、暗亮问题,蜂鸣器咔咔响
  14. 不是机器人韩剧所有歌曲_15首超好听经典韩剧OST 《鬼怪》配乐每听必哭
  15. 卧槽,这个Vue调试神器牛逼!点击页面元素居然能直接打开对应组件文件…
  16. mysql快速建表工具_我所知道的MYSQL快速建表的3种方法
  17. jekyll搭建博客
  18. c语言log库,Log4g
  19. 【C++】关键字restrict的作用
  20. 第一章计算机网络体系结构(二)

热门文章

  1. aws 噼里啪啦做了一天测试 花了4$
  2. 自然数的概念及性质及分类
  3. LEAST() GREATEST()
  4. 心田花开:人教版一年级语文《小蝌蚪找妈妈》知识点归纳
  5. Python 实例 - Day3 - Spirograph 万花尺(完结)
  6. [笔记]计算机体系结构-预习笔记
  7. 身份认证 Session认证机制 Cookie原理
  8. 思科邮件服务器配置不正确,Cisco Packet Tracer服务器配置_邮件传送_ftp_web_email_dns_dhcp图解...
  9. Wannafly模拟赛3-B 贝伦卡斯泰露(DFS)
  10. 微信小程序+OLAMI自然语言API接口制作智能查询工具--快递、聊天、日历等