此部分为智慧海洋建设竞赛的数据分析模块,通过数据分析,可以熟悉数据,为后面的特征工程做准备,欢迎大家后续多多交流。

赛题:智慧海洋建设

数据分析的目的:

  • EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
  • 了解特征之间的相关性、分布,以及特征与预测值之间的关系。
  • 为进行特征工程提供理论依据。

项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/wisdomOcean

比赛地址:https://tianchi.aliyun.com/competition/entrance/231768/introduction?spm=5176.12281957.1004.8.4ac63eafE1rwsY

2.1 学习目标

  1. 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值、异常值)
  1. 学习了解变量之间的相互关系、变量与预测值之间的存在关系。
  1. 完成相应学习打卡任务

2.2 内容介绍

  1. 数据总体了解

    • 读取数据集并了解数据集的大小,原始特征维度;
    • 通过info了解数据类型;
    • 粗略查看数据集中各特征的基本统计量
  2. 缺失值和唯一值
    • 查看数据缺失值情况
    • 查看唯一值情况
  3. 数据特性和特征分布
    • 三类渔船轨迹的可视化
    • 坐标序列可视化
    • 三类渔船速度和方向序列可视化
    • 三类渔船速度和方向的数据分布

作业:

  1. 请尝试用Task1中的异常处理代码对异常数据进行删除之后,再分别绘制速度和方向的数据分布图、速度和方向的分位图。

2.在前面我们已经进行了绘制速度和方向的数据分布图。由Task1的keperl.gl可知,不同地理位置和船舶类型的相关性较大。请尝试将相同类型船舶的轨迹给拼接起来并绘制经度和纬度的总体分布特征。之前由liu123的航空母舰队伍绘制的分布图如下所示。

智慧海洋Task02 数据分析相关推荐

  1. 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task2数据分析

    智慧海洋建设-Task2 数据分析 此部分为智慧海洋建设竞赛的数据分析模块,通过数据分析,可以熟悉数据,为后面的特征工程做准备,欢迎大家后续多多交流. 赛题:智慧海洋建设 数据分析的目的: EDA的主 ...

  2. 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task1地理数据分析常用工具

    智慧海洋建设-Task1 地理数据分析常用工具 在地理空间数据分析中,常会用到许多地理分析的工具,在本模块中主要是针对常用的shapely.geopandas.folium.kepler.gl.geo ...

  3. 2020DCIC智慧海洋建设算法赛学习01-赛题北京及地理数据分析常用工具

    序: 本系列的博客旨在学习2020DCIC智能算法赛-智慧海洋建设的优秀方案,对地理数据分析问题积累一些思路和经验. 作为这一系列博客的开篇,这篇博客主要内容包括对赛题的解析和对项目中会用到的一些常用 ...

  4. 智慧海洋建设-Task1地理数据分析常用工具

    地理数据分析常用工具 安装geopandas的库时可以参考我的这篇文章<python库geopandas的安装方法>,https://blog.csdn.net/sjjsaaaa/arti ...

  5. 智慧海洋竞赛Task01:地理数据分析常用工具

    智慧海洋竞赛Task01:地理数据分析常用工具 了解shapely和geopandas的基本功能 1. 掌握用python中的这两个库实现几何对象之间的空间操作方法 1.1 shapely库学习 ge ...

  6. Datawhale 智慧海洋建设-Task1 地理数据分析常用工具

    一.模块shapely,geopandas,folium,kepler.gl,geohash工具的使用 1.shapely的使用 shapely主要是做地理空间数据的分析, 库的导入 from sha ...

  7. 智慧海洋建设——Task1 地理数据分析常用工具学习心得

    地理数据分析常用工具 一.shapely shapely是python中可以处理笛卡尔坐标系中几何对象(点.线.面)的一个库.其功能非常复杂,可以简化我们平时许多操作,下面来说一下我的一些学习理解. ...

  8. 对智慧海洋数据进行数据分析

    数据分析 数据获取地址: 链接:https://pan.xunlei.com/s/VMX5JAhFN7ZmPaaCVsHQEVkrA1 提取码:hmtz 一.数据详情 1.导入相关库 #coding: ...

  9. 【组队学习】【24期】数据挖掘实践(智慧海洋)

    数据挖掘实践(智慧海洋) 开源内容: https://github.com/datawhalechina/team-learning-data-mining/tree/master/wisdomOce ...

最新文章

  1. 一种ui app写法
  2. plsql窗口文件怎么找回_电脑文件丢失怎么找回?知道原因和方法很关键
  3. MLP is Best?
  4. Android开发二 什么是Android
  5. flink的datastream输出没有结果
  6. spring学习(5):spring简介
  7. MATLAB中使用LIBSVM进行SVM参数寻优
  8. 32位与64位应用程序速度分析
  9. 构建springboot微服务聚合工程
  10. Python——相对路径的学习笔记
  11. 关于Ubuntu 16.04系统挂载硬盘以及迁移MYSQL数据存储目录的操作步骤
  12. php使用函数封装去除空格,去除php注释和去除空格函数分享_PHP教程
  13. java_log_02
  14. [转]c++中RTTI的观念和使用
  15. 人工智能 - 语音识别的技术原理是什么
  16. [week15] ZJM 与霍格沃兹 —— 字符串哈希
  17. 简单的学生网页作业源码 基于web在线餐饮网站的设计与实现——蛋糕甜品店铺(html css javascript)
  18. Maven使用与学习
  19. linux(4)进程控制
  20. Afterlogic xmail 邮局软件不能收email 设置

热门文章

  1. 计算机电子信息相关专业介绍,电子信息类专业有哪些
  2. CODE【VS】1384 黑色星期五(计算某一天是星期几的公式)
  3. 【Unity】FPS游戏中的物理引擎——角色控制器(CharacterController)和刚体(Rigidbody)初解
  4. 10 个 VSCode 摸鱼神器,确定不试一下?
  5. 解决pycharm下载opencv-python
  6. MATLAB程序采用非支配排序遗传算法(NSGA2)求解分布式电源选址定容问题,可作为一个有用的参考,程序注释明确,算法原理可以自己搜。
  7. 【转】当你进行地图设计时,需要了解这些小知识
  8. 高中python课程实施方法_基于学科核心素养的高中信息技术Python教学探析
  9. Ubuntu更新内核
  10. PostgreSQL定义返回表函数