1. Spark有3种运行模式:独立集群运行模式、YARN运行模式、Mesos运行模式。
  1. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是 2.6bit
  2. secondarynamenode一般在另外一个节点上运行,需要与namenode一样多大小的内存,作用就是定期合并编辑日志与命名空间镜像,以防止编辑日志过大。

    但是该辅助namenode总会滞后于namenode

    A中的热备份专门指热备namenode

  3. 硬链接与软链接

  4. 注意在SQL中,默认的inner join/outer join 都会出现相同名字的列重复出现

  5. mapreduce实际的处理过程可以理解为Input->Map->Sort->Combine->Partition->Reduce->Output。

  6. YARN的基本组成结构,YARN主要由ResourceManager、NodeManager、ApplicationMasterContainer等几个组件构成    交互原理:(1)RM调度资源并在合适的NM节点上启动对应的AM。AM向RM注册,包含二者之间的握手信息、AM侦听端口,及后续进行AM管理和监控的URL。
    (2)RM接收AM注册信息,并反馈响应给AM,包含集群资源信息。
    (3)AM向RM发起资源分配请求,包含需要使用的Container个数,同时附带归属于本AM的Container信息。
    (4)AM向RM获取资源分配进度信息,并保持与RM之间的心跳。
    (5)RM根据资源调度策略,分配容器资源给AM。
    (6)AM根据RM反馈信息,指示对应NM完成Container的拉起。一个NM上可以启动多个Container。
    (7)在Container运行过程中,AM向NM获取Container的运行状态报告。
    (8)NM将Container的运行状态信息反馈给AM。

  7. 题中所述文本文件存在明显的数据倾斜问题,word1出现频次远大于其他单词,因此需要对word1在map阶段的输出key值进行构造,从而将word1均分给多个reduce计算。 
    注:如果只答出一般的wordcount步骤,没有考虑到数据倾斜问题,严格来说应不得分。 
    1.map阶段 
      map方法按行读取文件,每行文件按空格分隔为一个单词列表,依次读取每个单词. 
      若单词为word1,则map阶段的输出为<word1_randomInt(50),1>,即"word1_"加0-50 之间的随机整数。 其他单词直接输出<单词,1>。 
      注:只要答出map阶段对单词word1的输出key值进行构造,以达到将word1均分为多个不同的key输出的目的即可,具体方法可有所区别。 
    2.combine阶段 
      注:计算方法同reduce阶段,该步骤可省去,答出+1分。 
    3.reduce阶段 
      对同一key值得value进行累加,得出各个key值的出现次数。 
    4.计算最终结果。
     依次逐行读取reduce阶段输出目录中的所有文件: 
      a.若key不是形同"word1_XX",直接输出key和value,即得出对应单词的出现频次。 
      b.若key类似"word1_XX",对所有key的value值累加,即可得出word1的出现频次。

  8. 利用分类模型lr,gbdt,xgboodt,决策树等都可以。这里以lr为例子,需要数据为:客户基本信息,包括年龄,收入,性别等,客户征信信息,包括贷款,还款记录等,客户司法信息,包括是否有犯罪等。这些特效数值型与分类型均有。预处理需要缺失填补,异常值处理,归一化等,然后特征选择,基于熵或者iv,woe编译。最后拟合模型,常见模型评估用混淆矩阵,召回率,精确率,auc值等。

  9. 现在信用卡开展营销活动,持有我行信用卡客户推荐新户办卡,开卡成功后可获得积分奖励。规定每个客户最多可推荐两个新户且一个新户只能被推荐一次。但允许链接效应,即若客户A推荐了新户B,新户B推荐新户C,则客户C同时属于A和B的推荐列表。简单起见,只考虑以一个老客户A作起点推荐的情况。编程计算推荐新户数不小于n的客户列表

  10. 数据仓库是一种面对主题的,相对稳定的,集成的,反应历史变化的数据集合

  11. 数据仓库常用模型:范式建模,雪花模型,星形模型,事实星座模型

  12. 1. 决策树归纳是一种构建分类模型的非参数方法。换句话说,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布 
    2. 找到最佳的决策树是NP完全问题。许多决策树算法都采取启发式的方法指导对假设空间的搜索。我们常用一种贪心的、自顶向下的递归划分策略建立决策树。 
    3. 已开发的构建决策树技术不需要昂贵的计算代价,即使训练集非常大,也可以快速建立模型。此外,决策树一旦建立,未知样本分类非常快,最坏情况下的时间复杂度是O(w),其中w是树的最大深度。 
    4. 决策树相对容易解释,特别是小型的决策树在很多简单的数据集上,决策树的准确率也可以与其他分类算法相媲美。 
    5. 决策树是学习离散值函数的典型代表。然而,它不能很好地推广到某些特定的布尔函数。 
    一个著名的例子是奇偶函数,当奇数(偶数)个布尔属性为真时其值为0(1)。对于这样的函数准确建模需要一棵具有2d+1−12d+1−1个结点的满决策树,其中d是布尔属性的个数。(每次利用属性划分后,子集合中值为0/1的比例仍然一样) 
    6. 决策树算法对于噪声的干扰具有相当好的鲁棒性,采用避免过拟合的方法之后尤其如此。 
    7. 冗余属性不会对决策树的准确率造成不利的影响,有效处理共线性一个数据如果在数据中它与另一个属性是强相关的,那么它是冗余的。在两个冗余的属性中,如果已经选择其中一个座位划分属性,则另一个将会被忽略。然而,如果数据集中含有很多无用的属性(即对分类任务没有用的属性),则某些无用属性可能在树的构造过程中偶然被选中,导致决策树过于庞大。通过在预处理阶段删除不相关属性,特征选择技术能够帮助提高决策树的准确率。
    8. 由于大多数的决策树算法都采用自顶向下的递归划分方法,因此沿着树向下,记录会越小。在叶结点,记录可能太少,对于叶结点代表的类,不能作出具有统计意义的判断,这就是所谓的数据碎片(data fragmentation)问题。解决该问题的一种可行的方法是,当样本数小于某个特定阈值时停止分裂。 
    9. 子树可能在决策树中重复多次,这使得决策树构建过程时间复杂度大,并且可能更难解释。由于大多数的决策树算法都采用分治划分策略,因此在属性空间的不同部分可以使用相同的测试条件,从而导致子树重复问题。

  13. KNN算法的思想如下:就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:

    1)计算测试数据与各个训练数据之间的距离;

    2)按照距离的递增关系进行排序;

    3)选取距离最小的K个点;

    4)确定前K个点所在类别的出现频率;

    5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

    可以看出,测试与训练是同时的,严格意义上说,不同于其他的算法过程,knn没有训练过程,直接就是利用测试集进行投票预测。

  14. self在Python里不是关键字。self代表当前对象的地址。

    self能避免非限定调用造成的全局变量。

    self在定义时需要定义,但是在调用时会自动传入。

    self的名字并不是规定死的,但是最好还是按照约定是用self

    self总是指调用时的类的实例

  15. HDFS的Namenode的HA架构特点:

  16. ZKFC控制NameNode主备仲裁:NameNode主备仲裁,由ZKFC控制,ZKFC作为一个精简的仲裁代理,其利用zookeeper的分布式锁功能,实现主备仲裁,再通过命令通道,控制NameNode的主备状态。

  17. 2、采用共享存储同步日志。主用NameNode对外提供服务,同时对元数据的修改采用写日志的方式写入共享存储,同时修改内存中的元数据。备用NameNode周期读取共享存储中的日志,并生成新的元数据文件,持久化的硬盘,同时回传给主NameNode。

    3、采用隔离(fence)机制防止脑裂。共享存储fencing,确保只有一个NN可以写入edits。客户端fencing,确保只有一个NN可以响应客户端的请求。DataNode fencing,确保只有一个NN可以向DN下发命令,譬如删除块,复制块,等等。

中行信用卡数据岗知识相关推荐

  1. 10家银行大数据岗面试经历,已拿offer,解决北京户口

    点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复[加群],进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 首发:公子龙 学习群一位小姐姐去年的秋招银行之旅,面的 ...

  2. 面到阿里月薪 27k 数据岗,很难?

    AI.大数据等技术迅速发展,各大企业都亟需大量数据人才为其攻占DT时代市场地位.一时间,巨大的人才缺口让数据岗薪酬极具诱惑力.为此,很多朋友纷纷转行数据分析,享受这波时代红利. 但实际工作中,不同数据 ...

  3. 阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】

    导读:计算和存储分离是近几年大数据架构领域颇受关注的一个技术风向.在对刚刚过去的 2019 天猫双 11 技术进行总结时,阿里巴巴 CTO 行癫也特别提到了阿里在计算存储分离上的进展.大数据最初兴起之 ...

  4. 征信衍生、信用卡数据场景如何做好分析,这一种时序特征方法得学学|金融信用分析师必学内容

    对于银行信用卡中心,存量用户群体的信用卡行为表现信息,是实际业务中有关风控模型或营销分析场景的主要数据来源,例如行为评分模型.营销价值模型.客户流失模型.客户画像描述等.因此,如何有效分析信用卡用户的 ...

  5. 大数据基础知识(上)

    大数据基础知识:技巧与概念 什么是大数据 数量多 流转快 种类多 大数据需要具备全部三个特征吗? 如何使用大数据 了解消费者大数据 了解企业大数据 了解科学研究大数据 大数据与数据科学 大数据与小数据 ...

  6. 大数据基础知识(下)

    大数据基础知识:技巧与概念 大数据伦理 匿名方面的挑战 保密性方面的挑战 大数据的来源和结构 人类生成的数据 机器生成的数据 结构化数据 非结构化数据 存储大数据 分布式存储与云 云计算:IaaS.P ...

  7. 倒计时2天!字节测试、大数据岗官方考点amp;热招岗位,虽迟但到!

    题解 | #反转链表# /** * struct ListNode { * int val; * struct ListNode *next; * ListNode(int x) : 题解 | #斐波 ...

  8. 计算机信息通信基础知识,计算机基础-(数据通信基础知识)

    计算机基础(数据通信基础知识) 通信协议是计算机之间交换信息所使用的一种公共语言的规范和约定,因特网的通信协议包含100多个相互关联的协议,由于TCP和IP是其中两个最核心的关键协议,故把因特网协议簇 ...

  9. 2.1.2 数据通信基础知识

    2.1.2 数据通信基础知识

最新文章

  1. linux下jdk简单配置记录
  2. IS-IS路由协议 总结
  3. 基于PHP的CURL快速入门
  4. Random Forest(sklearn参数详解)
  5. 【CSS进阶】box-shadow 与 filter:drop-shadow 详解及奇技淫巧
  6. linux 文档操作,Linux学习之文档操作
  7. erp开发模式_ERP的完整形式是什么?
  8. beetl 取list下标的问题
  9. 计算机内存比外存容量大吗,内存容量一般比外存容量大吗
  10. ActiveMQ简单介绍+简单实例
  11. ThinkPHP3.2.3从php5升级到php7艰辛之路
  12. 倒车检测线怎么接图解_倒车影像摄像头3根线安装图解 这是倒车影像的电源线...
  13. Python 源码混淆与加密
  14. 《App违法违规收集使用个人信息自评估指南》
  15. 为Linux的ibus添加五笔98输入法
  16. Google Dinosour 小恐龙
  17. torch.nn、(二)
  18. 视频去水印,图集去水印工具分享
  19. BIOS之Option ROM详解
  20. 服务器里面文档怎么改编码格式,linux 设置服务器编码格式

热门文章

  1. 微电台丨解密《长安十二时辰》之数据“黑科技”
  2. Vue 进阶系列丨权限控制 addRoute()
  3. 阿里云服务器ECS有哪些优势?与普通IDC对比有哪些优势?
  4. 排列组合问题模板(C/C++)(DFS)
  5. icepak计算不收敛原因
  6. python安装使用教程——逐步图解教程
  7. 徐州市RFID集装箱资产管理,RFID资产管理系统-苏州新导
  8. R plot图片背景设置为透明_R语言绘图:使用主题提高图片的美感
  9. UC/OS-II操作系统
  10. 主页(八)-顶部导航——NavBar 导航栏 Icon 图标