大家好,我叫郭畅,安徽大学毕业,目前就职于徽商银行总行大数据部,刚工作一年多,主要参与两项跨部门项目建设,项目中主要负责模型开发,数据分析,模型运营优化等工作。...
Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎
今天咱来聊一聊 Ambari 如何集成 Apache Hadoop 哈,自从 cloudera 公司将 hortonworks 公司收购后,hdp 就不迭代更新了,这对 Apache Ambari 也产生了很大影响,毕竟 Ambari 与 hdp 耦合性很强。...
对于从事大数据相关工作的朋友来说,在平时应该会跟 yarn 打过不少交道。像 MapReduce on yarn,Spark on yarn,Flink on yarn 等都是需要将应用运行在 yarn 上面的。但是对于应用运行日志的查看,yarn 却不像寻常服务那样方...
Same with linear algebra, calculus is also closely related to programming.
Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的...
昨天有一篇《智能运维行业乱象:估值虚高、上市受阻、裁员频现》网文在运维圈十分火爆,有一些观点十分吸引人。今天,不对文章观点做评价,摘一小段《数智万物下运维》系列下我对金融企业智能运维的理解。...
元数据是存储系统的核心大脑,元数据性能对整个大数据平台的性能和扩展能力至关重要。尤其在处理海量文件的时候。在平台任务创建、运行和结束提交阶段,会存在大量的元数据 create,open,rename 和 delete 操作。因此,在进行...
1.基于尚硅谷做的笔记 2.也参考了几篇我觉得写得比较好的博客,参考链接在文中 3.此外,我也将我在操作过程中遇到的问题以及解决方案都记录了下来