导读:在《推荐算法概述》一文中,我们介绍了推荐算法分为基于用户、基于物品、基于模型的协同过滤方法,矩阵分解模型是典型的基于模型的方法之一,本文将从基本概念、原理、实践几个角度进行介绍。...
腾讯星火计划2021 暨科技少年挑战周启动招募 五大战场 真剑胜负 也许 在学科竞赛的“战场”上 你敲出的代码拿下了一座座“城池” 在科技项目的“战场”上 你de的bug抵抗住了一次次“进攻”...
如果运行在 YARN 模式,可以在 ResourceManager 节点的 WEB UI 页面根据 任务状态、用户名 或者 applicationId Search 到应用。
项目中用的是Spark Structrued Streaming ,也就是Spark 2.0的新版Streaming,看官方文档也说过性能及实时性会比之前的Dstreaming好点,但是相关的资料相比Dstreaming实在是少很多,现在调优阶段很多都要参考Dstreaming的文...
本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。
这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)
Spark SQL 的 Catalyst ,这部分真的很有意思,值得去仔细研究一番,今天先来说说Spark的一些扩展机制吧,上一次写Spark,对其SQL的解析进行了一定的魔改,今天我们按套路来,使用砖厂为我们提供的机制,来扩展Spark......
在进行RDD操作的时候,我们需要在接下来多个行动中重用同一个RDD,这个时候我们就可以将RDD缓存起来,可以很大程度的节省计算和程序运行时间。
原因: 因为在之前的项目中,在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩,这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-submit任务时,需要访问HDFS上的文件,而spark自身没有...
这是我的上篇博文,当时仅是做了一个实现案例(demo级别 ),没想到居然让我押中了题,还让我稳稳的及格了(这次测试试卷难度极大,考60分都能在班上排进前10) 不过我在复盘的时候,发现自己的致命弱点:写sql的能力太菜了。。...