最新 最热

360 数科实践:JanusGraph 到 NebulaGraph 迁移

摘要:在本文中 360 数科的周鹏详细讲解了业务从 JanusGraph 迁移到 Nebula Graph 带来的性能提升,在机器资源不到之前 JanusGraph 配置三分之一的情况下,业务性能提升至少 20 倍。...

2020-09-09
1

Spark SQL快速入门系列之Hive

hive on spark(版本兼容)官网https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

2020-09-08
1

Apache Hudi 架构设计和基本概念

Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi具有如下基本特性/能力:

2020-09-08
0

基于Spark的大规模推荐系统特征工程

导读:特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商,面向大规模特征工程问题开发了下一代离线在线...

2020-09-08
1

PySpark SQL——SQL和pd.DataFrame的结合体

昨日推文PySpark环境搭建和简介,今天开始介绍PySpark中的第一个重要组件SQL/DataFrame,实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体,功能也几乎恰是这样,所以如果具有良好的SQL基本功和熟练的pan...

2020-09-08
0

PySpark——开启大数据分析师之路

近日由于工作需要,突击学了一下PySpark的简单应用。现分享其安装搭建过程和简单功能介绍。

2020-09-08
0

基于Spark的大规模推荐系统特征工程

导读:特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商,面向大规模特征工程问题开发了下一代离线在线...

2020-09-07
1

[记录点滴] Spark迁移到Flink的几个点

这个用 text.keyBy(0).timeWindow(start, end).reduce来完成

2020-09-07
1

Tiny85哒哒哒

今天在盒子里面看见一个小玩意,一看是个开发板.好像是3块钱买的.一直也没有用过,看看怎么玩.看了半天主控发现是atmel家的玩意儿.

2020-09-03
0

CDP私有云基础版概述

Cloudera数据平台(CDP)私有云基础版是Cloudera数据平台的本地版本。该新产品结合了Cloudera Enterprise Data Hub和Hortonworks Data Platform Enterprise的优点以及整个堆栈中的新功能和增强功能。该统一分发是可扩展...

2020-09-03
1