最新 最热

【赵渝强老师】大数据生态圈中的组件

大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件,以...

2024-09-04
6

【赵渝强老师】大数据技术的理论基础

大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此Google将其核心技术的思想以论文的形式公开发表出来,这...

2024-09-03
5

招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%

在竞争激烈的消费金融市场中,有效利用海量数据、提升业务运营效率是赢得市场的关键。早期招联采用典型的 Lambda 架构提供业务报表、数据运营、个性推荐、风险控制等数据服务,而 Lambda 过多的技术栈也引发了数据孤岛、...

2024-08-29
4

聊聊测试数据的生成方法

这个问题相对来说比较复杂,复杂的主要因素有高并发、线上环境、大数据量以及效率和成本的问题。借着回答这个问题的机会,顺带聊聊生成测试数据的几种方法。...

2024-08-29
2

《未来二十年,AI、区块链、云与大数据技术引领全球变革》

在未来二十年,全球社会与经济将深刻受到人工智能(AI)、区块链(Blockchain)、云计算(Cloud)和大数据(Data)四大核心技术的驱动。这些技术不仅从宏观上重塑产业结构,更在微观层面显著提升生活品质与效率。本文通过详尽的案例分析,...

2024-08-29
3

常见大数据面试SQL-近30天连续登陆3天以上次数-非开窗

有用户登录记录,已经按照日期去重。求近三十天,用户连续登录超过3天的次数,一直连续登录算一次,有间隔然后重新计算次数, 要求不能用开窗

2024-08-27
2

Forrester最新报告:腾讯云大数据轻联iPaaS连续三年获得满分

Forrester Wave™ 主题报告是全球范围内最具影响力和市场认可度的分析师报告之一。其中,《 Forrester Wave™ : 中国公有云平台厂商评测》更是评估国内公有云厂商综合能力的权威报告。该报告汇聚了中国市场的主要公有...

2024-08-26
1

腾讯云WeData Notebook探索:从大数据迈向数据科学

大数据分析和数据探索在现代决策制定中扮演着至关重要的角色,通过深入的数据分析和挖掘,可以从海量的数据中揭示出潜在的趋势、模式和关联,帮助企业更直观地理解数据背后的故事,从而做出更加明智的决策,提升业务运营的效率...

2024-08-26
2

AI大模型独角兽 MiniMax 基于 Apache Doris 升级日志系统,PB 数据秒级查询响应

MiniMax 是领先的通用人工智能科技公司,自主研发了不同模态的通用大模型,其中包括拥有万亿参数的 MoE 文本大模型、语音大模型以及图像大模型。MiniMax 以“与用户共创智能”为愿景,通过对大模型持续迭代,MiniMax 在国内...

2024-08-23
4

【赵渝强老师】Spark中的RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,它是Spark中最基本、也是最重要的的数据模型。它由分区组成,每个分区被一个Spark的Worker从节点处理,从而支持分布式的并行计算。RDD通过检查点Checkpoint的方式...

2024-08-21
2