最新 最热

DDIA:数仓和大数据的双向奔赴

在 MapReduce 流行这些年之后,针对大数据集的分布式批处理执行引擎已经逐渐成熟。到现在(2017年)已经有比较成熟的基础设施可以在上千台机器上处理 PB 量级的数据。因此,针对这个量级的基本数据处理问题可以认为已经被解...

2024-01-23
0

专访李潇:数据智能平台,AI 时代的 Lakehouse 架构

在过去十年里,随着公有云的崛起、数据激增和人工智能的兴起等浪潮席卷,整个数据架构经历了巨大的变革和更新。这些激变使得数据架构发生了天翻地覆的变化。作为一家领先的大数据处理平台提供商,Databricks 一直扮演着引...

2024-01-23
1

Flink 十周年专访莫问:存算分离 2.0 架构的探索与展望

Flink 从 2014 年诞生之后,已经发展了将近 10 年,尤其是最近这些年得到了飞速发展。在全球范围内,Flink 已经成为了实时流计算的事实标准,成为大数据技术栈中不可或缺的一部分。在 2023 年终盘点之际,InfoQ 有幸采访了 Apa...

2024-01-23
1

玩转企业云计算平台系列(十七):Openstack 大数据项目 Sahara

2013年4月,OpenStack社区知名厂商Mirantis正式宣布了基于OpenStack的开源BDaaS(BigData-as-a-Service)项目——Sahara(原名Savanna),正式开始了在OpenStack上构建大数据服务能力的努力。...

2024-01-18
1

挑战 Spark 和 Flink?大数据技术栈的突围和战争|盘点

十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或缺的基础设施。然而,在这个时刻,我们不禁要问...

2024-01-17
1

一小时掌握:使用ScrapySharp和C#打造新闻下载器

爬虫技术是指通过编程的方式,自动从互联网上获取和处理数据的技术。爬虫技术有很多应用场景,比如搜索引擎、数据分析、舆情监测、电商比价等。爬虫技术也是一门有趣的技术,可以让你发现网络上的各种有价值的信息。...

2024-01-11
1

U位资产管理在数据中心IT资产管理中的应用

随着数字经济成为社会经济中心的一环,数据已经变成了事实上的社会组成元素。对于不少中型与大型企业和单位来说,业务的发展推动着数据中心规模越来越大,这无形间给IT运维人员增加了额外的工作量。对没有及时完成转型的企...

2024-01-11
1

Shell遍历HDFS路径统计层级目录大小

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2024-01-10
1

大数据学习笔记0:大数据基本框架

Iaas、K8S、Omega都属于这一层。 计算引擎层 计算引擎层是大数据技术中最活跃的一层,直到今天,仍不断有新的计算引擎被提出。 总体上讲,可按照对时间性能的要求,将计算引擎分为三类: ❑ 批处理:该类计算引擎对时间要求最低...

2024-01-09
0

大数据学习笔记2:现代数据湖之Iceberg

一些具体的对比可以看这张图: 5. Iceberg 我们先看看Iceberg的官网是如何介绍它的: Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Trino and Spar......

2024-01-09
1