最新 最热

基于大数据框架的协同过滤算法餐饮推荐系统【Update2023-11-05】

首先这位作者的推荐系统给了我很大的构思启发。 Github地址:https://github.com/share23/Food_Recommender 他的系统采用实时大数据技术组件,具体有Spark Streaming,HDFS分布式存储,Hbase存储计算,消息队列采用Kafka,Flume,...

2024-07-25
5

Linux大数据Hadoop生态组件常用命令速查手册

因为spark的群起命令会和hdfs的命令冲突,所以spark执行命令时使用绝对路径。

2024-07-25
3

使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

这段代码使用Faker库生成模拟的个人信息数据,每个CSV文件包含一定数量的行数据,数据字段包括 Rowkey, Name, Age, Email, Address, IDNumber, PhoneNumber, Nationality, Region, SourceCode。...

2024-07-25
6

Apache Doris 2.1.5 版本正式发布

亲爱的社区小伙伴们,Apache Doris 2.1.5 版本已于 2024 年 7 月 24 日正式发布。2.1.5 版本在湖仓一体、多表物化视图、半结构化数据分析等方面进行了全面更新及改进,同时在倒排索引、查询优化器、查询引擎、存储管理等...

2024-07-25
8

美团大数据面试SQL-计算用户首单是即时单的比例

在外卖订单中,有时用户会指定订单的配送时间。现定义:如果用户下单日期与期望配送日期相同则认为是即时单,如果用户下单日期与期望配送时间不同则是预约单。每个用户下单时间最早的一单为用户首单,请计算用户首单中即时单...

2024-07-25
3

腾讯云大数据 TBDS 参编信通院《数据库发展研究报告》,引领数据湖仓创新

会上,中国通信标准化协会大数据技术标准推进委员会发布了《数据库发展研究报告(2024年)》,深入分析和展望了我国数据库产业及技术发展与行业应用情况。...

2024-07-22
5

【数智化CIO展】鲁泰建材CIO张兵:全力投入,发现需求,是数智化转型的第一步

本文由鲁泰建材CIO张兵投递并参与由数据猿联合上海大数据联盟共同推出的《2024中国数智化转型升级优秀CIO》榜单/奖项评选。丨推荐企业:数睿数据

2024-07-16
1

etl 常用数据类型转换 元数据配置说明

在实施etl过程中,经常会遇到不同类型之间的转换,方式有很多种,下面是项目中使用etl-engine进行数据类型转换的收集整理,方便日后工作中查阅。

2024-07-16
7

慕mooc-大数据工程师2024学习分享

Apache Spark 是一个开源的统一分析引擎,用于大规模数据处理。它提供了一个简单且富有表现力的编程模型,支持多种语言,包括 Java、Scala、Python 和 R。Spark 的速度比 Hadoop MapReduce 快 100 倍,因为它在内存中执行计...

2024-07-15
1

Gartner报告:腾讯云大数据助力企业实现 AI 原生应用落地

其中腾讯云 ES RAG 方案的数据向量化能力和腾讯云 ChatBI 对话式数据分析技术是 AI 原生云建设从模型到应用过程中关键的数据提效工程工具,帮助企业实现数据的高效利用。...

2024-07-15
1