最新 最热

Hive数据的存储以及在centos7下进行Mysql的安装

表在创建时,有分隔符属性,这个分隔符属性,代表在执行MR程序时,使用哪个分隔符去分割每行中的字段! 查看表(实际在HDFS中也是一个文件)中的所有内容(包括分隔符):...

2020-10-10
0

Hive初体验

Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序...

2020-10-10
0

干货 | 性能提升400%,ClickHouse在携程酒店数仓的实践

随着时间推移和业务的快速发展,携程酒店数据累积越来越多。目前流量日数据在3T左右,再加上各种订单、价、量、态等数据更是庞大。现有Hive(Spark引擎)执行速度虽然相对较快,但在国际化发展背景下,一些海外业务由于时差问题,...

2020-10-09
0

大数据ETL实践探索 ---- 笔试面试考点

1、Spark的中间数据放到内存中,对于迭代运算效率更高 2、Spark比Hadoop更通用 3、Spark提供了统一的编程接口 4、容错性– 在分布式数据集计算时通过checkpoint来实现容错 5、可用性– Spark通过提供丰富的Scala, Java...

2020-10-09
1

大数据快速入门(02):选择大数据,我该往哪个方向发展

大数据的方向有很多的,即使没有真正经历过,平时也会耳濡目染,在各大杂志公众号新闻上听说过,什么大数据人工智能,大数据分析挖掘,大数据架构师等职位。...

2020-09-29
0

Flink SQL 写入 Hive表的性能问题

翻阅Flink的PR,十几天前,阿里Flink的开发同学已经注意到了这个问题,我们将之吸收到测试环境,编译替换lib下jar包,重新测试,性能确实up了,单并发升至5W每秒,上游节点才稍微有背压。 [FLINK-19121][hive] Avoid accessing HDFS ...

2020-09-28
1

基于Flink+Hive构建流批一体准实时数仓

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大。在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时数仓,将链路延时降低到秒级...

2020-09-28
1

Hive初步使用、安装MySQL 、Hive配置MetaStore、配置Hive日志《二》

将Mysql安装包上传到服务器上,然后解压压缩包,使用命令:unzip mysql-libs.zip

2020-09-28
0

Hive安装部署及简单测试 网页《一》

2.先使用hadoop-senior.zuoyan.com 上的 伪分布式Hadoop进行配置 Hive (将需要的文件上传到服务器上)

2020-09-28
1

大数据到底应该如何学?大数据生态圈技术组件解析

要说什么是大数据我想大家多少已经有所了解了,很多落地的案例已经深入到了我们的生活中。大数据具有数据量大、数据类型丰富复杂、数据增长速度快等特点,一切的数据分析必须建立在真实的数据集上才会有意义,而数据质量本...

2020-09-27
0