大数据架构、高性能、数据治理面试题及答案

2022-12-29 20:17:23 浏览数 (2)


A. 大数据的高级处理技术(占比5%)

单选题:

1. 以下__不属于大数据的关键技术

A. 数据技术

B. 大数据安全技术和大数据质量技术

C. 虚拟化技术和云计算平台技术

D. 海量数据的存储技术

答案:C

公众号@五分钟学大数据

2. Spark比Hadoop的MR计算高效,主要原因不包含下面__

A. Spark 支持DAG

B. Spark中间数据不存储磁盘,进行缓存处理。

C. Spark采用MPP架构,并发处理

D. 高度抽象API

答案:C

公众号@五分钟学大数据

3. 下面对流式计算理解错误的是___

A . 流式计算满足高效实时的场景

B. 实时计算是更快的批量计算,更快的交付数据

C. 流式计算需要先提交流式计算作业、等待数据流触发操作

D. 流式计算连续计算,计算完数据丢弃

答案:B

公众号@五分钟学大数据

4. Bloom Filter(BF)是一种空间效率很高的随机数据结构,下面描述错误的是__

A. 它是一个判断元素是否存在集合的概率算法

B. 判断如果不在集合肯定不在,如果在集合有一定的概率判错

C. 它支持从集合中删除一个元素

D. Hash函数的选择会影响到算法的效果

答案:C

公众号@五分钟学大数据

多选题:

5. 问:大数据引擎的性能优化手段,包含下面____

A. 计算引擎的任务调度时,尽量本地化计算,减少数据网络输出。

B. 数据以流的方式在不同stage传输,减少物化到磁盘。

C. 采取数据列式存储,包括轻量级压缩数据、延迟解压、向量化引擎技术。

D. MPP架构采取细粒度容错,解决落后节点影响整个查询性能。

答案:ABC

本文章来自公众号@五分钟学大数据

B. 大数据架构设计方法论概述(占比3%)

单选题:

6. 分布式系统的ID生成系统,不包含的是__

A. 生成的ID必须考虑主机的差异性

B. ID必须全局唯一性,不会出现重复

C. ID是没有规律的,处于信息安全考虑

D. 高QPS,性能强劲,低延迟交付

答案:A

本文章来自公众号@五分钟学大数据

7. CAP理论理解错误的是___

A. CAP的背景是同一份数据多个副本场景

B. 大数据场景下对A/P要求较高,对C反而要求较低

C. AP既适用于NoSQL数据库,也适用于关系型数据库

D. 关系型数据库是为了保证P、A而牺牲C

答案:D

本文章来自公众号@五分钟学大数据

多选题:

8. 用户行为数据处理的注意点有___

A. 埋点数据一定要符合业务数据信息流才能保证数据处理的完整性和确保数据的可用性

B. 行为数据要与其他数据源做一致性关联,确保数据的一致性和关联性

C. 行为数据的元数据尽可能从源头字段化保存到数据文件中

D. 埋点数据可以是可视化埋点和非可视化埋点

答案:ABCD

本文章来自公众号@五分钟学大数据

C. 大数据之常见场景下的架构设计(占比5%)

单选题:

9. RBAC权限模型的架构描述错误的是___

A. 用于将需要做权限验证的定义为角色

B. 大数据引擎Hive权限模型依赖RBAC

C. 角色之间可以有继承关系

D. RBAC基于责任分离原则和数据抽象原则

答案:B

公众号@五分钟学大数据

10. 大数据监控平台不包括的是___

A. 服务的SLA的体系监控

B. 线上功能的状态监控

C. 服务调用链跟踪和问题发掘

D. 提供基础的高性能RPC服务

答案:D

公众号@五分钟学大数据

11. 高吞吐架构的三要素不包含下面哪个__

A. 消息中间件

B. 服务高可用

C. 配置管理

D. 服务组件化

答案:B

公众号@五分钟学大数据

12. 不属于服务伸缩性的架构的是___

A. 服务可以通过服务器加入进来,应对不断上升的并发访问压力

B. 集群服务器不能存储数据,之间是对等的架构

C. 不同的产品业务之间的耦合度很小,一个产品或业务的改动不会对其他造成影响

D. 上游可使用合适的负载均衡设备发现新服务或者退出的服务

答案:C

公众号@五分钟学大数据

多选题:

13. 处理大数据常用的排序有:

A.快速排序

B.堆排序

C.归并排序

D.桶排序

答案:ABCD

公众号@五分钟学大数据

D. 大数据存储及并行处理(占比2%)

单选题:

14. 下面不属于大数据存储和计算一体数据库管理系统的是?

A. ClickHouse

B. PrestoDB

C. Hive

D. InfluxDB

答案:C

公众号@五分钟学大数据

15. NewSQL数据库的特征不包含?

A. 数据自动sharding,解决扩展性问题,对用户透明

B. 数据分区容灾,故障自动切换

C. 分布式事务支持

D. NewSQL受制于Local容量磁盘,需要考虑扩容问题

答案:D

本文章来自公众号@五分钟学大数据

E. 大数据资源及安全管理(占比2%)

16. Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,下面说法正确的是:

A. Yarn清楚用户提交程序的运行机制

B. Yarn的架构设计是Master和StandBy的方式

C. Spark、Storm等运算框架都可以整合在Yarn上面运行

D. Yarn与运行的应用程序不完全耦合,应用程序需要按照规范接入。

答案:C

本文章来自公众号@五分钟学大数据

17. 不属于数据隐私脱敏范畴的是?

A. 要么全部执行,要么全部不执行。

B. 脱敏通过对数据隐藏地址具体门牌号

C. 用户手机号映射成唯一Hash值

D. 数据脱敏是需要改变数据,而数据加密不修改原始数据

答案:A

公众号@五分钟学大数据

F. 大数据处理性能调优、集群优化、实时计算等(占比3%)

18. 大数据分布式事务处理采取的方式不包括下面的___

A. Raft

B. Paxos

C. MVCC

D. JDBC

答案:D

公众号@五分钟学大数据

19. 集群调优不包含下面___

A. 合理的设置作业在Stage阶段的并行度

B. 减少预申请资源和存储的预读功能

C. 防止数据倾斜

D. 减少shuffle算子的大量使用

答案:B

公众号@五分钟学大数据

多选题:

20. 实时的流式计算特征包含:

A.无边界,数据源头不间断有数据提供

B.延迟性能小

C.触发的机制包括数据流触发和定时任务调度

D.离线大数据修正,优先考虑实时计算

答案:ABC

公众号@五分钟学大数据

G. 数据治理概述、大数据类型(占比2%)

21. 下面不属于大数据治理范畴的是_

A. 数据管理体系建设好,能够快速识别数据

B. 提供监控和快速发现问题的体系

C. 业务性能高吞吐和高可用的架构设计

D. 数据应用体系,可以共享和高效实用数据

答案:C

公众号@五分钟学大数据

22. 时序数据库特征不包括:__

A. 底层存储LSM Tree性能优于BTree

B. 强调随机读功能

C. 时序数据库采取分片方式有哈希分片、一致性哈希、范围划分

D. 可以选择的支持列设置为tag属性

答案:B

公众号@五分钟学大数据

H. 元数据管理、数据标准(占比3%)

单选题:

23. 关于元数据的描述错误的是:

A. 元数据可以直接提升数据查询性能

B. 元数据是大数据治理的核心

C. 元数据支持企业级别的数据资产管理

D. 元数据能够协助了解企业数据情况,针对数据问题可以快速定位

答案:A

公众号@五分钟学大数据

24. 数据质量的管理不包含的是___

A. 数据的完整性

B. 数据交付准确性

C. 数据命名规范性

D. 数据计算的性能优化

答案:D

公众号@五分钟学大数据

多选题:

25. 大数据治理标准涵盖的方面包括

A. 大数据管理

B. 大数据存储

C. 大数据质量

D. 数据的共享与开放

答案:ABCD

公众号@五分钟学大数据

I. 大数据隐私、安全、立法知识(占比3%)

单选题:

26. 1.大数据的隐私不包含下面的__

A. 业务数据的信息

B. 用户访问的IP信息

C.数据存储采取列存储,按需交付数据

D.用户的行为浏览记录,停留和提交动作

答案:C

公众号@五分钟学大数据

27. 不属于大数据安全面临的技术问题和挑战的是__

A. 大数据平台安全问题和挑战

B. 大数据平台服务用户众多、场景多样、传统安全机制性能难以满足

C. 大数据平台的大规模分布式存储和计算模式导致安全配置难度城北增长

D. 数据在离线计算面临周期长,回溯成本高

答案:D

公众号@五分钟学大数据

多选题:

28. 欧盟《通用数据保护法案》覆盖的内容有:

A. 数据的彻底遗忘全

B. 默认隐私保护

C. 并就数据许可

D. 个人数据引入假名数据

答案:ABCD

公众号@五分钟学大数据

J. 数据质量管理(占比3%)

单选题:

29. 数据质量校验的方式错误的是

A. 加大内存在shuffle的容量,加快计算

B. 根据数据整体批次比对,查看数据有无遗漏

C. 根据数据的某些进行聚合,查看整体数据有无偏差

D. 抽样明细数据比对完整列能否对其

答案:A

公众号@五分钟学大数据

30. 下面不可以纳入到服务质量体系的是?

A. 大数据引擎查询的响应时间

B. 数据中脏数据的抽样比例

C. 元数据从顶层进行设计

D. 数据存储的可用性

答案:C

公众号@五分钟学大数据

多选题:

31. 能够支撑数据质量的有:

A. 数据ETL工具统一

B. 数据的冗余性要求数据具备一致性

C. 在实践中提炼数据需求,数据使用有目标性

D. 提供规范、流程的系统,便于统一、协作

答案:ABCD

公众号@五分钟学大数据

K. 数据生命周期管理(占比2%)

32. 大数据热度的应用不包含

A. 热点数据进行差异化存储,提高效率

B. 热点数据可以有针对性的做缓存机制,提高吞吐

C. 热数据便于数据质量的管理

D. 热数据便于分析用户的分析行为

答案:C

公众号@五分钟学大数据

33. 过期数据的服务动作不包含:

A. 历史数据归档、打包

B. 无人关注的报表数据可以停止计算

C. 数据没有访问的分区可以考虑删除

D. 过期数据作为数据资产长期保存

答案:D

公众号@五分钟学大数据

L. 数据服务(占比2%)

34. 提供数据查询adhoc网关,不涉及到的的内容有:

A. 数据质量的交付校验

B. 权限验证

C. 记录历史查询和交付,便于审计

D. 提供引擎查询的自动路由,选择最佳的引擎执行

答案:A

公众号@五分钟学大数据

35. 数据团队对外交付数据,不包含的内容包括:

A. 元数据含义

B. 大数据性能调优参数

C. 数据的生成计算逻辑

D. 数据的产生的周期

答案:B

公众号@五分钟学大数据

0 人点赞