对于 CDP私有云基础,是否有关于客户应如何配置构成 SDX(Ranger、Atlas、Hive Metastore)的各种组件的参考架构或方法?
CDP私有云基础使用的基础集群不同于 CDP 公有云中 PaaS 风格的 SDX 集群。 从那里,私有云控制计划从控制体验服务的基础集群中的 CM 部署。
为什么我要匿名化数据?
数据匿名化可帮助组织通过加密或删除可能会泄露敏感信息的信息来保护数据隐私。 数据匿名化支持跨边界传输信息,例如组织内的两个部门之间或两个组织之间,同时降低意外泄露的风险。 根据共享数据的原因,匿名化可能以这样一种方式进行,即仍然保持分析洞察力(例如出生年份的分布、标识符格式的有效性)。
在个人方面,GDPR 或 CCPA 等数据隐私法规定,存储的个人数据必须匿名化或假名化(替换)。 在医疗数据的上下文中,匿名数据是指信息接收者无法再识别出患者的数据。
如何匿名化我的数据集?
动态掩码策略。
为什么我需要基于资源的访问控制?
Ranger 策略可以应用于特定资源 → 这些可以是数据库、表或列。 这些是最直接、最精细的访问控制粒度样式。
这些策略可以应用于组、角色或个人用户。
为什么我需要基于角色的访问控制?
基于角色的访问控制 (RBAC) 简化了为最终用户提供对资源(数据、应用程序、存储、计算)的访问,具体取决于他们在组织内履行的角色(功能)。 用户只能访问履行其工作职责所需的资源。
RBAC 将要维护的安全配置文件数量从每个员工一个减少到每个角色一个。 这反过来又减少了 IT 的管理负担,并最大限度地提高了组织的运营效率。 此外,借助 RBAC,公司可以更轻松地满足隐私和保密方面的法律法规要求,因为 IT 部门和高管能够管理数据的访问和使用方式。 这对于管理大量敏感信息的医疗保健和金融机构尤其重要。
如何设置基于角色的授权?
连接到企业的 LDAP 以同步用户、组和角色,然后通过Ranger进行基于角色的授权。
为什么我需要基于属性的授权?
使用 RBAC(见上文),用户可以或不能访问基于角色的资源;使用基于属性的访问控制,可以动态考虑属性组合。这些属性与提供或拒绝访问的用户、资源和环境有关。
ABAC(也称为基于标签的访问控制)支持细粒度访问控制,并允许在访问控制决策时考虑更多变量。任何可用的属性都可以单独使用或与另一个属性结合使用,以定义正确的过滤器来控制对资源的访问,从而赋予该方法极大的灵活性。 ABAC 更复杂,因为它还可以定义可以访问数据等资源的形式(原始形式、编辑、匿名等)。
ABAC 相对于 RBAC 的一个好处是它如何减少组织需要维护的视图数量。使用 RBAC,必须为每个数据组合创建和维护一个视图。使用 ABAC,单个视图将满足所有要求,因为它在查询之后和呈现之前应用。
在将分类/标签添加到 Atlas 之前,我可以在 Ranger 中设置我的标签策略吗?
是的. https://cwiki.apache.org/confluence/display/RANGER/Tag Based Policies
如果您在 Ranger 中没有看到标签,则您可能存在权限问题。
为什么我在 Atlas 中创建的所有标签都没有显示在 Ranger 中?
Ranger 不是标签存储库。 通过标签同步过程,Atlas 将告诉 Ranger 与特定数据资产相关联的标签。 Ranger 只知道这些标签。
为什么用户要从历史记录中完全清除/消除血缘?
客户可能有书面的数据销毁政策来删除超过特定日期的数据。 这样做是为了防止传票和使公司承担不必要的责任。 有些纯粹是为了降低存储成本。 (例如:布依格电信、美世)
客户可以使用 Atlas API 为他们的外部自定义代码创建一个血缘吗?
是的。 我们不一定支持 hook/bridge/coonectors,但它是 atlas api 的一部分。
Ranger政策或Ranger-atlas标签同步的扩展限制是什么?
我们在 Atlas/Ranger 中没有遇到过这些情况。Ranger 在策略规则中支持正则表达式,可以将许多规则合并为少数规则。
我们所知道的最大规模的 Atlas 是什么,它的规模是多少?
我们知道一个集群有 1.1 亿个实体。 我们有许多客户部署,有 10 万多个表和几百万列。
HDP3 的 Atlas 和 CDP 的 Atlas 之间的 API/客户端兼容性规则是什么?
标准规则。 旧的 Atlas 客户端可以与新的 Atlas 服务器通信。 较新的 Atlas 客户端可以与较旧的 Atlas 服务器通信,除了添加到较新版本中的新引入的 api。
业务术语导入:我们是否有示例文件显示如何填写“相关术语”?
导入业务术语时,您不能在同一输入文件中交叉引用术语。 您只能引用已存在于 Atlas 词汇表中的术语。 因此,要实现您想要做的事情,您必须分两步导入内容:首先导入一批基本的词汇表和术语。 然后导入任何引用现有项目的术语。
我的客户希望 atlas 监控非 Hadoop 应用程序。最好的方法是什么?
1. 实现你自己的Hook
2. 使用rest api来创建对象
Cloudera 为 Atlas 提供支持。客户可以使用功能并围绕它构建逻辑。客户应该知道 Cloudera 不支持他们围绕 Atlas 构建的一些东西。具体来说:
- 支持本地导入Hive 数据。
- 支持通过api 导入非Hive 数据。不支持为使用 API 而开发的代码。
- 支持创建自定义实体类型。不支持围绕这些自定义实体类型的语义和管理这些语义的代码。
- 注意:Cloudera 不支持插件本身。
https://community.cloudera.com/t5/Community-Articles/Customizing-Atlas-Part3-Lineage-beyond-Hadoop-including/ta-p/249318
设置 Atlas 灾难恢复的正确方法是什么?
目前唯一支持的机制是使用 Cloudera Replication Manager。 这种方法需要复制数据和元数据——你不能只复制元数据。
Atlas 是否具有高可用性 (HA)?
Atlas 的主要服务和 api 是一种无状态服务,在支持 HA 和自动恢复的系统中具有后备存储:HBase、Kafka 和 Solr。 它可以配置为具有自动重定向的主动-被动 HA 支持。
CDP 7.1 的数据湖集群目前仅在“轻型”模型中可用,该模型没有以 HA 方式启用底层系统。
Atlas 有 REST API 吗?
是的。 https://atlas.apache.org/api/v2/index.html 。 CDP 版本可能有一些新的 API,可能会出现在 CDP 版本(和 Apache 主版本)中,但尚未反映在 Apache 文档链接中。
在没有启用 kerberos 的情况下,CDP 集群是否支持 Ranger?
否。 [2020-10-13] 没有强身份验证 (Kerberos) 的审计和授权无法提供真正的安全性。 审计和访问检查可以使用欺骗身份并绕过 Ranger 的身份验证机制。
我知道审计日志是并行写入 Solr 和 HDFS 的,而 HDFS 用于长时间存储。如果 Solr 崩溃并且没有运行几个小时或几天会发生什么?稍后可以从 HDFS 索引丢失的数据以使其在 Solr 中可用吗?
每个组件都在本地假脱机审核日志,然后直到目标接收器再次启动。 仅受可用磁盘空间的限制。
Ranger 策略可以应用于 SMM 管理的 Kafka 主题吗?
Kafka、SMM(以及最近的 Schema Registry)与 Ranger 集成。 SMM 利用为 Kafka 设置的 Ranger 策略(用户可以使用为 Kafka 设置的 READ/DESCRIBE 策略为同一用户观察主题)。
Ranger 用户同步测试过的最旧版本的 Active Directory 是什么?
AD 2008
Ranger 可以使用 MySQL 作为后端吗?
是,适用于 CDP私有云基础部署。
Ranger的架构性能瓶颈在哪里?
Ranger 插件经过优化,可以快速响应,无需外部 rpc 即可做出决策。从创建策略到传播和启用策略之间存在一些延迟(约 30 秒)。这是可以的,因为政策不打算频繁更改。因此,资源规则、标签和沿袭用于基于标签的访问控制存储在内存中以优化速度。用于评估策略条件的 Javascript 执行可以以微秒为单位进行测量。这些由标签同步操作定期更新。
什么样的 solr 被用作 Ranger 审计后端?
On Prem:默认情况下,CM 为范围审计后端部署一个单节点 solr 实例。 这可以配置为在集群中使用多节点分布式 solr。
哪些组件支持 Ranger 列掩码?
Hive 和Impala支持并且已经在CDP 中支持列掩码功能。
Ranger有哪些角色?
管理员、用户和审计员
用户 - 可以被委派为 db/table、dir 或安全区域的管理员。
审计员 - 查看审计日志
管理员 - 创建区域,导入/导出 审计员 用户