美图互联网技术沙龙:大数据架构与数据技术应用实践

2019-04-19 15:59:36 浏览数 (1)

美图互联网技术沙龙

移动互联时代大浪淘沙,「数据」亦主沉浮。各家公司在追逐产品不断完善的同时,也都在累积各自的用户数据反哺产品。而随着数据的不断累积庞大也容易带来一些难以用老旧方法解决的问题,这些问题驱使着企业的大数据体系迭代演进,也再次把「大数据技术」推向高潮。

/? 企业在沉淀大数据技术过程中都存在着哪些可以避免的问题

/?企业使用开源技术过程中会出现哪些排异反应,又该怎么治愈

/? 如何通过大数据技术可以更深度地探索用户

/? 美图公司目前的大数据平台处于什么样的阶段

带着这些问题,本期沙龙邀请了美图公司大数据技术总监卢荣斌、美图公司资深大数据架构师杨亚强、Apache Kylin 项目 PMC 李栋、魅族公司高级架构师黄振贤为大家现场解答。

卢荣斌,美图公司大数据技术总监,毕业于厦门大学,14年加入美图,主导美图大数据平台架构设计与开发工作,负责美图大数据平台架构建设,经历过美图大数据平台从无到有的搭建与架构演进,长期关注大数据相关技术体系,积累了多年大数据架构与实践经验。

卢荣斌站在美图公司的角度首先介绍了业务背景,在十年发展过程中美图繁衍出了十几款亿级用户量产品,而这些产品所带来的大数据业务需求多且广。

5 千万 的日活用户、百亿级的日新增数据以及 PB 级的数据量随之带来的是不断膨胀的数据统计需求和数据形式,这些业务需求与搭建平台的进度拉扯难以平衡。而搭建平台的过程中也会遇到不稳定、恢复能力弱等问题。迎着这些「坑」美图逐渐完善出大数据平台。

接着卢荣斌从数据的收集数据的开放完整地介绍了美图大数据平台搭建过程。

在数据质量把控上美图引进了唯一设备标示 GID,而数据收集上来后通过「collector --> kafka --> Hadoop & 实时流」的典型 lambda 架构进行存储落地,接着通过 mapper 将集群里的数据加载至 Hadoop,在 Lambda 架构通过 DataBus 完成实时处理。在搭建完基础平台之后通过数据工坊开放大数据技术,基于数据工坊之上构建了更为垂直的数据应用系统:美图用户画像平台-梵高、美图数据说、渠道追踪平台等。

数据开放也意味着平台稳定性带来挑战,卢荣斌深入介绍了美图通过 Hive SQL解析校验保证平台稳定性的同时,从集群和权限两种策略提升平台的稳定性。

卢荣斌对还在搭建数据平台路上的公司提出了以下建议:重视数据质量,规范数据源;尽早建设数据平台;注意强化平台稳定性与故障恢复能力。最后他介绍了美图之后的大数据重心将落在以下几点:

  • 通过完善 olap 能力构建数据分析与决策平台;
  • 进一步完成大数据平台的智能化及提升平台的稳定性;
  • 资源优化、隔离与计算,以及任务计算资源的动态伸缩。

黄振贤 , 魅族公司高级架构师。多年互联网和大数据经验,2016年加入魅族大数据团队,负责大数据应用的架构、核心设计和落地实现。

黄振贤在现场介绍了魅族公司的用户洞察平台。

现在几乎所有企业都会涉及到精准营销、流量变现、精准运营等业务需求,魅族也不例外。而「精准」二字的背后值得一体的就是用户标签体系。为了更好地洞察用户魅族的平台经历了四个阶段的迭代:

  • 用户画像平台:200 维度、人群筛选、导出
  • 用户洞察平台:600 维度、人群管理、人群洞察、标签查询
  • 用户洞察平台:1000 维度、丰富产品功能、对接 push 平台、对接 OTA 平台、分组推送
  • 精准营销:融合 DSP 投放、融合推送功能、与第三方平台的数据交互

魅族用户洞察平台的标签按照实效性分为离线标签和实时标签;按照计算手段分成统计类和算法类;按照标签值类型分为单值和多值两类。黄振贤分别介绍了这些标签的生成过程。在标签生成之后自然需要存储,在魅族用户洞察平台上,人群筛选与人群洞察分析等需要做到实时快速处理的查询使用 ElasticSearch,一般业务如用户画像查询则使用 HBase,对于性能要求苛刻的画像查询则使用 Redis。

到了分享尾声,黄振贤为大家展示了该平台人群管理、人群筛选、画像洞察、受众分发、画像查询等功能的实现功能。

杨亚强,美图公司资深大数据架构师,2016 年作为数据架构师加入美图数据平台部。具有多年的数据架构经验,长期负责各类系统的架构和研发工作,也作为主程参与过多个大型系统的研发。对于分布式系统、大规模数据处理等大数据组件有着丰富的研发和优化经验。目前在美图的大数据与 AI 部门负责数据架构设计与核心模块代码的编写,主导数据基础设施的构建和优化。

杨亚强就「美图分布式 Bitmap 实践」为主题分享了美图在分布式部署上的实践。

他从 Bitmap 以比特位标识状态开始,介绍了 Bitmap 为何占用存储空间小;并且通过简单的 demo 与 Hive 对比展现了 Bitmap 的超高性能。目前美图已经将 Bitmap 技术应用到十几款旗下 app 中,带着百 T 级 Bitmap 索引分布式的多维度交叉计算大并发下的快速响应序列化及反序列化性能这四个挑战介绍了美图通用分布式 Bitmap 解决方案—Naix。

Naix 是美图自主研发的通用分布式 Bitmap 服务,它的系统主要分为三层:外部调用层、系统核心节点层、依赖的外部存储层。Naix 有三个主要的数据结构:index group、index及数据信息字典管理,index group 是最基本的数据结构,每个 index group 内含有多个 index,而数据信息字典管理是为了方便数据的管理使用产生的。

接着杨亚强从 Naix 的 genertor、存储方式、query 等模块完整地介绍了 Naxi 的平台架构及功能,并展现了其可以实现毫秒级的设备及用户定位、多维度组合分析、多维度局部组合交叉分析以及秒级的多维度全交叉分析。

杨亚强表示,目前美图正在使用 Bitmap 技术拓展丰富的运维工具、增强计算优化以及 sql query 等方面。

李栋,Kyligence 技术合伙人兼高级架构师,Apache Kylin 核心开发者和项目管理委员会成员(PMC),专注于大数据技术研发和 Kylin 生态拓展。毕业于上海交通大学计算机系;曾任 eBay 全球分析基础架构部高级工程师、微软云计算和企业产品部软件开发工程师。

李栋作为 Apache Kylin 项目 PMC 介绍到它提供支持超大规模数据的多维分析(OLAP)的能力,除此之外 Apache Kylin 还提供 ANSI SQL 标准查询接口、支持 BI 分析工具集成等。

作为领先的开源的分布式分析引擎,Apache Kylin 的用户更是收揽了全球各行业头部企业,如互联网领域的 ebay、百度、今日头条、京东等;金融行业的招商银行、太平洋保险、中国银联、华泰证券等;电信行业的中国移动、中国联通、中国电信、AT&T等;制造行业的上汽集团、华为等...

而 Apache Kylin 吸引了如此多行业巨头的理由有高性能、高并发、加速大数据 OLAP 分析、支持查询下压等等,通过「今日头条的万亿级日志分析平台」、「雅虎日本的跨数据中心报表体系」、「Strikingly 的网络流量分析」三个案例更是形象展示了 Apache Kylin 所带来的改变。

最后李栋介绍了 Apache 孵化的可视化开源社区项目 Apache SuperSet,该产品与 Apache Kylin 无缝集成,轻松实现海量数据交互式分析,并详细说明了排序、时间筛选、Having 语句过滤、分页、Docker 容器化等功能,展现了其可视化分析的实践。

0 人点赞