如何定量分析“后Hadoop时代”开源项目和技术趋势
研究目标
Hadoop 作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop 发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进 入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。
使用热力值进行定量分析
开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。 具体来讲,主要来自于几个方面:
- 开发者对开源项目的关注度,以及应用场景的广度和深度
- 开发者参与项目开发的贡献活跃度
- 开发者在开发过程中展现出的协作关联度
- 项目和社区的可持续发展的健康度
这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。
本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表 现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳 总结。
数据来源
采集时间为2022年10月1日。 通过 GitHub log 获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、Open PR,Review Comment,Merge PR等)。 通过Jira api 获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。
热力值研究模型
热力值计算 https://github.com/X-lab2017/open-digger/tree/master/cooperations
开源大数据热力的“摩尔定律”
每隔40个月,热力值提升1倍。
我们按照数据处理的生命周期,对开源大数据项目进行了技术分类,包括「数据集成」、 「数据存储」、 「批处理」、「流处理」、 「数据查询与分析」、 「数据可视化」、 「数据调度与编排」、 「数据开发与管 理」8个类别。2022年开源大数据总热力值,增长到2015年的4倍。每隔40个月,热力值提升1倍。
热力变迁反映技术趋势
- 开发者对「数据查询与分析」保持了长期的开发热情,连续8年位于热力值榜首。
- 2017年「流处理」热力值超过「批处理」,大数据处理进入实时阶段。
- 数据规模越来越大,数据结构更多样化,「数据集成」从2020年开始爆发式增长。
- 近2年来,活跃的新兴项目为「数据调度与编排」、 「数据开发与管理」注入新的活力。
2025年总热力值将突破3万
按照目前热力增长趋势预测,到2025年,总热力值将突破3万, 「数据集成」、 「数据调度与编排」、 「数 据开发与管理」将成为强劲的热力增长点。
热力趋势一:用户需求多样化推动技术多元化
一套复杂体系分化为六大热点技术
- 搜索与分析
- 流处理
- 数据可视化
- 交互式分析
- DataOps
- 数据湖
热力跃迁更加频繁,彼此交替推动
热力趋势二:一体化演进迈入2.0时代
从计算一体化到存储一体化
- 2015 Apache Spark 提出流批一体 (一体 1.0)
- 2017 Apache Beam捐献给Apache基金会,统一批处理和流处理编程范式(一体 1.0)
- 2019 基于Apache Flink 流批一体技术架构,在阿里巴巴双11项目大规模应用落地(一体 1.0)
- 2019 Delta Lake,成为Linux基金会项目 (一体 1.0)
- 2020 Hudi、Iceberg,从Apache孵化器毕业(一体 2.0)
- 2022 Apache Flink Table Store 流式数仓发布 (一体 2.0)
- 2022 Delta Lake全部开源 (一体 2.0)
热力变迁背后是用户使用痛点的转移
多元化技术的蓬勃发展
热力趋势三:云原生大规模重构开源技术栈
发轫于云端的技术重构
数据集成 率先完成重构
开源大数据项目热力TOP30
TOP项目热力跃迁逻辑研究
解决用户痛点是核心竞争力
每个项目都需要解决用户在某个细分场景的痛点,用户痛点并非一成不变,优秀开源项目的与时俱进,成为热力趋势中的“常青树”。
掌握开源社区运作的方法论
- 独立存在的优秀开源项目
- 进入基金会孵化器能够帮助项目快速成长
持续关注开发者体验
- 在社区起步阶段,找到种子用户非常关键。
- 在社区发展趋于成熟时,则更需要关注大众开发者的产品体验。
- 无论处于什么阶段,都需要保持良好的开发者体验,如Issue、邮件咨询等社区互动行为,保证及时反馈SLA。
- 对于诞生于国内的开源项目,拥有良好体验的英文项目文档,是做好国际化的先决条件
- 接受本地开发者的文化和沟通习惯,用他们喜欢的方式发展社区。
商业化对于开源社区发展是双刃剑
- 热力TOP30中有超过9成的项目背后存在商业化公司运作。
- 开源与商业化可以并存,并且能够相互促进,这已经成为业界共识
- 第一类,在长期经营的开源生态上已经建立起强大“护城河”,商业化相对克制和保持节奏。
- 另一类,因为不得已的原因而更改开源策略,开源社区发展受到一定影响,以此换取商业回报。
- 第三类,也是最多的一类,商业化已经启动,同时开源社区也处于快速发展阶段,商业化软件开发模式在一定程度上改变了“集市”类型的开源软件开发模式,开源的“速度”变得更快。
- 我们认为,开源背后的商业化更多体现为良性的促进作用。在某个时间段出现商业化和开源之间的排异现象,市场和社区都会自动消化和调整,最终回归到稳定状态。
参考
https://files.alicdn.com/tpsservice/d985b559f65e3ffd004620e0050e9f21.pdf