最近事情较多,因为临近年底,在做总结和后续规划,在这一年中,数据开发方向仍然在快速发展,新概念和新技术层出不穷。
并且2023年是各大公司新技术大规模落地的一年,相比2022年及以前空中楼阁似的讨论和不接地气,2023年更加贴近实际,无论公司规模大小,大家都有了一些最佳实践。
下面是我观察到的行业内的一些发展和未来方向,视角较小,互相讨论。
1. 数据体系迭代加速,离线计算继续保持稳定高效,未来以稳定为主
经过10年多迭代和发展,离线计算侧各大小公司建设都比较完善,并且稳定性都很高,技术平台的周边能力开始普及,行业内形成了较为统一的标准和实践。受益于阿里在数据领域的最佳实践和方法论(OneData)的贡献,即使很小规模的公司都可以基于这些成功实践建设完善的数据仓库和数据体系,少走了很多很多弯路。一部分中小公司直接采购云平台的产品,在平台能力上直接对标一线公司的能力,是一个很好的选择。
这部分未来发展以稳定为主,离线计算作为大数据计算的基石,无论从场景丰富度,业务复杂度上都远超其他方向,也是绝大多数公司和业务的基石。但是由于这部分相对门槛较低,自闭环,所以在招聘市场上竞争力较低,相信大家有所体会。对于大多数同学,如果面向未来换工作等,可以减少对这方面的精力投入,把更多时间投到更新的领域,增强个人市场竞争力。
2. 全面拥抱实时计算,数据湖方案在头部公司全面落地,行业标准初露端倪
这两年最热最火的方向集中在实时计算和湖仓领域,大家应该都能感觉到。目前实时计算方向在行业内部没有统一的行业标准,各个大小公司对实时计算和湖仓的需求差异极大,所以大家会看到公开分享中实时架构百花齐放(菜鸡互啄)。根本原因可能是因为不同公司技术能力差异极大,业务场景差异也极大,没有可以参考的标准做法。好处是快速支持需求,坏处是未来某个节点问题会集中爆发,一定会推倒重来。所以实时计算领域的架构师/技术负责人要求很高,当然大家也会是市场上的「抢手货」。
另外,2023年及以前实时计算领域行业标准初露端倪,在数据开发的蛮荒时代,阿里承担了这个角色,贡献了很多最佳实践和方法论,成功的实践经验被行业内其他公司快速吸收。并且至今在实时计算的平台开发领域都保持一定的技术领先优势。但是在实时业务支持上,字节跳动和快手是最有可能诞生行业标准的。他们的业务形态、规模、场景都更天然贴近实时需求。并且在组织架构设计上优势明显,平台侧和业务开发同学配合更加紧密、反应更加敏捷。大家可以关注一下这两家公司的技术分享和开源产品。在未来1-3年内,一定会有一些行业最佳实践和方法论诞生,到时行业内会重新洗牌。
3. 技术分层趋势更加明显,上升通道变窄,传统公司自成一派
目前整个数据开发领域,互联网方向的大公司得益于更强大的技术优势和更复杂、丰富的业务场景,在开发应用领域明显领先规模较小的公司,尤其是在新兴的技术领域。这种分层导致大小公司在使用的技术框架、方案上产生明显分歧,未来对大家换工作并没有好处。说的直白一点,在简单业务场景下的技术方案在面对一些中大型公司的技术面试中不会被看好。
另外这其实对整个行业的同学提出了较高要求,尤其是TL这个岗位的同学,新兴技术领域不接触一线的开发和细节,会很快脱离生产实践,未来市场竞争力也会较弱,至少要保障个人对项目核心技术方案/核心难点的关注;对于较少进行一线开发的做数据治理、项目管理的同学,也要保持对一线编码的强力关注,这批同学的技术能力荒废最快,未来竞争力下降非常明显,因为过去已有的丰富经验在新领域并不适用。
传统公司在数据开发领域自称一派,例如一些国企、银行、新能源等等,他们在各自的垂直方向上有自己独特的数据开发和交付标准,并且有较高的行业门槛,和互联网形成了较为明显的差异。这些公司的同学有独有的打怪升级路径,未来会有更多的行业内的开发标准和架构方案从这些公司产生,并且对开发同学的「复合型」发展提出了要求,例如不追求很高的技术深度,对业务理解、开发流程、数据治理等方向同样看重,大家可以按照行业内的要求谋求个人发展。
以上是我对过去2023年的一些发展的思考总结,和对2024年的一些展望。一家之言大家可以参考。未来会如何发展持续关注。