作者简介:6年大数据开发经验,从毕业一直从事大数据开发工作,渣渣二本,凭借自己努力进入一线互联网企业,目前负责实时计算开发工作。最近看到大家对互联网词汇特别迷,我就写一篇文章来给大家讲讲,好久没有写原创了,主要是平时太忙了,没时间写。
主要内容:
1、什么是数据海?
2、大数据内卷现状
3、大佬乱造词加速内卷
4、如何反制大佬胡乱带节奏
5、如何快速提升自己的技术
一、数据海
随着业务的蓬勃发展,商务智能、数据仓库、数据中台、数据湖已经无法满足大佬催牛逼的需求,他们希望出来一个新名词,来加速内卷,方便忽悠,就像黄河一样,每年都要把河床抬高,才能凸显出自己的技术沉淀,所以数据海就会应运而生,在讲述数据海的概念之前,我先带着大家温故一下商务智能、数据仓库、数据中台和数据湖,既然卷,就要从头开始卷起来。
商务智能(BI,Business Intelligence)是一种以提供决策分析性的运营数据为目的而建立的信息系统。是属于在线分析处理:On Line Analytical Processing(OLAP),将预先计算完成的汇总数据,储存于魔方数据库(Cube) 之中,针对复杂的分析查询,提供快速的响应。在前10年,BI报表项目比较多,是数据仓库项目的前期预热项目(主要分析为主的阶段,是数据仓库的初级阶段),制作一些可视化报表展现给管理者。
数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。[1]:引自全球数据仓库之父 W.H.Inmon。
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,上面的阿里巴巴100多个同系列产品同时服务一个淘系就属于烟囱式。
广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,时下我们谈到的数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的2000个基础模型,300个融合模型,5万个标签。
数据中台广义上是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。来源:维基百科。
那问题来了,什么是数据海?
数据海就是对那些喜欢造词的大佬的嘲讽而已
大佬的一贯方法就是,等菜鸟都把数据湖研究的差不多了,数据海概念就会出来了。
二、数据内卷现状
如果你想成为数据开发工程师,需要满足以下几点:
1、工程能力:需要会mvn、spring、爬虫、linux操作命令、各类大数据组件都要熟悉架构原理(hadoop、hive、spark、flink、doris、clickhouse、hbase、redis、es、druid、flume、kafka、cancel、az等等我自己都数不过来了)卷的已经学不动了
2、语言能力:需要会java、scala、python
3、数据理论:商务智能、数据仓库、数据中台、数据湖(后边不知道还会出来啥)
4、绕口的术语:主数据、元数据、退维、onedata、数据质量、数据治理、数据地图、原子指标、派生指标、度量、范式、维度建模等等
5、各种需求报表:sqlboy干的活,大家都懂得,无底洞
6、各种背锅:业务效果好(是策略的功劳);业务效果差(是数据指标不准确,数据支持不到位,模型依赖的基础数据支持不到位)
7、别的我就不多说了,已经很累了,我再说下去,感觉没有年薪200万,这活都没法干,太辛苦了,既要又要还要
三、大佬乱造词加速内卷
不知道大家有没有经历过这种情况,当你长时间看一个字的时候,你都不知道这个字念啥,或者你一直盯着一个字看,你就不认识这个字了。
如果大佬疯狂造成,比如:数据中台
估计很多小伙伴花钱买了数据中台的课程还没来的及消化透彻,数据湖又冒出来,然后一帮人开始又去研究数据糊了,各种报班去学习数据湖,当然我不是反对