选自towardsdatascience
作者:Daniel Bourke
机器之心编译
参与:高璇、张倩
谷歌云平台为构建数据处理系统提供了基础架构,掌握谷歌云的使用可以在简历上起到锦上添花的效果。那么,如何在简历上证明「我学过」呢?当然是考证啦!所谓「证多不压身」。本文作者详述了自己考取谷歌云专业数据工程师认证的通关历程,还附赠了一些通关秘籍……
注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。
在过去的几个月里,我一直在Google Cloud学习课程并准备专业数据工程师考试。然后我顺利通过了。几周后,我的连帽衫到了,证书也到手了。
本文将列出读者想知道的一些事,以及我为获取Google Cloud专业数据工程师认证所采取的行动步骤。
为什么要进行Google Cloud专业数据工程师认证?
数据无处不在。而且,我们需要知道如何构建能够处理和利用数据的系统。Google Cloud提供了构建这些系统的基础架构。 你可能已经掌握了使用Google Cloud的技能,但如何向未来的雇主或客户证明这一点呢?两种方式:通过项目或认证。 证书能够帮你告诉未来的客户和雇主,「嘿,我已经掌握了技能,并且我也努力获得了认证。」 谷歌用一句话对此进行了总结。
展示你在Google Cloud平台上设计和构建数据处理系统以及创建机器学习模型的能力。
如果你还不具备这些技能,那么通过认证的学习材料,你将学习如何在Google Cloud上构建世界一流的数据处理系统。
谁需要获得Google Cloud专业数据工程师认证?
你已经看到这些数字了。「云」正在扩增。它就在这里。如果你还没有看到这些数字,请相信它正在扩增。 如果你已经是一名数据科学家、数据工程师、数据分析师、机器学习工程师或正在寻找进入数据世界的职业,Google Cloud专业数据工程师认证就非常适合你。能够熟练使用云技术对所有类型的数据来说都是至关重要的。
你是否需要证书才能成为优秀的数据工程师/数据科学家/机器学习工程师?
并不是。 没有证书你也可以使用Google Cloud寻求数据解决方案。 证书只是对现有技能的验证。
参加认证考试需要多少钱?
参加认证考试的费用为200美元。如果失败,需要再次支付考试费。
准备课程和使用平台本身都有成本。 平台费用是使用Google Cloud服务的费用。如果你是它的发烧友,你会很清楚这些。如果你只阅读了本文中的培训材料,那么你可以创建一个新的Google Cloud帐户,并在Google提供的300美元信用额度内完成注册。 我们会马上讲到课程费用。
证书的有效期为多久?
2年。 之后需要再次参加考试。 而且Google Cloud每天都在不断发展,因此证书所需要的内容可能会发生变化(我在开始撰写本文时也发现了这一点)。
你需要为考试做什么准备?
Google建议有3年以上行业经验和1年以上使用GCP设计和管理解决方案的人员参加专业认证。
我没有这些经历和经验,我只准备了半年时间。 为了弥补这一块的不足,我充分利用了在线培训资源。
我参加了哪些课程?
如果你像我一样没有达到谷歌建议的要求,可能需要学习以下课程来提高自己的技能。
以下课程是我用于准备认证的课程,按完成顺序排列。我列出了通过认证考试的费用、时间表和实用值。
这是一些令人获益匪浅的在线学习资源,我过去常用它们备战考试。依次是A Cloud Guru、Linux Academy、Coursera。 Cousera网站上的Google Cloud平台专业数据工程课 链接:http://bit.ly/courseraGoogleDataEng 费用:每月49美元(7天免费试用) 时间: 1-2个月,每周10个小时以上 实用值: 8/10
Coursera上的Google Cloud平台专业数据工程课是Coursera与Google Cloud合作完成的。 它有五个子课程,每个课程都需要每周10个小时的学习时间。
如果你不熟悉Google Cloud上的数据处理,那这门课算是领你入门。你将使用名为QwikLabs的迭代平台进行一系列实践练习。在此之前,将由Google Cloud从业者讲授如何使用Google BigQuery、Cloud Dataproc、Dataflow和Bigtable等不同的项目。
Cloud Guru上关于谷歌云平台的介绍 链接:https://acloud.guru/learn/gcp-101 费用:免费 时间: 1周,4-6小时 实用值: 4/10
不要认为这门课实用值低就没用。远非如此。得分较低的唯一原因是它没有专注于专业数据工程师认证(从标题可以看出)。 在完成Coursera专业化课程后,我将此作为复习课程,因为我只在一些特定的时候使用过Google Cloud。 如果你来自其他云服务提供商,或之前从未使用过Google Cloud,你可能需要参加此课程。它对Google Cloud平台做了精彩的介绍。
Linux Academy Google认证专业数据工程 链接:https://linuxacademy.com/google-cloud-platform/training/course/name/google-cloud-data-engineer
费用:每月49美元(7天免费试用) 时间: 1-4周,每周4小时以上 实用值:10/10
在完成考试并回顾我所完成的课程后,Linux Academy的Google认证专业数据工程课对我是最有帮助的。 课程视频以及 Data Dossier的电子书(https://www.lucidchart.com/documents/view/0ca44a63-4ea4-4d78-8367-2465512d21be/1)(课程附带的免费学习资源)和练习考试使这个课程成为我用过的最好的学习资源之一。 我甚至在考试后在给后团队的Slack笔记中推选它为首选课程。
零散笔记 • 考试中的某些内容不在Linux Academy或A Cloud Guru或Google Cloud Practice考试中(预计) • 出现一个有数据点图表的问题,你需要用公式对它们进行聚类(例如cos(X) 或 X² Y²) • 必须了解Dataflow、Dataproc、Datastore、Bigtable、BigQuery、Pub/Sub之间的区别,以及如何使用它们 • 考试中的两个案例研究与实践中的案例完全相同,但我在考试期间根本没有阅读这些研究(这些问题可见一斑)
• 了解一些基本的SQL查询语法非常有用,特别是对于BigQuery问题而言 • Linux Academy和GCP提供的练习考试与考试的真题非常相似,我会做大量模拟练习,找到自己的短板 • 帮助记忆Dataproc的打油诗:「Dataproc the croc and Hadoop the elephant plan to Spark a fire and cook a Hive of Pigs」 • 「Dataflow 是流动的光束」(Dataflow联想Apache Beam)
• 「世界各地的人都可以参与到ACID wash Spanner的制作。」(Cloud Spanner是一款专为云计算而设计的数据库,兼容ACID且可在全球范围内使用) • 大致了解一些相关和非相关的数据库选项(例如MongoDB,Cassandra)的曾用名 • 每个服务的IAM功能略有不同,但了解如何将用户从可以看见数据与可以设计工作流分离开来是有益处的(例如,Dataflow Worker可以设计工作流,但不能查看数据)
这可能已经足够了。每次考试内容可能会有出入。但Linux Academy的课程会提供80%的知识。
Google Cloud 1分钟视频 链接:https://www.youtube.com/playlist?list=PLIivdWyY5sqIij_cgINUHZDMnGjVx3rxi 费用:免费 时间: 1-2小时 实用值: 5/10
这些是在A Cloud Guru论坛上推荐的。其中许多内容与专业数据工程师认证无关,但我选择了一些我认可的课程。
在学习课程时,有些服务看起来很复杂,所以花一分钟听完对一些特定服务的描述还是很值得的。 准备云专业数据工程师考试 链接:http://bit.ly/preparingforGCPDataExam 费用:有证书49美元,无证书免费 时间:1-2周,每周6小时以上 实用值:N / A.
我在考试前一天找到了这个资源。由于时间限制,我没有参与,因此缺乏实用值的的评分。
但是,在浏览课程概述页面后,我发现这个资源很不错,可以将你在Google Cloud上学习的数据工程内容综合起来,并发现你的短板。
我把这门课程作为参考资料发给了一位正在准备认证考试的同事。
Maverick Lin的谷歌数据工程秘籍 链接:https://github.com/ml874/Data-Engineering-on-GCP-Cheatsheet
费用:免费 时间:N / A. 实用值:N / A.
这是我在考试后偶然发现的另一个资源。我看了一下,这份资源全面又简洁。另外,它是免费的。这可以在练习考试间歇将其当做补充读物,甚至可以在认证之后用来回顾。
课程结束后的事宜
在快要完成课程后,我提前一周预约了考试。
毕竟deadline是第一生产力,可以让你充分了解你所学到的知识。
我多次参加了Linux Academy和Google Cloud的练习考试,每次都能达到95%以上的准确率。
首次以90%以上的成绩通过Linux Academy练习考试。
每个平台的测验都很相似,但我发现,复习出错的题并记录下出错原因能有效地帮我查漏补缺。 我在Google Cloud上进行的考试以设计数据处理系统为主题,进行了两个案例的研究(自2019年3月29日后这一形式发生变化)。整个过程多是选择题。 我花了大约2个小时。并且比我参加的任何一次练习考试都要困难20%。
所以我反复强调的模拟考试还是非常重要的。
如果再考一次,我会改变什么?
更多练习模拟考试。学习更实用的知识。
当然,你可以做更多的准备工作。
谷歌建议考生有GCP的3年以上使用经验。但我缺少这一经验,所以我必须从我拥有的部分下手。
附注
考试于3月29日更新。本文中的材料仍将为你提供良好的基础,但要及时注意到内容的变化。
Google Cloud专业数据工程师考试的不同部分(版本1) 1. 设计数据处理系统 2. 构建和维护数据结构和数据库 3. 分析数据并实现机器学习 4. 为分析和优化建模 5. 确保可靠性 6. 可视化数据和提议策略 7. 考虑安全性和合理性
Google Cloud Professional数据工程师考试的不同部分(第2版) 1. 设计数据处理系统 2. 构建和运行数据处理系统 3. 实现机器学习模型(大部分改变都在这里) [新] 4. 确保解决方案质量 版本2将版本1的第1、2、4和6合并为1和2。它还将版本1的第5和第7部分合并到第4部分。第2版的第3部分已经扩展到包含所有Google Cloud的新机器学习功能。
由于最近考试内容改变,许多训练资料都没来得及更新。 但是,本文提到的材料能覆盖70%的内容。我将结合自身对以下内容做一些研究(这些在考试的第2版中介绍过)。
- Google机器学习(ML)API
- Google Cloud 机器学习引擎
- Google Cloud TPU(Google专为ML培训而构建的自定义硬件)
- Google ML术语表
最新的考试更新主要集中在Google Cloud的ML功能上。 2019年4月29日更新:来自Linux Academy课程讲师Matthew Ulasien的消息:
仅供参考,我们计划更新Linux Academy的数据工程师课程,以应对从5月中旬开始的新方案。
考试结束后
完成考试后,你只会收到通过或失败两种结果。我建议考试成绩至少达到70,因此我练习考试时的目标至少是90。
一旦通过,你将收到一封电子邮件,里边有官方Google Cloud专业数据工程师证书的兑换代码。恭喜!
你还可以在Google Cloud专业数据工程师商店中使用兑换代码。可以兑换T恤,背包和连帽衫(库存可能会变)。我选择了连帽衫。 现在你已经通过认证,可以(正式地)展示你的技能,继续做你最擅长的事情了。 记得两年后要获得重新认证。
原文链接:https://towardsdatascience.com/passing-the-google-cloud-professional-data-engineer-certification-87da9908b333
本文为机器之心编译,转载请联系本公众号获得授权。