数据工程师进阶计划,这有一份2019开年自学清单

2019-03-04 12:59:49 浏览数 (1)

大数据文摘出品

作者:王嘉仪

优质大型的公司对于数据分析以及机器学习类岗位的需求高居前列。本文给出了针对小白和有简单数据科学基础的同学的学习计划,可以让你在浩如烟海的数据科学学习资料中找到自己的兴趣。

万事开头难。我先假设你是一个超级小白,你可以做出一个六个月学习计划以及读书清单进度表来给自己首先树立自信。

学习计划

1.Dataquest (2个月)

https://www.dataquest.io/dashboard

这里有个网站对于初学者了解,从零开始python编程还是很友好的。不过它后期的进阶学习部分有可能需要付费访问,但对于新手来说,它可以引导你真正打出代码,它给出了一些公开的真实数据,然后学习整理和操作数据。

2.Automate The Boring Stuff (1个月)

https://automatetheboringstuff.com/

这本书是一个很好的材料,它让我开始接触Python的实际应用。它教会您如何使用python自动化手动任务,如重命名文件、移动文档和创建用于数据操作的csv文件。

这个网站的内容尽管是全英文的,但它的内容都是由简单的英语句式组成,这点好处就是你不能一步到位去理解标准化的科学术语,但你可以通过形象化的语言了解到这门学科的大概,同时不至于让你丧失兴趣。如果你具备基本的英文知识你就可以自己学下去。

3.Machine Learning AZ™: Hands-On Python & R In Data Science – Udemy (3周)

https://www.udemy.com/machinelearning

当你有了初步基础的时候(懂高中数学就行),你可以在一个集中的课堂中加强你自学的内容。你不喜欢写代码却仍然对机器学习有很大的兴趣,那么推荐这个视频,评论说这个视频非常适合初学者上手真正的机器学习项目,它包括了大多数机器学习代码。它是Udemy上最受欢迎的机器学习课程,不过它现在已经要收费大概11美元。(仔细找找会有免费的)

4.Andrew Ng’s Machine Learning Course – Coursera (2个月)

https://www.coursera.org/learn/machine-learning

这个课程不用详细介绍啦,几乎人人知道,这是Coursera上最受好评的机器学习课程。虽然吴恩达(Andrew Ng)说在他的机器学习课程上已经尽量减少放入数学公式,更多的是介绍原理与思路,然而很多人觉得它是有相当的难度的。不过已经有了上面的学习基础,你会更有信心看完全部的视频。我强烈推荐您学习这门课程,它填补了上一个“A-Z机器学习”所没有的空白,加深了你的理解。本课程着重于基础概念,数学和机器学习的关键。你将学习如何手写推到公式,计算损失函数和成本函数的含义。非常直观和刺激。

5.Kaggle (1 个月)

https://www.kaggle.com/

企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机器学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,如果提交的结果符合指标要求并且在参赛者中排名第一,将获得比赛丰厚的奖金。

来到这里意味着你已经可以开始解决实际问题了。我强烈建议你在上手之前,先学习已经处理过的问题,因为有很多指导和答案,你需要通过复制重现这些材料中的所有项目练手。Kaggle是免费的。

阅读计划

大量阅读:不论是有关该主题的书籍,观看教程还是收听关于该主题的播客等。

模仿:反复阅读教程,按照作者的步骤自己执行一遍。最好从头开始自己写代码,动手做是对你大量阅读后汲取技术诀窍最好的方法。

想法社区分享:向大佬提问。一般大牛文章的撰写作者可以在Reddit,Discord,Slack或Twitter上看到其身影。寻求导师、伙伴。

重复动手:就算是一个小小的项目、教科书上的练习,Kaggle比赛或修复错误,一定要动手去做。

做好心理准备

现在,你已经给新的一年定下了基调。每天结束前你都能学到点东西,让大脑只关注今日所学的code和如何操作这些任务。即便在工作中,你的大脑也能快速重现并消化你刚学的概念。

除了满怀希望让自己在这个月里能解决一个Kaggle的问题以外,你还需要掌握自己的学习的思维和习惯。这个学科有大量的内容和概念需要学习和记忆,有一大堆的练习要做,你一定会倍感压力。更大的阻力也来自你本身,有的时候你很容易丧失坚持下去的动力,很可能因为针对一个问题就已经让你一遍又一遍的重复,但却没有任何效果。

此外,我们还有一个不良习惯:看到一个标题有意思的文章或者课程总是先把它收藏下,准备以后再看。但问题是,我们压根不会去回放和反复看,而且思路往往被这些新书、新的研究力量、最新的科学数据带着跑,我可不是反对接受多样时新的资源,而是说应该避开这些纷扰,专注的做好你自己的计划,排好要学习的内容的优先性。

随时坚持一定的时间,你一定会发展你已经悄悄的有了质的飞跃。到了后期,你就可以天天跑去看大神的blog和能够读懂他们底下的评论。

你现在完全都沉浸在自己定好的计划的流程里。我知道就算你把这些目标都写下来你也不一定一一会完成,因为上班时候的你真的非常忙。但我肯定保证,能照着它做出来一丁点事都会放大你的成就感,从而坚定你的信念,别学着学着又去看社交媒体了,又去看什么新热点。

数据科学相关专业的学生

其次也有不少人是data science以及相关专业的科班出身的毕业生,即将走向社会去找到心仪的工作。在AI领域里你可能会有这样的头衔,数据工程师、数据科学家、开发者。所以最好你有一个电子工程、计算机科学硕士博士的背景。大家刚刚从研究生毕业或者正准备选择想要深造的领域。本文也可以给出一点点建议。

如果你是科班出身的,你肯定比我更了解去哪里寻找更多的学习资料,不过我可以提出别的建议和想法供参考。

  • 大胆一点

如果你做学术最重要是要找到自己的方向。不要总步入前人步履,作为年轻人应有雄心勃勃,你有什么好害怕失去的呢。举个例子,Jakub Langr在牛津大学物联网数据科学课程上教授GAN。(他的博客http://jakublangr.com/gans-tutorial.html)三年前他将职业赌注下在研究GAN上面,而很多人没有这个魄力做这个决定,三年后,Jakub写了我见过的关于GAN的最好的书籍之一。

  • 了解市场

很多人都不觉得AI能作为一个“市场”,但实际上它已经和其他蓬勃发展的行业一样,商业知识的细分领域一般会被低估,但现在AI应用这么广泛,你懂得如何利用这个潮流投资是很重要的事情。它在每一个非常细分和差异化的市场的人才都非常稀缺。现在有英国伦敦剑桥牛津等大学组织的杰出人才中心,以色列的内盖夫大学的网络安全中心,印度班加罗尔以及中国各个机构都在蓬勃发展。

  • 做一些大项目练手

因为AI的进入门槛已经提高。你不能还在用Mnist数据集,因为它很老套了已经被用了无数次。(MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取)所以你要出类拔萃你还是多学习做一些更难的项目,可以看Piotr Skalski’s 的博客。

https://towardsdatascience.com/@piotr.skalski92

  • 强化你的研究能力

我在做学术研究时一直都不会脱离现实产业。所以AI领域的研究对现实会起到什么作用非常重要。所以当你花费大量时间在这些研究论文上,你可以把它和实际结合起来。

  • 小公司or大公司:

前者,你去一些专门建立在AI技术上的初创公司也会学到很多东西。后者,找一些很重视AI技术的公司,像微软、谷歌、亚马逊、脸书、英伟达等等,因为其他公司虽然可能产值很大,但它最终将落伍。

想做一个数据工程师,你也得学会分辨哪些项目是此刻急需要完成的。才能在未来有幸游到这片蓝海的岸边。所以你现在训练的思维一定能给你未来的工作带来很好的效果。有眼光的人们都会立刻行动起来!

0 人点赞