数据科学家最爱的几款工具!
一个能干的数据科学家经常被看作是分析学中额的独角兽,这是因为他们的工作往往需要深厚的数学和统计学的知识、熟悉计算机科学,还要有掌握一些商务技能。同时掌握这么多的技能是需要耗费大量的时间、全身心的投入以及保持足够的好奇。这对于那些不是真正的热爱用大数据回答大问题的人来说是不可能实现同时掌握这么多技能的任务的。庆祝情人节当天,我们团队自问到底是什么数据科学工具、技术激发了我们对于冷冰冰的量化分析的热情。下面这些就是他们不得不说的。
并行处理:GPUs(图形处理器)为数据探索松绑
对于真正的数据爱好者来说,没有什么能比在未知数据中探索,在探索的每一小步中发现林荫大道更让人感到兴奋的了。不幸的是,传统的数据处理设施都是基于通用的CPU芯片建立的,它的数据分析反应速度根本不可能实现对字节范围数据集的分析,为了等到计算结果你不得不连续等待数分钟甚至是数小时。近几年,GPUs成为数据分析师眼里的热门计算平台。GPUs之所以能够受追捧是因为它能够并行处理多任务,而不是一次只能处理一个。这也就是说在连续处理数据的过程中,GPUs比CPU 内核的处理速度快百倍以上。GPUs将数据分析的喜悦感带到了数据科学当中,它因此也赢得了我们的爱。
Boostedtrees 引领预测数据模型步入更高阶层
数据科学家们通过切换到更高效的计算设施当中省下了大量的时间,那么他们用这些剩下的时间干什么了呢?毫无疑问,他们利用更强大的机器学习算法来创建更进准的预测数据模型。有一个关于XGBoost的例子广受欢迎,这也是我们团队很喜欢的一个。XGBoost是一个类似于随机森林的一种算法。尽管它需要更多的调整时间,但是这项技术确实很难被打败的,原因在于它有一种能够捕捉到每一个数据库所提供的预测精准度的能力。
自动记录为数据科学家省下了更多的时间进行探索
将每个人的工作清晰、完整地记录在案是编码工作的一项重要任务,数据科学家团队也不能例外。然而手工处理这些记录文档是一项异常乏味的工作,所以对于很难找到一组数据科学家团队会持续不断的手工记录文档的现象也就不足为奇了。这也就是我们喜爱文档生成器的原因了。目前我们的最爱要数Sphinx Documentation Generator。Sphinx是一款让人难以置信的支持工具,它已经成为一种记录编码的标准,支持的编码语言从Python、Go到R. 它能基于源代码和docstrings (标准化评论) 毫不费力地生成清晰、漂亮的编码记录文档。
最后,任何一件能够使数据科学家花更多时间在数据科学上并让他们能在第一时间就爱上大数据分析的东西,都能让数据科学家们心砰砰直跳。这些数据科学工具能够让我们的团队减少争吵、数据处理、存档的时间,把更多的时间用来寻找新的、令人兴奋的从大数据中探求深刻见解的方法上。
译:春上秋下7