介 绍
我们一直想提高生产率-在相同的时间量内,我们可以完成更多的工作。数据科学研究人员也是如此。设置好硬件之后,就该考虑如何选择启动数据科学项目所需的软件了。问题在于市场上有太多选择,并且出于学习目的,您可能已经尝试过其他工具。换句话说,您的购物清单太长,您可能迷路了,不应该上手。
在本文中,我想分享我认为适合我的数据科学项目需求的组合。当然,对于所有人来说,这都不是一种千篇一律的解决方案。但是,如果您对配置没有任何想法,可能可以先尝试一下。
具体来说,我们将使用三种工具:PyCharm,Anaconda和JupyterLab。我将首先介绍安装过程,然后讨论每个工具的作用。我会尽量简明扼要,因为如果我输入过多的信息,对于初学者来说将是压倒性的。
安 装
PyCharm
要安装PyCharm,您可以访问PyCharm网站:https://www.jetbrains.com/pycharm/download/#section=windows。根据您的操作系统,您需要下载正确的版本。我在一家非营利性教育机构工作,因此可以使用专业版。如果您遇到类似情况,则可以利用此好处。但是,如果您主要从事Python开发,则Community版本应该可以正常工作。下载完成后,只需按照提示进行操作即可。
Anaconda
要安装Anaconda,您可以访问Anaconda网站:https://www.anaconda.com/products/individual。对于我们许多人来说,我们只能使用单独的版本。但是团队和企业还有其他版本。这是不同计划比较的链接。 同样,您需要为自己的操作系统选择版本。下载完成后,只需按照提示进行操作即可。
JupyterLab
您实际上并不需要下载JupyterLab的任何东西,因为一旦运行了Anaconda,您就可以在Anaconda中非常方便地访问它,它将为您处理所有安装和其他设置。
角 色
PyCharm
- Python脚本编码。它具有以下我喜欢使用的功能。当然,其他IDE也具有这些功能,但是可能会有一些变化。
- * Python编码风格检查。它可以检查编码风格是否有问题,比如命名和缩进。在此过程中,您将学习Python编码的最佳实践。
- *自动完成提示。在您开始输入后,自动完成建议会迅速提示。还有一些内置的短代码段可以自动提示,例如类的__init__方法。
- *代码分析。它可以检查变量是否被使用,是否使用任何导入的模块,某些变量是否在定义之前被使用,以及各种其他分析。代码分析的一个重要特性是告知您重复的内容,这将帮助您重构代码。
- *定义查找。它是非常方便的查找任何变量或函数与一个快捷方式(按下Cmd或Ctrl和点击)。这是双向查找。如果它本身是一个定义,它会提示用法。如果它是一个对变量的引用,它将引导您访问定义。
- *重构。当您更改变量名、更改函数签名或删除文件时,它将允许您系统地进行这些操作,这将防止由于这些重构操作而产生的bug。
- 与版本控制集成。无论你是数据科学家还是软件工程师,你总是想使用版本控制工具。对于我们中的许多人来说,选择GitHub,使用它不仅可以备份我们的代码,还可以访问不同版本的代码进行重构。
- PyCharm有一套专用的版本控制管理工具。你不需要知道很多关于git命令的知识。大多数操作都可以通过点击来完成。在我的项目中,我将只使用快捷键进行常见操作,例如提交(Cmd K)和puch提交(Cmd Shift K)。
- 包安装提示。对于许多常见的包,您可以开始用PyCharm编写代码。如果需要的包没有安装,系统会提示您安装这个包。在大多数情况下,PyCharm都能很好地完成任务。
- 虚拟环境集成。当您创建一个项目时,您可以指定如何设置虚拟环境(下面将详细介绍)。您可以简单地指定Conda作为新的环境管理器。
Anaconda
- 环境管理。Python程序员不应该不熟悉虚拟环境这个术语。由于Python的开源特性,我们有大量的软件包可供使用。问题是不同的包可能有不同的需求,因此不可能只有一个Python安装和相关的包来满足所有应用程序的需求。虚拟环境就是通过创建具有特定依赖项的虚拟环境来解决这个问题,为每个应用程序形成独立的自包含框。
- *创建/克隆新环境。您可以从头创建一个新环境,也可以从现有的虚拟环境中克隆一个。
- *进口环境。如果您已经在其他地方设置了环境,则可以导入安装文件,这允许您使用Anaconda轻松地重新构建环境。
- 启动应用程序。对于每个环境,您都可以启动想要使用的应用程序。例如,你可以在这里启动PyCharm或JupyterLab。许多用于数据科学的其他常用应用程序都可以方便地访问,比如Visual Studio Code和RStudio。
JupyterLab
- Jupyter笔记本。虽然PyCharm支持木星笔记本,但我觉得体验不太好。您的屏幕有两个部分-一个是编码,另一个是显示结果。因此,编辑笔记本做一些琐碎的工作是可以的。但是,如果你想要一个更有互动性和响应性的笔记本体验,你可能需要使用JupyterLab
- 笔记本电脑扩展。许多开发人员已经开发了有用的笔记本扩展。因此,通过在juyterlab中运行笔记本,您可以访问这些扩展以提高生产率,例如查看内容表和变量检查器。
在开始之前
这是一个对我来说一直有效的数据科学项目的典型工作流程。当然,它是我到目前为止讨论的这三种工具的组合。
- 运行PyCharm并创建一个项目,使用Conda进行虚拟环境管理。
- 用PyCharm编写脚本。如前所述,通过提供代码完成和分析特性,PyCharm允许您比许多其他ide更快地编写代码。我没有提到的另一件事是对Scientific模式的支持,它创建了单独的单元格,以便您运行更小的代码片段。
- 创建一个Notobook。当您准备创建ML或其他需要更多交互或图形的模型时,您可能想现在就创建笔记本。在PyCharm中创建笔记本是很重要的,它会为你设置正确的翻译版本。
- 编辑Jupyter Notebook。去Anaconda启动Jupyterlab。打开创建的笔记本,您可以开始编辑笔记本。
- 在完成这些步骤的过程中,不要忘记使用PyCharm中的集成工具向项目添加版本控制。
·END·