【技术创作101训练营】机器学习的有“米”之炊-数据处理

2020-09-22 10:25:07 浏览数 (2)

迟迟未进入机器学习领域,深感不安,但千里之行,始于足下,管他年龄30已过,还是其它什么,只要想做,只要不服输,未来还有三十年的征程。

俗话说“巧妇难为无米之炊”,无论是学会了决策树模型,还是线性回归模型,是SVM还是TensorFlow,我拿一堆乱七八糟的如我Windows中D盘里那个随便一个文件夹下存的资料,让它们几位活动活动筋骨,不用看都知道,它们会还给我一堆乱七八糟。自由输入的代价,亦是自由的输出。

模型需要各种各样结构化的数据,虽然我不会优化模型,不会创造模型,但是我会调用模型,所以我想方设法去满足模型。

以下,是我为了满足模型,做的思维导图(工具:百度脑图,导图优势:随时可根据知识的积累,让它变广,变深):

一:读取数据

首先从准备数据开始,无论我拥有了多少个文件夹的多少种数据,我首先要把它读到我的电脑里,让我能看到它们,才有可能操作它们,这里我展示了几种不同格式数据的读取方法:csv,json,xlsx,其中有用open打开,有用pandas的read打开,有用numpy的loadtxt打开,它们都是方法,达成读取数据的方法,黑猫白猫,抓住老鼠就是好猫,选一个自己熟悉的方法先完成这个步骤,然后在想办法去优化它。

二:了解数据及拼接数据

为什么把它们放在一起讲呢?因为在这里把所有的数据都准备好,无论是单纯叠加也好,或是缝缝补补也好,把数据在此准备完全,比后续清洗完了数据,才发现要再补点什么,要好得多。而拼接是建立在了解数据之上的,比如数据的宽度,限制纵向数据的联接,数据的高度,限制横向拼接。按行还是按列,按列名还是按其它,都得清楚,才能拼接。

三:清洗数据

数据清洗,数据准备的越适合于模型,未来模型反馈的效果也就越好,所以此处非常重要,如先处理缺失值,处理个别数据格式,对特殊数据值的修改替换,数据的排序操作,数据的增多或是一些计算数据的生成处理。应用中多得是,按照自己的需求,来操作清洗数据。

四:保存数据

当数据在不规则不规范的时候,洗它,当数据成为了想要的样子,保存它,这离模型就不远了。

做好做扎实这些工作,再去考虑模型的道与术,我相信我能行!

0 人点赞