业界 | 数据科学家要先学逻辑回归？图样图森破！

大数据文摘编译作品

编译：王梦泽、笪洁琼、夏雅薇

逻辑回归的结果很难解读，在真实的商业环境中考虑到你要跟你的老板或同事解释模型的时候，有可能自己都无法解释清楚，所以慎用纯粹的逻辑回归，尤其是对于初学者来说，这是作者对逻辑回归的建议。

近期，数据科学圈出现了不少“数据科学家应最先学习逻辑回归”的声音。作为一名与市场营销人员、销售人员、工程师一起工作的“孤立的”统计学家，我深深反对这一说法！

有许多工作尤其是生物统计领域都要求从业人员能够掌握并运用逻辑回归的知识。如果你在大学曾学过一些逻辑回归，这会对你很有帮助，但对于初学者来说，它并不是入门课程。

在我的职业生涯中，我可以灵活地选择使用哪些方法和工具，如今许多从业者都处于类似的环境中。

因此有一定的几率，初学者在对逻辑回归的原理了解很少的情况下，使用像黑盒工具一样的逻辑回归，然后把自己拉入深坑。

下面列出了5条逻辑回归应放在最后学习的理由：

存在着上百种不同类型的逻辑回归，一些适用于分类变量，一些适用于特定的分布（例如泊松分布）。专家在使用时也常常感到困惑，初学者和你的老板更会如此。
转换因变量后（通常是比例或二值型因变量，例如本文观点正确/错误），问题就变成了线性回归。虽然纯粹主义者声称实际的逻辑回归模型更精确，然而相较于模型的精确度，数据的质量才是至关重要的。如果数据有20%的噪声，或者理论模型是对实际情况的粗略估计，那么模型精确度高出1%并没有实际用处。
除非能够妥善处理（例如使用ridge或Lasso回归），否则在噪声、缺失值和脏数据的影响下会导致模型过度拟合及缺乏稳健性（使用例如梯度优化等技术的迭代算法）。
逻辑回归的系数不容易解释。当你对决策者或者其他部门解释模型时，很少有人能够理解。
最好的模型通常会将多种方法混合到一起，以便能尽可能多的获得/解释差异。在我作为数据科学家长达30年的职业生涯中，从未使用过纯逻辑回归，但我开发出了一项更加稳健且便于使用及编程的混合技术，结果也容易解读。它将“不纯的”逻辑回归和“不纯的”决策树混合在一起，效果十分显著，尤其是对于你的“不纯”数据评分时。详情请戳。