本文内容选自加拿大约克大学数学统计系终身教授王晓刚于近期在清华大数据“技术·前沿”系列讲座所做的题为《统计学概论和医疗临床大数据分析》的演讲。
关注数据派THU(DatapiTHU)后台回复“191207”获取本文演讲完整PPT
王晓刚:任正非曾说人工智能就是统计学。我们一般对统计的认知有两个层面。第一个层面,很多人认为统计是一个非常容易的事情,就是数数。比如统计门诊接待了多少病人,其中有多少人是高血压。但是统计的另外一个层面,或者叫统计学,其实它有更深层的含义。
在解释更深层的含义之前,我们先说一下医工结合,这也是我的研究之一。医工结合是非常辛苦的一件事,世界上最远的距离是医和工的距离。因为从根本上讲,工程师认为世界上什么事情都是确定的,但医生认为是不确定的。而统计学正好是医工之间很好的桥梁,因为统计学是在不确定的情况下找到确定性——既承认有不确定性又要在杂乱无章当中找到模式或者说确定性。
统计讲的是一种朴素的哲学思想,虽然有几百年的历史但也是一个比较新的学科,人们对它的认识有很多误区,就是因为statistics在英文是两个含义:一个含义是你可能在数的数,还有一个含义是统计学这门课程。如果你查字典,会看到统计是唯一一门能够科学地收集数据、处理数据和作为预测的一个学科。统计是唯一一个能够处理不确定性的科学,而在诊断的时候有大量的不确定性,所以统计才是医工结合的桥梁。统计第一要处理不确定性,第二要给出可预测性。
统计学和人工智能也有很大的联系。在国外,人工智能逐渐步入理性阶段。在AlphaGo出现之后,人们认为人工智能无所不能,当跳进无数坑之后发现虽然不是什么都能干但挺有用。一个很典型的例子,就是很多有名的项目说得很好,到最后没办法实现。
国外发现人工智能的问题有时候不在于算法而在于概念不清,界定不对,维度不高。当维度根本不够高的时候,无论机器有多强,无论算法有多好,都算不精准。有些人说他们算得精准因为他们只会想哪些case我算得准,算不准的就不说了。而维度不高的原因,大部分是在收集数据之前没有对问题进行透彻的分析,收集数据时也没有下太多功夫。
现在深度学习在医学图像上取得了革命性突破,但依然存在很多问题,比如准确度衡量标准的问题。一般来说准确率的衡量标准有特异性和敏感性,在数学上和统计上可以证明,敏感性、特异性经常是不能兼顾。
以前做人工智能的人认为敏感性越高越好,但他们没有考虑医疗费用的维度,如果发病率是10%,特异性是70%,也就是说这个人没有病的准确率是70%,那意味着90%没病当中的人,其中30%有误报,这样会把20%的人吓到医院里,造成医院拥堵,淹没真正需要救治的人。此时算法的敏感性越高,造成的问题越多。
过去很多文章说的准确度其实都是敏感度。以前很多号称高敏感度的其实并不可靠。因为是有一定的“作弊”嫌疑。比如有一个模型,调参一定是用模型的数据。再用这个调完的参数模型,反回来预测那些数据,一般来说效果不会差。所以现在深度学习要么特别管用,要么特别不管用。
从表面上来看,统计无非就是数据整理、数据挖掘、模型建立,知识转化和预测未来,然而真实的统计不是这样的。很多人都集中在模型的建立和算法这里,然而对数据整理和挖掘的重视程度不够。
但是对于统计学,还要关注什么样的数据支撑你的问题、采集数据的方式及数据的整理;如何处理缺失数据、高噪声数据和违反常理的数据;数据挖掘的时候,如何选取有效维度,如何判定噪声;模型建立后,模型的适用范围和优缺点都要考虑。
以统计的观点,所有的模型都是错误的,因为会有数据采集的偏差、维度的缺失以及性能刻画不足,但并不影响使用,只要知道模型有缺陷就好。还有就是要多和医生交流,不断迭代模型。
中国的文化博大精深,下面从道和术的角度讲讲统计。你要有战术,也要有战略。宏观和局部都要有考虑,或者说是维度和度量的使用是不是正确。要尽可能包含所有维度,选取合适的度量标准。
下面讲下统计当中常见的问题:
- 大家总认为统计显著性是线性,但在医学中这种关系经常是非线性。
- 在医学统计中,要关注这个人他跟普通人的区别在什么地方,不能直接用统计规律。
- 这种乱的线点做统计分析的话,根本不会有任何显著性。
但如果按人群细分,会得到不一样的结果。比如逛商场的时间和年龄的关系,假设女性年龄越大,逛商场时间越长,男性年龄越大,逛商场时间越短,这两条线是交叉的。如果你做线性回归并不显著,因为根本就不是一类人,如果你做两条线,你会发现特别显著。
统计学如同写诗、作画、雕塑、烹调。统计绝对不是下载数据、训练模型、调参就结束了,而是一个反复的过程。你要考虑到所有的因素,以烹调为例,我有一个特别好的锅,功率特别大,我有充足的油。可是如果你不洗菜,菜里全是沙子,没人能吃这个东西。你首先得要选择好的食材并认真清理,然后你的火候还要到,肉的品质还要好。如果原始数据就有很大的问题,无论怎么做最后都是有问题。
我基本上就讲这么多,希望大家能对统计学有了一个初步的了解,谢谢大家。
关注数据派THU(DatapiTHU)后台回复“191207”获取本文演讲完整PPT
编辑:黄继彦
校对:王欣