编者按:本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授(交流微信号:2823095726)。
陈遵秋和陈漪伊夫妇是美籍华人,现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表,与大家一起探讨。
现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90%以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。
大数据定义及其特征
大数据顾名思义就是数量极其庞大的数据资料。从上世纪80年代开始,每隔40个月世界上储存的人均科技信息量就会翻倍 (Hibert & Lopez, 2011)。2012年,每天会有2.5EB量的数据产生 (Andrew & Erik, 2012)。现在,2014年,每天会有2.3ZB量的数据产生 (IBM, 2015)。这是一个什么概念? 现在一般我们电脑的硬盘大小都以GB,或者TB为单位了。1GB的容量可以储存约5.4亿的汉字,或者170张普通数码相机拍摄的高精度照片,或者300-350首长度为5-6分钟的MP3歌曲。 那GB和TB, EB,ZB的关系又是怎样? 1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一台1TB硬盘容量的电脑,那1ZB就是大致等于10亿台电脑的容量,远远超出了我们一般的想象。
早期,IBM定义了大数据的特性有3个:大量性( Volume), 多样性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后来又有学者把价值(Value)加到大数据的特性里。随着时间的推移和人们思考的进一步完善,又有三个大数据的特性被提出: 易变性(Variability),准确性(Veracity)和复杂性(Complexity)。
作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度,和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战,而价值则是征服这些挑战后获得的回报。
大数据的6个特性描述如下:
大量性:一般在大数据里,单个文件大量性的级别至少为几十,几百GB以上,一调查 (Russom, 2013)显示相当多的机构拥有的数据总量在10到99TB之间。用我们传统的数据库软件,1GB已经可以储存千万条有着几百个变量的数据记录了。 多样性:泛指数据类型及其来源的多样化 (Troester, 2012),进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured),和非结构化(unstructured) (SAS, 2014) 。 快速性:反映在数据的快速产生及数据变更的频率上。比如一份哈佛商学院的研究报告称在2012年时,谷歌每天就需要要处理20PB的数据 (Harvard Business Review, 2012)。 易变性:伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值 (Troester, 2012)。 准确性:又称为数据保证(data assurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低 (W.Raghupathi & Raghupathi, 2014)。所谓“垃圾进,垃圾出”。没有数据保证,大数据分析就毫无意义。 复杂性:复杂性体现在数据的管理和操作上。IT时代,随着数据来源及数据量的爆发,各种不同渠道数据的大量涌现,数据的管理和操作已经变得原来越复杂。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得越来越有挑战性。
医疗大数据的爆发
早期,大部分医疗相关数据是纸张化的形式存在,而非电子数据化存储, 比如官方的医药记录,收费记录,护士医生手写的病例记录,处方药记录,X光片记录,磁共振成像(MRI)记录,CT影像记录等等。
随着强大的数据存储,计算平台,及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化。 有报告显示,2011年,单单美国的医疗健康系统数据量就达到了150EB。照目前的增长速度, ZB(约1021GB)和YB(约1021GB) 的级别也会很快达到 (IHTT, 2013)。Kaiser Permanente,一个在加州发展起来的医疗健康网络系统,就有9百万的会员,被认为拥有26.5到44PB的电子健康记录 (IHTT, 2013)。
IT时代涌现的还有各种网络社交媒体数据,比如曾经Google用来预测流感的数据。基因数据也是非常庞大的存在,一次全面的基因测序,产生的个人数据则达到 300GB (Leah, 2014)。公开发布的基因DNA微阵列达到50万之多,每一阵列包含数万的分子表达值。在生物医药方面,功能性磁共振影像的数据量也达到了数万TB级别,每一幅影像包含有5万像素值 (Fan, Han, & Liu, 2014)。 此外,各种健身,健康可穿戴设备的出现,使得血压、心率、体重,血糖,心电图(EKG)等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”,按“秒”计算。比如,一家名为Blue Spark的科技公司已经生产出能24小时实时监测体温的新型温度计贴片temptraq。
这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门,可能是无格式文件(flat file),CSV,关系表,ASCII/纯文本文件等等。 同时,数据的来源也纷繁复杂,可能来自不同的地区,不同的医疗机构,不同的软件应用。不可否认,一旦理顺了多格式,多源头,呈爆炸性成长的大数据的整合和分析,医疗大数据将对提高医疗质量,强化患者安全,降低风险,降低医疗成本等方面发挥无与伦比的巨大作用。
医疗大数据的优势和应用场景
有效的整合和利用数字化的医疗大数据对个体医生,康宝中心,大型医院,和医疗研究机构都有着显著的好处。 潜在的利益包括 (W.Raghupathi & Raghupathi, 2014):
1)更多更准确的数据使得疾病能在早期被监测到,从而使治疗更容易和有效。 2)通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。 3)基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势,比如:预测特定病人的住院时间,哪些病人会选择非急需性手术, 哪些病人不会从手术治疗中受益,哪些病人会更容易出现并发症,等等。麦肯锡估计,单单就美国而言,医疗大数据的利用可以为医疗开支节省出3千亿美元一年。
医疗大数据的利用可以从以下几方面减少浪费和提高效率 (Manyika, 以及其他人, 2011): 临床操作: 相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗病人。
研究和发展:在药品和医疗器械方面,建立更低磨损度,更精简,更快速,更有针对性的研发产品线。统计工具和算法方面,提高临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和病人的病历,以确定后续的迹象,并在产品进入市场前发现病人对药物医疗方法的不良反应。 公共卫生:分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快更准确地研制靶向疫苗,例如:开发每年的流感疫苗。
此外,医疗大数据的分析还有利于以下几方面的发展 (W.Raghupathi & Raghupathi, 2014): 循证医学:结合和分析各种结构化和非结构化数据,电子病历,财务和运营数据,临床资料和基因组数据用以寻找与病症信息相匹配的治疗,预测疾病的高危患者或提供更多高效的医疗服务。 基因组分析:更有效和低成本的执行基因测序,使基因组分析成为正规医疗保健决策的必要信息并纳入病人病历记录。 提前裁定欺诈分析:快速分析大量的索赔请求,降低欺诈成功率,减少浪费和滥用。
设备/远程监控:从住院和家庭医疗装置采集和分析实时大容量的快速移动数据,用于安全监控和不良反应的预测。
病人的个人资料分析:全面分析病人个人信息(例如,分割和预测模型)从中找到能从特定健保措施中获益的个人。例如,某些疾病的高危患者(如糖尿病)可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性的预防病情,那么大多数的危害可以降到最低程度,甚至可以完全消除。
然而,根据一份针对美国和加拿大333家医疗机构及10家其他机构的调查 (IHTT, 2013),2013年,医疗机构累积的数据量比2011年多出了85%, 但77%的医疗健康行政人员对自己机构在数据管理方面的能力评价为“C”。此外,仅有34%报告他们能从电子健康记录(EHR)中获取数据用来帮助病人,而有43%报告他们不能收集到足够多的数据来帮助病人。由此可见,在北美的医疗系统中,医疗大数据的管理使用准备工作还有一大段路要走。中国也是处在起步阶段。
数据分析框架(传统数据分析框架,大数据分析框架)
医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时,大数据随之带来的各种特性使得传统的数据处理和数据分析方法及软件捉襟见肘,问题多多。在大数据时代出现之前,受限于数据量的可获得性和计算能力的有限性,传统的数据管理和分析采用着不同的思路和流程。传统上,对于问题的研究建立在假设的基础上进行验证,进而研究事物的相关因果性,希望能回答“为什么”。
而在大数据时代,海量数据的涌现提供了从不同角度更细致更全面观察研究数据的可能,从而打开了人们的好奇心,探索欲望,人们想知道到数据告诉了我什么,而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联,非关联等相关性,然后再进一步比较,分析,归纳,研究(“为什么”变成一个选项而不是唯一终极目标)。大数据与传统数据思路上的不同导致了分析流程的不同,如图一所示: 图一
面对海量的数据和不同的分析思路,大数据的管理和分析与传统数据分析的差异日益加大。回答特定问题的单一预设结构化数据库明显不能完全胜任处理大数据的海量及混杂等问题。数据的混杂多样性具体可以从一些调查数据中表现出来。SAS的一份调查报告显示机构内的非结构化数据最多可以占到总数据量的85%,而这些非数字,非结构化的数据却必须被量化分析和用到决策分析中 (Troester, 2012)。
另一份2013年进行的SAS调查报告显示在461个提供完整反馈信息的机构中只有26%的机构表示他们所拥有的大数据是结构化的 (Russom, 2013)。 此外,在机构中,分析的数据一般不会只有一个单一的来源。Alteryx的调查报告显示在200家被调查的机构中只有6%的机构表示他们的数据是只有一个来源,最为普遍的情况是5-10个来源,具体分布如图二 (Alteryx, 2014)。 调查中还显示90%的被调查样本表示有数据整合问题,37%表示需要等其他小组提供数据,30%表示不能得到他们想要的数据,一般估计是一个数据分析师的60%到80%的时间是花在数据处理准备阶段上的 (Alteryx, 2014)。 图二
由此可见有效的数据管理,数据库建立及数据分析流程的重要性。传统的数据管理的过程包括抽取(Extraction),转换(Transformation)和载入(load)。通过ETL,可以赋予数据一种合适恰当的结构用于特定的分析发现。具体数据准备分析流程如图三所示:1)抽取单个或多个来源的数据 。2)净化,格式化,标准化,聚合,添加,或遵循其他特定的数据处理规则。3)载入处理完的数据到特定的数据库或储存为特定的文件格式。4)采用各种方法进行数据分析。 图三
ETL的中心内容仍旧适用于大数据,但由于大数据的大量性和多样性对数据库和数据管理及处理方法的要求越来越高,也越来越复杂,这样线性处理整个数据变得相当耗费人力,物力,和时间。 此外,大数据的快速性,易变性也使得把数据储存在单一的中央数据库变的不太可行。 在这种情况下,最流行的思路是把数据分割处理,也就是把数据储存到多个储存节点(比如网络数据库),在每个节点单独处理数据(甚至处理完就接着进行初步分析,但处理的程度依客户具体问题而调整),然后再汇总整合到一起,提供给单个或多个数据库,接着根据需要选择合适的分析方法获取有用结果。ETL贯穿于整个大数据管理分析的流程中。图四演示了大致的大数据管理分析流程及一些大数据处理分析平台工具的名字。 图四
SAS的数据仓库研究院(TDWI)针对现今存在的大数据处理分析平台工具进行了一项调查以帮助人们在选择软硬件进行大数据分析时能做出更好的决策。针对大数据技术,特点,和使用者操作,调查提供了三个选择:1)现在使用中,并且会继续使用。2)会在三年中开始使用。3)没有计划使用。图五左侧显示了对于各种大数据分析平台工具,被调查人员的回复比例。图五的右侧显示了平台工具可能的潜在成长和对采用此工具做出承诺的被调查人员比例。 图五
根据潜在成长和承诺的综合考量,此调查还进一步把大数据分析平台,工具分成4组:第一组为适度的承诺,中度到强的成长潜力;第二组为中度至强有力的承诺,适度增长潜力;第三组为弱到中度的承诺,适度增长潜力;第四组为中度至强有力的承诺,弱增长潜力。图六显示了这些组别的内容分布。限于篇幅,本文不详细介绍所列的每一平台工具的具体内容,感兴趣的读者可以参考文献获取更详细的介绍。 图六
图五和图六都显示了最流行的平台和数据处理方式为开源免费的Hadoop和MapReduce。伴随着他们的潜在成长和承诺程度,可以预见,Hadoop和MapReduce正在并会继续推动和促进大数据的处理和应用。
在此,我们简单介绍一下Hadoop和MapReduce的概念。Hadoop是一種基于Java的分散式数据处理框架。它可以提供对储存在多个硬件设备上的数据进行高吞吐率的读写。更重要的是,它对大数据具有高容错性 和对并行应用程序的高可用性。Hadoop框架结构由若干名字节点(NameNode)和数据节点(DataNode)组成。一份数以万计,百万计的大数据文件会被分割成更小的文件信息块储存在多个数据节点里,可以是任何计算机硬件设备。 有关这些文件的数据属性资料信息称作metadata则被存储在名字节点里(NameNode). NameNode主要管理文件系统的命名空间和客户端对文件的访问操作记录。Hadoop的框架结构如图七: 图七
当访问和操作数据文件时,客户端会联系名字节点提取文件信息块的属性信息比如位置,文件名等。然后根据这些属性信息,客户端直接从相应的数据节点同时读取数据块。Hadoop本身具有冗余和复制功能,保证在单个硬件储存设备出现故障时数据仍旧能被恢复而没有任何损失,比如每个数据节点默认拥有3个备份之类。 此外,在有新数据节点添加到框架中时,Hadoop还可以自动平衡每个数据节点的数据载有量。同样,名字节点也可以拥有冗余和复制功能,用于在单个储存数据属性信息的名字节点出现故障时可以恢复相应的数据属性信息。
MapReduce则是一种可以用来并行处理大数据的编程模型。同一程序在Hadoop的框架下可以用各种不同的语言(Java,Ruby,Python等)按MapReduce的编程模型进行编写和运行。其关键就在于三个词: map,reduce, 和并行处理。我们通过一个例子来理解MapReduce的大致工作原理。比如我们有一30个字的字符串“开落花缠落花绕缠开绕笑瓜夜村村舍舍瓜夜藤绕下下藤绕嬉嬉笑娃娃”,任务是计算每个字出现的次数。
最简单的方法是按序读取每一个字建立标识索引并计算出现的次数值存入内存,如果是新字,值为1,如果是出现过的字则次数值累加上去。此种方式是按串行的方式进行的,所花的时间会随着字符串的长度和复杂度程线性增长。当字符串是以万计百万计时,比如基因组数据,所花的时间将是相当惊人的。 并行处理则能节约相当多的时间。 我们先把原文件分割到几个小文件块,然后对每个小文件块进行字的标识索引和附加数值(这儿不进行累计,只是简单的单次点数),然后再排序重组把相同字放在一起,然后我们再用缩减法计算出字及其相应的出现次数值。图八显示了具体的例子步骤: 图八
大数据特性对统计应用上的际遇和冲击
大数据的独特性对传统的统计方法发出了挑战,刺激着新的,适用于大数据分析的统计方法的发展。本文提到的一些际遇和问题,一部分是作者自己的观点,一部分摘自其他文章( (Fan, Han, & Liu, 2014) (Wang & Wang, 2014)。
相较于统计文章的专业写作手法,作者试图用更浅显易懂的说法来介绍这些问题,让一般的读者对此也能有一定的了解并对此产生兴趣。传统数据一般来说是样本量远远大于感兴趣的因素,比如一数据有200条记录关于个人是否有心血管病,可能相关因素为性别,年龄,血压。这儿只有4个因素,但样本量为200(200>>4)。 而大数据则拥有海量的样本及相当多的因素。还是用心血管的例子,现在比如我们有了几万条记录的样本量,但同时也拥有了上百个的因素,各种以前没法收集的因素都收集了,像运动与否,运动量如何,运动类型,饮食习惯,饮食内容,喝酒与否,喝什么酒,喝酒习惯次数等等。这使统计中对数据的研究应用得到了新的际遇同时也面临了新的挑战。
数据异质性(heterogeneity)
数据异质性,可以简单理解成一个大样本数据里有很多小样本,每个小样本有着不同的数据特征,比如小样本的平均值有高有低,离散程度有密有疏,就好象海洋中有着不同温度,不同密度的各种洋流一样。我们不能简单的只在大样本的层面进行统计分析,这样得出的结果如果被用于对小样本或样本中的个体的估计或预测时就会出现偏差,因为每个小样本可能有着一些它自己独特的特征。
在数据样本小的时候,里面的小样本相应的就更小。 这种情况下小样本里的数据记录可能只有一,两个,它们只能被当作异常值处理,无法分析。而在大数据里,这种具有独特特征的数据记录收集出现多了,就拥有了被统计分析的条件,从而使我们更好地探究特定因素的关联性,理解这些数据异质性。比如有些只在特定人群里发生的极其罕见的疾病,大数据使我们得以研究发病原因,发病风险因素;理解为什么有些治疗方法对某些人群有利,而同样的方法对另一人群却有害,等等。 同样,由于海量样本和巨多的因素存在于大数据里,信息的复杂度也会增加不少,受复杂度的影响,可能导致统计上的过度拟合(overfitting)。过度拟合就是指我们建立了一个复杂的统计模型,它能很好的描述现有数据的情况,但当我们想把这模型应用到预测新数据时,它的表现却相当差。比如图九所示: 图九
图九左边上的曲线是我们针对蓝点(当作现有数据)做出的模型,基本上能很好的描述蓝点的分布及曲线和蓝点的吻合度较高。用这曲线去描述黄点(当作新数据),吻合度也还不错。图九右边的曲线则完全通过了每一蓝点,吻合度极高,完全描述了蓝点的复杂特性。然而,它在描述黄点时,吻合度就差多了,偏差就比左边的曲线大不少。简单来说,数据越复杂,需要考虑的因素越多,建立普遍有效的统计模型的难度就越大。
偏差识别(Bias accumulation)
分析数据时,我们需要估计或测试很多参数用以建立可靠的统计数据模型。期间不可避免会产生偏差,这些估计中产生的偏差积累,很大程度上受着数据量大小及参数多寡的影响。 在一般小数据时,这问题可以并不显著。但在大数据的情况下,这问题就变的相当值得注意。 我们用一简化的例子来说明这个问题。 假设我们有两组数据A和B,A组数据收集估算时没有偏差,所有样本数值都为1000。B组数据,实际所有样本数值也是1000,但存在偏差,而且偏差随收集样本量的增加呈指数式成长(为了说明情况,偏差指数式成长是一个很极端的例子)。每增加一个记录,偏差增长公式为:
这样B组第一个记录包含偏差为1.001=1.0011. B组第一个值为1000×1.001=1001. B组第二个记录包含偏差为1.002001=1.0012. B组第一个值为1000×1.002001=1002.001. B组第十个值为1000×1.01004512=1010.045.这样如果是小数据n=10, A组数据其实和B组数据比起来相差是不大的。B组内的每一个数字增加的偏差不足以引起注意,如果2%以内的偏差都可以接受的话。
然而当我们收集了1万个数据记录后,情况就发生了很大的变化。我们来看最后10个数据相差情况已经相当相当大了。
A组数据和B组数据,在拥有海量的数据样本的情况下,相差已是十万八千里了。图十显示了偏差随样本量增加的变化情况。在样本数量为4236左右,偏差的增加还不明显。一过4236,偏差则出现了惊人的增长。 图十
所以依此为判断的话,我们可以说在数据样本量4000左右,A组和B组比较,差别可能不大。但数据样本量大于4000以后,A组和B组比较,可能就会相当不一样了。这个例子充分说明了大数据相比较小数据而言对数据偏差更容易进行识别,从而发现数据收集过程中的问题并加以改善。
虚假相关(spurious correlation)
虚假相关,我们用一个例子来加以解释说明。这儿还是以前面提到过的心血管数据为例。现在只收集了200个记录,但每条记录都有100个各方各面因素的信息。这样,我们想看是否这100个因素和“是否有心血管病”相关。如此,我们进行两两检验测试: 是否有心血管病和因素一进行检验,是否有心血管病和因素二进行检验……是否有心血管病和因素一百进行检验。 每一个检验测试结果只会出现两种情况: 统计学上有意义和统计学上无意义。
统计学上有意义,简单来说就是认为心血管病和该因素有关。统计学上无意义就是认为心血管病和该因素无关。 在此过程中,你可能发现,大约会有5次在统计学上被认为与心血管病相关的因素,实际上从常识和现实来判断是没有任何关联的,也就是说统计学上有意义是错误的。这就是虚假相关。
为了让我们能知其然也知其所以然,这儿要解释一下“统计学上有意义”究竟是怎么界定的 。一般做检验测试时,我们会界定一个值,叫做第一类统计错误率。这个错误率通常被设定为5%,也就是说每100次检验测试,我们允许有5次在统计学上实际无意义的被错误判断为统计学上有意义(如果不允许统计错误率的存在,那就是100%的正确率,也就是说没有不确定性的存在。如果有这样的数据,就不需要做任何统计上的假设检验了)。
也就是说,如果实际不存在相关性,我们允许100次假设检验中出现5次错误相关。这就是以上例子中出现虚假相关的原因。 在面对庞大的海量数据和超多维度的因素时,当同时对一个数据进行许多检验测试时,不可避免会出现虚假相关。如何处理这个问题,统计学上还在做着进一步的研究。
无意义显著性(meaningless significance)
还有一种情况我们称为无意义的显著性 (Lin, Lucas, & Shmueli, 2013)。当我们做两组数据的分析比较时,如果A组,B组各只有1000个数据记录,我们测试两组数据的平均值是否一样,结果告诉我们统计学上无意义。也就是说,这两组数据的平均值无统计学上的差异。但当数据记录达到上万上百万时,测试的结果告诉我们统计学上是有意义的了。
这又是怎么回事?我们回到源头上去看,为什么要做两组数据的统计分析比较?不可以就算出两组的平均值,比一比他们是否相同吗?当然不可以,因为我们真正希望分析比较的结果是能够反映100%总体数量数据的客观现象。单纯孤立的比较两组各1000个记录的平均值,就是比大小,比出来的结论不能推广到100%总体数量数据的客观现象上。
但这两组数据等同于100%总体数量数据吗? 当然不是,就算是海量的大数据也并不能100%等同于总体数量数据。这样我们分析总结出的这两组数据的一些统计指标就会和总体数量数据的统计指标有一定的偏差。这个偏差一般有一个下限和上限,我们称为置信区间。真实的总体数量数据的统计指标就落在样本数据统计指标的左边或右边的一定范围内(置信区间)。
好了,我们实际要看的是A组总体数量数据和B组总体数量数据在平均值上是否一样,换种说法就是A组总体数量数据平均值减B组总体数量数据平均值是否等于零: 。现在我们只有A组样本数量数据平均值和B组样本数量数据平均值,表达符号就是和。要看的就是A组样本数量数据平均值减B组样本数量数据平均值的差值是否等于0: 但我们已经知道由于样本均分差的存在,样本平均值相减的差值不一定是零,而且这个差值有一定的置信区间。
那么我们实际上更精确的说是看0是否落在样本差值的置信区间内(置信区间的上限和下限和上面提到的第一统计错误率是相一致的,有一个5%的概念在里面,这儿就不详细介绍了。反正是否落在置信区间里否也可以用来判断统计学上是有意义还是没有意义)。落在里面我们就说是统计学上是没有意义的也就是两组数据的平均值是一样。不落在里面我们就说是统计学上是有意义的也就是两组数据的平均值不一样。如图十一所示: 图十一
那为什么在样本数据量为1000和 上万上百万的情况下结果会不一样。这儿我们进一步要讲的就是样本数量和置信区间之间的关系了。随着样本数量的增加,样本差值会和真实的总体数据差值接近(不一定就是0哦),同时不确定性会减小,置信区间会缩短,其实就是估计的差值越来越精准了。这种情况下,就算样本差值是非常接近0的一个数(就是说我们都觉得两组数据的平均值是一样的了),但是由于置信区间的缩小,0仍旧会落在置信区间的外面(如图十一,下部分2所示)。
这样一来,结果就会是统计学上是有意义的:两组数据的平均值是不一样的。现有的统计方法运用在大数据时会带来这样的一种错误信息。这是因为现有的传统统计方法是针对小数据的,在被提出的时候,还没有面对过或想到数据量可以如此庞大。如何解决如何改进由于这样的数据特性带来的问题,我们还在研究的路上。
羊群效应(herding effect)
大数据时代,我们的社会已经在越来越多的把个人的观点数字化,汇总化,并依赖于此做出决策(比如根据收集到的评分来进行产品或服务的推荐)。这一现象在医疗界也渐渐的变的普遍起来。好多辅助医疗应用软件在移动平台上都会有使用者的评分,人们会根据评分来选择是否使用一下。某些医疗网络平台推出的服务,比如网络问诊,使用者也可以对提供服务的医疗人员进行满意度的评分,进而影响他人决定是否选择此医疗人员来进行问诊咨询。
利用这种“众人的智慧”的一个关键要求是个人意见的独立性。然而,在现实的世界中,汇总收集的集体意见却很少是由互不相干的独立的个体意见所组成的。最近的实验研究证明先前已经存在的收集到的意见会歪曲随后个人的决策还有对质量及价值的认知。凸显出了一个根本的差异既: 我们从集体意见感知到的价值和产品本身固有的价值之间的差异。
产生这种差异的原因在于“羊群效应” 。羊群效应简单的描述就是个体的从众跟风心理和行为。羊群是一种很散乱的组织,平时在一起也是盲目地左冲右撞,但一旦有一只头羊动起来,其他的羊也会不假思索地一哄而上,全然不顾前 面可能有狼或者不远处有更好的草。因此,“羊群效应”就是比喻一种从众效应,很容易导致盲从,而盲从往往会陷入认知偏差,决策偏差。
IBM Watson 研究中心 (Wang & Wang, 2014)使用大规模纵向的客户评分数据集(亚马逊的)并建立统计模型演示了评分和意见的产生不是独立,均匀的过程,而是创建了一个环境进而影响以后评分或意见的产生。体现在这种社会化的客户评分系统中的“羊群效应”具体表现为:高评分倾向于产生新的高评分同时抑制低评分的产生。
接下来的问题就是:什么是真实的符合产品真正质量的评分如果我们能把“羊群效应”给剔除出去的话? 应用IBM Watson 研究中心建立的统计模型能够部分回答这个问题。他们对亚马逊的四类产品数据(书籍,电子产品,电影电视,和音乐)进行了内在评分(剔出“羊群效应”)和外在(没有剔出“羊群效应”)测试。所有四个类别,50%以上的产品评分的差异大于0.5。这个差异,说明我们从集体评分中得来的感知和产品的真实价值之间存在着显著的差异。
再深一步,鉴于产品现在的评分,如果我们施加一定的人为操纵,“羊群效应”会如何影响今后的评分?这样的预测分析对于很多领域都是相当有价值的,包括市场盈利估计,预算广告和欺诈操纵检测等。例如,在决定是否对以产品进行促销活动之前,市场分析师可能希望估计由于推广而出现的短期高评分对产品的长期影响。 研究中心通过对两类产品(电影电视,和音乐)插入50个人为5星级的评分,预测到虽然这两种产品在受欢迎程度上遇到类似的短期高评分,从长远来看,推广对于电影及电视类产品有着更持久的影响(高评分消减的更慢)。这对于市场分析的决策提供了很有价值的情报。
此类大数据中的“羊群效应”可以通过适当的统计方法加以消除,利用,以产生更有价值的信息用于决策分析中。 以上的各个例子充分说明了在大数据时代,虽然数据库等操作建立需要专业计算机人才的贡献,统计专业人员的参与也是必不可少的。数据的管理分析并不仅仅是提取,检索,简单汇总,总结。数据本身的复杂性,使得分析的过程中充满了种种陷阱,误区。没有一定统计方面的理论知识结构,就会出现分析上的偏差,或者低效率的数据利用。在计算机算法的基础上去学习认识数据统计的性质,把算法和统计分析结合起来是未来大数据分析的一个主要方向。
结论和展望
本文浮光掠影地讲述了什么是大数据,有选择性地描述了大数据的一些特性,医疗大数据及其在北美医疗系统中的现况,揭示了大数据分析将会对医疗卫生保健领域带来巨大的影响和冲击。 大数据通过对临床及其他数据存储库进行数据管理和分析获得前所未有的洞察力并依此做出更明智的决策。
在不久的将来,大数据分析的应用将会快速,广泛的涌现在整个医疗保健机构和医疗保健行业。本文描述的数据管理框架,数据统计分析揭示了大数据的有效应用是一个系统性的工程,需要一系列专业技能来保证大数据分析的成功,包括:处理,整合,分析复杂的数据并能帮助客户充分了解数据分析的结果。要做到这些 需要多方面的专业技能及特质,包括:
- 计算机科学/数据开发的专业技能:扎实的计算机科学基础及运用能力,明了大数据的基础框架设施。
- 分析和建模能力:在了解数据的基础上迅速分析并建立有效的统计模型。这不仅需要扎实的统计学,还需要有敏锐的思考和洞察力。
- 好奇心和创意的思考能力:这需要对数据有着一种渴望激情,善于全面敏锐的思考并挖掘问题。一些机构寻找人才就是看谁能在讨论数据时能够灵光一现。
- 突出的交流能力:整合数据和结果的分析报告,能清晰明了的用非专业语言帮助客户或公众正确理解数据分析结果并做出决定。
当然,我们很难找到一个人才具有以上所有技能,但通过团队分工合作建立起高效的大数据小组是目前可行的方向。从而, 在这个大数据分析变得更加主流的时代,把握时机,脱颖而出或百尺竿头,更进一步。