综上所述,我们觉得有必要,也有义务,通过一系列的课程,为大家详细讲解一下机器学习,这套课程,我们暂且命名为:
《机器学习理论与应用》
课程内容主要从基础理论出发,通过文献实例,给大家解读机器学习在生物学研究和临床当中的应用,最关键的是,把操作方法教给大家,让大家通过机器学习方法改进自己的科学研究。
基本概念
按照网络通用的定义,“机器学习”是研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征,最前沿的研究领域之一。自 20世纪80年代以来,机器学习领域的研究工作发展很快,已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。
一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究主要分为两类研究方向:第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识
关于上面这张图,非常巧妙且精辟地总结和展示了从“数据”到“影响力”的过程,我们如何基于数据本身而延伸出对他人知识体系的影响呢?你是否能看懂这张图?请细细品味。
生物信息与机器学习
随着基因组和其他测序项目的不断发展,生物信息学研究的重点正逐步从积累数据转移到如何解释这些数据。目前,生物学的新发现极大地依赖于多维度和不同尺度下对多样化的数据进行组合和关联的分析能力。大量的数据,在生物信息的存储、获取、处理、浏览及可视化等方面,都对理论算法和软件的发展提出了迫切的需求。另外,由于基因组数据本身的复杂性也对理论算法和软件的发展提出了迫切的需求,而机器学习方法例如神经网络、决策树和支持向量机等正适合于处理这些海量的数据。
应用场景
很多人虽然知道所谓的人工智能或者机器学习的概念,但是并不了解这些技术在医学领域和生命科学中的具体应用场景,下面我们就从几篇文章中给大家看看机器学习到底能帮我们做点什么?为什么沾上机器学习的边,我们的科研就会马上变得“高大上”起来。
先说说,机器学习与影像识别。这个是大家最容易想到的,也是目前商业化做的最前沿的方向。无数高科技公司都在做图像识别,比如,胸部CT的读片,或者病理切片的读片等等。
通过大量的肺部CT影响去训练机器学习模型,然后对不同类型的肺结节做出精确的判断。这在很多商业公司中都有成功的案例。
其次,我们来看看机器学习与药物研发。在以前,新药研发往往是一个耗时超长,耗资巨大的工程,但是有了机器学习和一系列的高通量筛选工具之后,极大地提高了药物研发的效率。从靶向药物的鉴定及验证,化合物的筛选,再到临床实验,都有一系列的机器学习工具支持整个流程的优化。
然后,我们来看看和临床最为相关的,就是机器学习与诊断(预后)模型。我们常规的疾病诊断和预后多是通过一些单一的指标进行评估的,这样的模型往往统计效能不高,为了提高疾病诊断的阳性率和准确性,通过构建一些机器学习模型,比如SVM、KNN等,可以轻松实现很大的提升。
最后,我们来看看机器学习与基因组学。可以说,这样的文章和研究数不胜数。比如,下图中我们找到的这两篇文献:一篇做的事髓系白血病的单细胞测序,一篇做的中枢神经系统肿瘤的甲基化。都是基于大样本和大数据进行的生物信息分析,而其中很多分析方法都用到了机器学习,比如最常用的:聚类。
好的,关于机器学习的基础内容,我们先讲到这里。本期我们主要对机器学习的基本概念和用途做一了解,下期内容,我们详细解读聚类算法中的经典算法:K-means聚类。