2017政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,“人工智能”也首次被写入了全国政府工作报告。百度李彦宏,腾讯马化腾都在两会上就人工智能发表意见。科大讯飞刘庆峰在朋友圈分享了讯飞听见支持两会直播的消息。结合上月科技部新闻,“科技创新2030—重大项目”或将新增“人工智能2.0”,人工智能在中国的政治、经济、学术领域都成为重中之重。这是中国 AI人最好的时代——2017年,中国人工智能迎来真正的新纪元。
前言
终于,我们公众号迎来了深度学习系列文章,从本期开始,我们将无限期更新深度学习系列文章,对于深度学习系列文章,我们将从理论和实践两个专栏展开,对于理论部分,我们从深度学习的理论基础,从诞生到它发展途中的各种理论都尽量给大家一一分享,对于实战系列文章,我们的计划是采用开源的并且受欢迎的两大框架keras和Tensorflow进行实战操作分享,实战内容包括图像识别,目标检测,人脸检测等等,真心期盼大家都能跟着小编的文章一直走下去,哪怕是作为一种短篇新闻阅读也足以,小编一直希望能够有一天对社会教育事业做出自己微薄的贡献,尽可能的促进公平教育,知识免费分享。如此才能更好,更快的帮助那些想要学习的同道们。如果某一天,中国的14亿人口70%以上都是教育人才,知识储备者,那么,中国将会做到真正的伟大复兴,无人敢欺,奋斗吧,未来可期!
前面说了那么多慷慨的话,接下来就正式进入主题了!
1深度学习之前世
提到深度学习就不得不提到人工智能和机器学习,他们之间是一个包含关系,怎么说呢?其实,人工智能涉及的是一个广泛的概念,有多广泛呢?可以这么说,只要是你认为觉得比较智能的操作(例如物联网,车联网,机器人,自动驾驶等等)而且又在一定程度上能够减轻甚至代替人类工作的东西和研究都可以认为是广义的人工智能,那么问题来了,机器学习和深度学习与人工智能又有着什么千丝万缕的联系呢? 早期其实并没有机器学习这个词语,机器学习是人工智能场景下的一种实现方法,也就说通过机器学习这个方法能够实现人工智能,所以,我们说个简单点,机器学习就像一个普通的加减乘除的方法一样(战略上藐视,战术上重视哦),它是人工智能的一种实现方法(为什么说是一种方法呢?因为还有深度学习,强化学习,量子计算等等啊),在以往,如果要做人脸识别(深度学习之前),科学家们都用的是传统的机器学习,通过手工的特征提取等方式实现(比如说,像素统计分析,人脸长宽比例等等),随着机器学习技术用到各种各样的领域,也就渐渐的产生了人工智能一说,为啥呢?因为机器学习方法实现的东西在一定程度上具有了智慧,还在很多方面代替了人们工作,因此,人工智能也就慢慢诞生了,至于为什么会出现深度学习呢?主要是两个方面的原因,一是,随着机器学习的发展,它遇到了一个个难题,首先是特征提取问题,机器学习需要对各种学习的任务手动的提取特征进行训练,浪费了太多人力和精力,因此促使科学家们不得不寻找一种可以自动学习特征的方式代替手工提取特征,第二个原因就是,随着它的发展,数据量越来越大,动不动几万,几十万,这样大的数据对于手工提取特征来说显然不行,因此,深度学习(那个时候还不叫深度学习)诞生了,而且它的效果还不错,不需要科学家知道它学习了哪些特征就能得出很好的效果,只需要准备数据和训练就行,是的,的确不错,但是深度学习在上世纪出现后直到2006年之间差不多处于发展滞期(后文讲解为啥)。
因此,我们可以了解到深度学习和机器学习都是人工智能的实现方法,它们的包含关系为,人工智能包含机器学习,机器学习包含深度学习(为啥呢?因为深度学习也是机器学习的拓展,另一种方式啊),如果非要说人工智能和机器学习谁出现的比较早的话,应该是机器学习这个方法出现在前,后面才有了人工智能的说法,随后深度学习推动了人工智能的进程直至今天。
2深度学习之今生
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。
自2006年Hinton等人提出“深度学习”概念至今,深度学习在海量数据的挖掘分析中发挥了巨大的价值,深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
前面我们说到,深度学习在上世纪存在一段停滞时期,为什么呢?首先是理论问题,深度学习在构建多层神经网络时,由于当时的BP(反向传播,决定数据是否可进行深层训练)算法并没有完善,导致无法进行深层网络的学习,然后是硬件问题,因为设计到大量数据的训练,然而当时的硬件又跟不上,主要是显卡和内存跟不上,导致深度学习进入了一段低谷时期,直到21世纪初期,PC硬件和BP理论发生了翻天覆地的变化,深度学习进入了平稳的发展阶段,直到2015年谷歌用深度学习训练的阿尔法机器人打败了世界围棋大师,深度学习一炮而红,进入了深入的发展时期,直到今天,深度学习也在火热的发展,深远的影响了当前社会的多个领域,如今的深度学习主要应用领域为计算机视觉、自然语言处理、语音识别等领域。
- 计算机视觉(Computer Vision,CV)
何谓计算机视觉呢?计算机视觉是一门研究如何使机器“看”的科学,具体的说,就是用摄影头或者电脑电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
一句话概括,计算机视觉最终的目的就是让摄像头和电脑代替人眼的功能(追踪,识别,检测,判断等等),同时代替了一部分大脑的处理能力,目光所致,皆能看清,能力所至,远超大脑。
当前计算机视觉主要包含以下方向:
1)图像识别
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。现阶段图像识别技术一般分为人脸识别与商品识别,人脸识别主要运用在安全检查、身份核验与移动支付中;商品识别主要运用在商品流通过程中,特别是无人货架、智能零售柜等无人零售领域 。
当然,图像识别现在已经不局限于以上两种,目前以前扩展到生活中常见的识别,比如猫狗,车子,房子,票子,人种,垃圾,植物等等,当然目前用的最火的还是人脸识别。
目前,在图像识别领域,深度学习主流网络模型有:LeNet、AleNet、VGG、Inception、ResNet等等,他们中大多数都在mageNet大规模视觉识别挑战赛(ILSVRC)上表现出了惊人的效果。
2)超分辨
超分辨指的是图像的超分辨,当然也包括视频,超分辨的意思就是更高的分辨率,比如说给你一张分辨率较低的图片,我们几乎都看不清内容是什么,怎么办呢?这就需要超分辨率技术了,然而传统的超分辨技术实现效果却并不好,特别是针对大量低分辨图像时,也无法保证质量和速度的综合性能,深度学习的出现使得图像超分辨向前迈进了一大步,特别是低质量图片,遥感照片等等。得益于硬件的迅猛发展,短短几年间,手机已更新了数代,老手机拍下的照片在大分辨率的屏幕上变得模糊起来,数字高清,通过这种方法来提高分辨率,显微成像:合成一系列显微镜下的低分辨率图像来得到高分辨率图像,卫星图像:用于遥感卫星成像,提升图像精度,视频复原:可以通过该技术复原视频,例如老电影
同样地,图像分辨率的提升使得网络带宽的压力骤增。如此,图像超清化算法就有了用武之地。对于存放多年的老照片,我们使用超清算法令其细节栩栩如生;面对网络传输的带宽压力,我们先将图像压缩传输,再用超清化算法复原,这样可以大大减少传输数据量。
目前,在超分辨率领域,深度学习的主流网络模型有,FSRCNN、ESPCN、VDSR、DRCN、RED、DRRN、LapSRN、SRDenseNet等等。
3)图像分割
图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像素赋予相同的编号。
目前,在图像分割领域,深度学习的主流网络模型有:FCN、
U-Net、SegNet、空洞卷积(Dilated Convolutions)、RefineNet、PSPNet、DeepLab系列。
4)目标检测
图片分类任务我们已经熟悉了,就是算法对其中的对象进行分类。而今天我们要了解构建神经网络的另一个问题,即目标检测问题。这意味着,我们不仅要用算法判断图片中是不是一辆汽车, 还要在图片中标记出它的位置, 用边框或红色方框把汽车圈起来, 这就是目标检测问题。其中“定位”的意思是判断汽车在图片中的具体位置。
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。
目标检测定位图像中目标的存在,并在该目标周围绘制一个边界框(bounding box)。这通常包括两个过程:预测目标的类型,然后在该目标周围绘制一个框。
目前,在图像分割领域,深度学习的主流网络模型有:
R-CNN(2013)、SPP-NET(2014)、Fast-CNN(2015)、Faster-CNN(2015)、SSD,YOLOv1、YOLOv2、YOLOv3....
2.自然语言处理(Natural Language Processing,NLP)
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
3.语音识别
语音识别正在「入侵」我们的生活。我们的手机、游戏主机和智能手表中都内置了语音识别的程序。它甚至在自动化我们的家园。声音从本质是一种波,也就是声波,这种波可以作为一种信号来进行处理,所以语音识别的输入实际上就是一段随时间播放的信号序列,而输出则是一段文本序列。
当前,语音识别主要使用深度学习中的时间序列网络,RNN、LSTM等网络。
3深度学习之未来
人类视觉是一个智能的、基于特定方式的利用小或大分辨率的视网膜中央窝与周围环绕区域对光线采集成像的活跃的过程。未来在机器视觉方面会有更多的进步,这些进步来自那些端对端的训练系统,并结合ConvNets和RNNs,采用增强学习来决定走向。结合了深度学习和增强学习的系统正处在初期,但已经在分类任务中超过了被动视频系统,并在学习操作视频游戏中产生了令人印象深刻的效果。
在未来,自然语言理解将是深度学习做出巨大影响的另一个领域。预测那些利用了RNNs的系统将会更好地理解句子或者整个文档,当它们选择性地学习了某时刻部分加入的策略。
最终,在人工智能方面取得的重大进步将来自那些结合了复杂推理表示学习(representation learning )的系统。尽管深度学习和简单推理已经应用于语音和手写字识别很长一段时间了,我们仍需要通过操作大量向量的新范式来代替基于规则的字符表达式操作。
未来,深度学习将会融合5G,嵌入式设备,物联网,车联网等新技术不断更新自身,最终在我们的社会生活中落地开花,处处深度学习,遍地人工智能……
END
结语
本次文章,我们从深度学习的诞生以及到人工智能的延伸进行了分析,同时对深度学习的前世、今生、未来进行了一定的总结,本篇文章是深度学习系列第一篇文章,我们主要对深度学习做了一个概述,在下一期的深度学习文章中,我们将对深度学习所需要的基本技能和数学基础进行一定的分享,当然不一定会是下周的文章,深度学习系列文章会不定期更新,至于小伙伴们期待的实战系列文章,小编目前的安排是,我们先讲理论,当理论可以直接进入实践的时候,小编将会通过实际的项目来进行实践操作,保证理论与实验同步进行。