导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结出来的一门学科,专门研究有关信息处理和可靠传输的一般规律。这一理论对计算机技术的发展具有重要意义。为了更好地阐述这一理论,让我们先来讨论几个大家耳熟能详的词:数据、信息、知识。
作者:徐晟
来源:大数据DT(ID:hzdashuju)
01 数据是一组有意义的符号
数据无处不在,只是它们没有实体。
过去,人们习惯把数字的组合称为数据。但在今天,这样的理解显然不够全面。那么是否可以把数字、字符、字母的集合称为数据?也不准确。
在今天“大数据”的语境中,数据是可以被记录和识别的一组有意义的符号,一般可通过原始的观察或度量得到。数据是对客观事物的逻辑归纳,可以用来表示一个事实、一种状态、一个实体的特征,或一个观察的结果,有些是用于描述某个对象的事实性数据,有些则是通过观察、分析、归纳得到的总结性数据。
数据可以是连续的,比如无线电通信时在空气中传输的电磁波,它们是模拟数据;数据也可以是离散的,比如在计算机中存储的文档和照片,它们是数字数据。
承载数据的形式有很多,不仅包括文字、数字、符号、图像、语音、视频,也可以是对某个事物的属性、数量、位置、关系的抽象表示。大气的温湿度、汽车的行驶路线、学生的档案记录、商务的合同,这些都是数据。
我们平时用电子设备看新闻、拍照片、买东西、打游戏,本质上都是在和数据打交道。在计算机中,它们是一连串包含有0和1的二进制数的组合。
02 信息是用来消除不确定性的
现在我们来明确一下什么是数据,什么是信息。当人们在研究甲骨文时,上面记录的符号仅仅是一些数据。要读懂这些数据,就必须了解数据背后要表达的含义。一旦对数据做出解释,我们就能得到甲骨文上的信息。
数据与信息既有联系,又有区别。数据是信息的载体,信息则需要依托数据来表达。它们是形与质的关系,两者密不可分。
信息由数据加工得来,它可以由数字和文字表达,也可以表现为其他具有意义的符号,其承载形式不重要,重要的是信息能让我们了解一些事情、鉴别一些真伪、佐证一些观点。也就是说,尽管数据存在的形式多种多样,但我们真正想要获得的是信息。
“信息”作为科学术语最早出现在哈特莱1928年撰写的论文《信息传输》中,在该论文中他首次提出了将信息定量化处理的设想。1948年,信息论创始人、美国数学家香农发表了一篇有着深远影响的论文—《关于通信的数学原理》,他明确指出了“信息是用来消除随机不确定性的东西”。
在香农看来,一旦我们想要对信息进行量化和比较,我们就不要去关注这些信息到底承载了什么内容,而是要看这条信息出现后,是否改变了某些不确定性事件的概率。今天这一定义已经被看作是对“信息”的经典定义,在各种场合不断被人引用。
无论是数字、字符或它们的组合,如果我们无法解读,就不能称其为信息。有一个重要的判断标准是,看它是否承载了有用的内容。无论是石头上刻的画、纸上写的字、墙上的涂鸦还是电脑中的文件,只要它们能表达确切的含义,就能认为是信息。
一串11位数字的号码,如果它是随机数字,则谈不上是信息。如果我告诉你,这串数字是我的手机号,它就消除了不确定性,它便是一种信息。信息是把人们不清楚的给说清楚的那些内容,如果已经知道了,就不能算作新的信息。
举例来说,今天任何一个小学生都知道地球是圆的,地球自转产生了白天和黑夜。这在今天看来是一个基本常识,但我们的祖先并不知道。如果我们把发明文字作为人类文明的起点,那么大约经过5000多年,也就是直到15世纪,人们才开始接受地球是一个大圆球的观点。
虽然“地球”对于今天的小学生来说不算是新的信息,但是对于古人来说,它不仅是信息,而且信息量巨大。
你或许已经发现了,信息会因场景而定,因每个人的主观认识而定。同一条信息,对一些人是有用的,对另一些人或许就没用了。
03 知识是对信息的总结和提炼
随意给出3个数字:68、21、192。这3个数字仅仅是数据。现在给它们加上一些说明,比如:衣服的价格是68元,今天的气温是21摄氏度,小明爸爸的体重是192斤。这些数据有了明确表达的含义,它们就是信息。
不仅如此,我们还能基于这些信息给出一些判断:衣服不是很贵,天气有点凉爽,男人该去减肥了。做出这些判断,需要依赖我们平时生活中积累的经验和常识,即知识。
知识是对信息的提炼和概括,它是高度概括的信息。如果说信息可以解答一些简单的问题,比如“谁”“在哪里”“做什么”,那么知识可以回答一些更具深刻认知的问题,比如“怎样”“为何”。
日常生活中最基本的知识是常识。比如明火不能碰、热油不能遇水、人有生老病死、月有阴晴圆缺,它们大部分来自生活,是大家认为都该懂得、不言自明的知识。今天很多约定俗成的常识,是由我们的祖辈口口相传、代代相承而来。人并不是天生就有常识,知道火为何物、火可伤人、火可熟食。很多道理都是从生活实践中总结而来的。
现如今,对于人工智能来说,要解决的核心问题是让计算机具有常识。很多常识背后有着复杂的知识体系,机器必须真正“理解”知识,而不是“记忆”它们。
举例来说,计算机或许能通过数据样本学习,知道人类有头、手、脚等身体部位,但它很难理解既然这些部位都长在人体上,为何只有头上有眼睛,手和脚上却没有?又比如,计算机学会并知道了“人有2只眼睛”,但它无法判断这个世界上是否存在“有1只眼睛的人”和“有3只眼睛的人”。
如今的人工智能只能从数据中学习到数据之间的联系,它还不能很好地处理有关常识的问题,这方面人们还有很长的研究之路要走。
以上讨论的“知识”,指的都是人脑中的知识。它和计算机要处理的“知识”是不同的。从本质上讲,计算机只是模仿人类的知识,它们并没有真正掌握这些“知识”。计算机只是通过一些特定方法把人类知识表达出来。而这个特定方法是基于图技术。
图是一种表示知识的工具,是描述知识的状态、关系、路径距离等相关要素的最自然的数学表达。它擅长存储和处理复杂的网状关系,所以在知识图谱、社交网络、用户关系分析等领域有着广泛的应用。
近年来,基于图技术的知识图谱是十分热门的研究领域。比如大众熟知的维基百科就是一个知识图谱应用。知识图谱可以用来描述各种实体以及它们之间的关系。它是一个庞大的图形网络知识库。在这个网络中,每个节点是一个实体,比如人名、地名、事件、活动,任意两个节点之间的边表示它们之间存在关系,如图3-1所示。
▲图3-1 基于图形结构的知识图谱示意图
知识图谱的基本组成是“实体–关系–实体”的三元组,它不仅能把与关键词有关的知识系统化地展示给用户,也可以基于知识进行推演。比方说,从〈东方明珠,坐落在,浦东〉和〈浦东,属于,上海〉这两个组合,就能推测得到〈东方明珠,位于,上海〉。
知识图谱还会不断更新迭代,用户搜索的次数越多,范围越广,这个知识库就能获取越多的信息和内容。
知识并不是与生俱来的,获取知识通常有两种途径。
途径一是亲身体验。比如,刚出生的婴儿什么都不懂,将一杯热水放到他面前,他会想要去拿杯子,结果喝水被烫到了。第二次他再看到杯子,有了上次被烫的经验,他会观察杯口是否冒烟,摸摸杯子的温度,再决定是否拿杯子喝水。在这个过程中,婴儿通过自己的亲身体验,逐渐掌握了有关“热水”的知识。
南宋理学家、思想家朱熹曾说:“所谓致知在格物者,言欲致吾之知,在即物而穷其理也。”他要表达的意思是,获得知识的途径在于认识世间万物,并彻底研究它们的原理。就是说,要亲身体验这个世界来获得宝贵的知识。每个人有不同的人生和经历,这些会成为我们独有的知识。
亲身体验得来的知识是最真实的,所以它通常比较准确。不过,这样获取知识的时间周期长,效率也比较低。
途径二是通过别人教授。比如通过父母、老师、书本、网络学习得来,但老师教的、书上印的可能出错,这样得来的知识未必准确。不过,它仍然是获取知识最主要的形式,毕竟我们没有那么多时间和精力,凡事都亲身经历一遍。站在前人和巨人的肩膀上,不断学习新的知识,是人类科技进步的根本原因。
有趣的是,在互联网时代,任何人都能随时随地找到自己想要的信息,但我们的知识总量并不会立刻增加。学习是一种过程,需要时间积累,欲速则不达。
比如很多人都听过“区块链”,但大部分人并不清楚它是什么。有人认为它是钱,也有人认为它是一种身份认证技术。但这些理解都不准确。很多人只是从网上找到了关于区块链的信息,并没有真正得到关于它的知识。从某种意义上讲,互联网虽然提高了人们找到碎片信息的效率,但降低了人们掌握完整知识的能力。
当然,互联网对整个社会来说仍然利大于弊,它让全世界的知识能够快速传递和共享。每个人都可以在网络上自由地发表观点,这些内容也被其他人搜索、阅读、讨论。一个小学生能从互联网上学到知识,并在课堂上指出老师的错误,在家里纠正父母的观念。这让过去作为权威的老师和父母受到了挑战,这在以前是不可想象的。
最后,让我们做个简答的总结——数据、信息、知识三者密不可分。
- 数据是一组有意义的符号,它是信息的载体,是知识的来源;
- 信息赋予了数据含义,信息消除了不确定性;
- 知识从实践、经验中得到,它由数据记录,从信息中提炼。
关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。
本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)