通过前两章的阅读,我明白了三个世界即物理世界,生物世界与数字世界的概念与关系。它们之间相互作用,共同推进着世界的发展。以数据为驱动的新一代信息革命快速引领着知识的生产与传播。而在此过程中,数据始终遵守着科学数据三个法则。从三个方面,为未来的信息快速传播与数据交换提供了指导方向,加快着“数据化”的趋势。将会为信息发展带来前所未有的机遇。那么究竟如何定义信息,它与数据之间的联系与区别是什么,信息在现实生活中的结构形式是怎样的,效用又如何?第三章《信息纽带》便为我解开了心中的疑惑。
(科学数据法则的三个方面)
一、数据与信息:
在对信息与数据之间的关系进行分析前,我先明白了信息的定义。信息在现实生活中的存在形式有很多,例如在书本上学习的知识,自己总结过的经验,听过的消息都可以是信息。从这些例子中我们可以找出这些信息的共性,都是以某种载体为基本的数据的形式,它们可能是书籍、记忆细胞、声波等等,由此我们可以得知一个关于信息的定义,即信息是具有一定形式、含义和效用的数据。但数据是否是一种信息,很显然并不是。例如一组数据(16 24 26 29 21)在未说明用途之前并没有实际的意义,因此并没有达到传递信息的作用。只有当它有了用途或者单位后,才会有相应的意义并且有信息。例如一组数据加上℃可以用来描述温度,(16℃ 24℃ 26℃ 29℃ 21℃)可以用来传递各地今天的天气等相关信息。
(信息是数据的一个子集)
由上面的分析我们可以分析得出信息是数据的一个子集。数据如果想要成为信息,则必须进行一些条件上的限制,比如必须让它表达特定的意义并且有一定的预期效用。因此数据与信息之间的主要区别在于是否在人的主观世界中有一定的效用,有某种目的。例如几种现在常见的加密方式,在数据加密的过程中,如果仅仅是获得了被加密的数据,即一堆乱码,这一堆乱码数据并没有什么实际的用途,但是如果有密钥的话,乱码可以被翻译成为一段逻辑通顺的句子,那么这堆数据便起到了一定的效用。就可以被认为是信息。比如摩尔斯电码,在传输过程中的数据形式是点和横的组合,是一种没有意义的符号。这是一种数据。而获得电报传达的信息,需要进行转译。
(摩尔斯电码)
由此可见,数据并不能直接成为信息,不具有信息的含义和效用。数据与信息的区别还在于信息与概率有着一定的关系。信息的传递也会受各种不确定因素的影响。但相较于数据,信息本身所存在的不确定性被降低了。而在数据成为信息的过程中,这种不确定性也就被极大程度上降低了。
数据同样也与信息联系非常紧密,首先数据是信息的重要来源,比如数据可以用人工或自动化装置进行通讯,翻译和处理;信息也是根据一定的规则对数据承载的事实进行组织后形成的结果。信息是以数据为载体,对数据作具有含义的作用。数据和信息是难以分离的。数据是信息的表达方式,信息是数据的内涵,是形式与本质之间的关系。数据是符号,是物理性并且客观的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现形式,信息是数据有意义的表示。
与数据相似,信息同样有着信息法则的存在。首先是信息科学第一法则,即为信息的作用是减少和消除数据中关于结构、含义和效用的不确定性。[1]这在我们的日常生活中广泛应用。例如用基础的26个英文字母来表达事物,这些字母本身可以表达的事物非常少,这些数据无法来准确的传递信息,因为无论从结构、含义和效用方面判断,它们所具有的不确定性非常大。但如果将他们进行一定的排列与组合,以此来降低它们的不确定性,则会形成一段意义完整的语句。则它们就可以表达某种含义,传递某种信息。而如果将整个过程倒置过来,就可以得到信息科学的第二法则,即信息科学第二法则:任何信息问题均可以转化为一组可以通过一系列“是”与“否”问答方式得到解答的问题。[2]例如许多复杂的信号的传递就可以被分解为一系列以0和1控制的数据的表达。这个过程更像是一个数字化的过程。而自然语言可以被一些原始的机器语言表达,其原因是它可以被编码。
二、信息的编码:
在百度百科中“编码”的定义是:编码(coding)是指用代码来表示各组数据资料,使其成为可利用计算机进行处理和分析的信息。编码就是将事物或概念赋予某一规律的、易于人类或机器识别并处理的符号、图形、颜色和缩简文字。[3]而编码对于数据来说意义重大。
首先便是编码带给运输效率以及安全方面的提升。如果对整个信息进行运输,就像用快递运输自行车一样,很难找到适合的箱子包装,也很难去搬动运输,在这个过程中可能还会对车身进行损坏。而编码就像是把这辆自行车拆卸成零件,这样可以方便装运,很大程度上提高了运输的效率,并且极大地保护了车的安全。信息之间的传递也是如此。编码可以让信息的运输变得安全且高效。其次,对信息编码可以减少储存所需要的空间。计算机中8个位对应一个字节,可以用十六进制来表示。而计算机中所储存的数值可以转换为对应的字符,各种语言的字符都可以被表示出来。储存的过程就是表达的逆过程,这个过程中,文字字符变为数字符号,起到了节省空间的作用。除此之外,编码还可以提高数据处理的速度,还能有利于对信息进行压缩、纠错和加密等处理。
现实中通过编码对数据进行压缩、纠错和加密的例子有很多,比如现代移动支付以及信息传递的载体——二维码。二维码的原理是二进制运算,它通过使用二进制的0和1作为代码,同时使用若干个与二进制相对应的几何形体表示文字数值信息。使用代表正方形的黑白格来记录信息,并且可以在水平和竖直方向上进行编码。
二维码可以对信息进行极大程度上的压缩,一个二维码所能承载的数据量非常大。小至一个网址大至一篇文章,都可以被编码进二维码中。通常它的数据量和二维码图形大小和颜色有关系的。一般常见大小的二维码图像中,双色单层的一般是数十K的容量,彩色单层的能够达到 1~2MB 的容量。更为先进的二维码甚至可以达到T级别的储存量。
同时二维码不仅可以压缩大量的数据,它还拥有极高的容错率,即纠错的能力。最常见的QR二维码,用的是里德-所罗门码(RS)来做纠错。分有几级,纠错级别越高,整体需要携带的信息越多。
方法RS码原理比较复杂,整体基于“任意k个确定点可表示一个阶数至少为k-1的多项式”,实际上发送超过k个点,就算中间有一些错误,也能通过数学原理反推出最初的多项式,从而获得信息。并不是所有位置都可以缺损,像最明显的那三个角上的方框,直接影响初始定位。中间零散的部分是内容编码,可以容忍缺损。[4]通过这种特性,二维码可以达到广泛应用的效果,并且在图形有损失之后仍然不影响信息之间的传递与信息的存在。极大程度上方便了人们的生活。
二维码同样可以用来加密信息,二维码这种形式无法直观地看到传递的信息,这本身就是对信息的极好加密。除此之外,可以用基于内部的某种应用软件设计二维码来保存其中的信息,起到加密的作用。截取到信息的人若没有对应的解码软件、密钥,便无法得知其中的信息。这样做可以提高现代社会中信息的安全性,使信息可以按照发送人的意愿定向传送至接收者。可见加密的目的便是防止数据被篡改或窃取。
三、信息的结构、含义与效用:
由数字世界的概念可知,凡是反映、记录和展现客观世界事物的数据本身具有一定的结构,这些特定的结构就成为了信息的形式。信息结构的确定是通过指定一定的信息处理方式,明确数据处理系统,根据数据系统的规则进行对信息的获得与处理。但是尽管其有结构,但这种结构对于信息的传递接受者来说,它并不是确定的。仍有着一定不确定性。
如果要确定信息的结构,则需要借助如压缩、纠错和加密等编码方法确定。在这个过程中信息的发送者需要依据信息数据的随机性,根据实际需要来确定某些方法完成。
例如在我们现代生活中,以视频为主的媒体发展迅速。如何确定这些视频所含的信息结构?即如何完整真实地记录下视频的画面,避免出现失真的效果。这就需要对视频画面中的亮度、对比度、以及色彩饱和进行编码。在这个过程中,数据中的不确定性被降低,形成了信息的结构。
数据作为一种反映并且描述客观世界的符号。而信息更是具有含义的数据,用来描述事物的状态以及过程。影响信息含义的确立的主要因素有很多。首先是信息的形式,即信息数据的结构特征和组合方式。比如世界上有很多说不同语言的国家,对于相同的事物的描述,不同的语言所表达出来的信息就会有含义上的偏差。其次,信息的含义还受信息发送者和接收者身处的环境情景的影响。比如有着中西方差异的两个人在交流时,受到不同环境的影响,对于信息含义的判断与认识就会产生截然不同的差异。除此以外,发送和接受者的先知经验也是一种影响的因素。这类似于一种共识,即他们有着一套相同的编码文本。这种先知经验可以是通过学习获得的,也可以是交流时经验的积累。
它的实现过程里信息的数据形式和所代表的含义必须确定,并且信息的发送和接收者均必须使用同一个数据“形式与含义”的编码规则,如何准确地传送信息的含义,虽然还没有准确的模型。但是可以假定信息的发送和接受者对于数据形式的选择,并用概率来表达这个实现的过程。比如两个不同语言的人在交流时,如果可以对他们要表达的事物有一个共同的熟悉认知,并且有相同的信息处理的方式,还可以对他们所选择的表达编码的规则有概率上的预测,那么他们所表述的信息含义将会被确立下来。
正如前面所说,信息的传送往往具有一定的目的。而这种作用和目的往往是为了通过传递数据中所隐含的含义或意义来达到某种“刺激”或“驱动”的作用和效果。即信息的接收者在理解了信息表达的含义后,有受到的影响或者启发而做出的反应与行动。尽管有时候例如一篇文章所想要表达的含义是确定的,但是接收者所做出的反应与行动却有着很大的偏差。正所谓“一千个读者就有一千个哈姆雷特”。这种影响信息效果的决定的因素有很多,例如信息接受者的先验知识、社会角色、文化程度、个人品格、心理因素等等方面。除此以外,还有信息的发生背景这个因素。
信息效用的实现过程就可以将影响因素作为参考,将信息接收者进行归纳与定位,由于不同的社会群体的知识、文化、社会和心理背景具有更强的相似性,对所接收到的信息更可能产生相同的理解和反应。因此,把一种信息推送给一群相同定位的人,在这个过程中,这群人会对信息结合自身情况与社会情况进行再编码,会使信息的效用翻倍。例如再某些短视频平台会建立三维矢量图,对每个用户行为进行分类并给与坐标,然后填入矢量图中比对,坐标相邻的用户就会被推送到更符合他们的资讯。这本质上就是一种信息效用的实现过程。
通过本章的阅读,让我深刻认识到了信息的概念,理清了信息与数据之间的区别和联系。更让我收获到了有关于信息编码的相关知识。了解到信息的结构、含义以及效用的主要因素和实现过程。更重要的是,我还用本章所学的知识对现实生活中的常见信息现象进行了分析与应用,并以此更深入的认识到信息的重要价值与意义。
参考文献:
[1] [2] 黄卫平. 数据智能科学技术导论[M].北京:清华大学出版社,1-274.
[3]徐文超.信息分类编码标准化作用及方法探讨[J].中国自动识别技术,2021(01):72-74.
[4]黄宏博.QR二维条码的纠错编码算法研究及实现[J].微计算机信息,2010,26(30):36-38.