信息量的历史

1928年,R.V.L.哈特莱提出了信息定量化的初步设想,他将符号取值数m的对数定义为信息量,即I=log2m。对信息量作深入、系统研究的是信息论创始人C.E.仙农。1948年,仙农指出信源给出的符号是随机的,信源的信息量应是概率的函数,以信源的信息熵表示,即,其中Pi表示信源不同种类符号的概率,i= 1,2,…,n。

例如,若一个连续信源被等概率量化为4层,即4 种符号。这个信源每个符号所给出的信息最应为 ,与哈特莱公式I=log2m=log24=2bit一致。实质上哈特莱公式是等概率时仙农公式的特例。

基本内容 实际信源多为有记忆序列信源,只有在掌握全部序列的概率特性后,才能计算出该信源中平均一个符号的熵HL(U)(L为符号数这通常是困难的。如果序列信源简化为简单的一阶、齐次、遍历马氏链,则比较简单。根据符号的条件概率Pji(即前一符号为i条件下后一符号为j的概率),可以求出遍历信源的稳定概率Pi,再由Pi和Pji求出HL(U)。即如图1 。

其中H(U|V)称为条件熵,即前一符号V已知时后一符号U的不确定度。

信息量与信息熵在概念上是有区别的。在收到符号之前是不能肯定信源到底发送什么符号,通信的目的就是使接收者在收到符号后,解除对信源存在的疑义(不确定度),使不确定度变为零。这说明接收者从发送者的信源中获得的信息量是一个相对的量(H(U)-0)。而信息熵是描述信源本身统计特性的物理量,它表示信源产生符号的平均不确定度,不管有无接收者,它总是客观存在的量。

从信源中一个符号V中获取另一符号u的信息

量可用互信息表示,即

I(U;V)= H(U)-H(U|V)

表示在收到V以后仍然存在对信源符号U的疑义(不确定度)。一般情况下

I(U;V)≤H(U)

即获得的信息量比信源给出的信息熵要小。

连续信源可有无限个取值,输出信息量是无限大,但互信息是两个熵值之差,是相对量。这样,不论连续或离散信源,接收者获取的信息量仍然保持信息的一切特性,且是有限值。

信息量的引入,使通信、信息以及相关学科得以建立在定量分析的基础上,为各有关理论的确立与发展提供了保证。