语义信息论的回顾与展望

时间：2023-08-16 04:22:19

辛港涛/XIN Gangtao，樊平毅/FAN Pingyi

（清华大学，中国北京 100084）

近年来，随着规模化无线通信的快速发展与智能处理需求的快速增多，各种基于无线通信技术的新兴智能业务得到迅速发展，这给通信技术带来了新的挑战。一方面，这些新兴业务（如工业互联网、虚拟/增强/混合现实、元宇宙、全息通信）的成功高度依赖于在海量数据集上对大型学习模型的训练。此类应用承载的大量流量可能会使现存的网络容量趋于饱和。因此，通信基础设施需要融入智能，确保在必要的时间，以合理的速率，传输所需的流量。另一方面，这些新兴业务需要极低的端到端时延，因此通信技术需要考虑流量的相关性和紧迫性，以最快、最可靠的方式提取和交付与任务相关的信息。这将导致通信网络架构从单纯追求高速率传输向追求智能化过渡[1]。

语义通信是一种全新的通信架构，它将用户对信息的需求及任务语义融入通信过程，有望大幅度提高通信实施效率，提升用户的体验，并从根本上解决基于数据的传统通信协议中存在的跨系统、跨协议、跨网络等技术难题[2]。C. E.SHANNON 和W. WEAVER 在1949 年发表的论文中提出了广义通信的3个层次的问题[3]，分别为：

1）技术层：传输的符号是否准确？

2）语义层：传输的符号是否准确表达了任务预期含义？

3）有效层：接收的信息含义能否按照预期方式影响用户的行为？

从技术层到语义层，通信的目标从符号的准确传输转变为语义的有效交换。经典的香农信息论建立在概率与统计的基础上，忽略了具体任务的语义表示方式，从技术层解决了两个基本问题：临界数据压缩的值和临界通信传输速率的值。语义通信的数学理论和语义的数学表征可以归结为语义信息论的问题。尽管目前语义信息论没有公认且统一的理论框架，但近些年来，学术界和工业界对语义信息论的研究越来越多。2021 年，华为公司提出的后香农时代信息通信技术（ICT）领域的十大挑战问题[4]，将语义信息论列为基础理论的首要问题。本文中，我们关注语义信息论的核心概念，介绍语义熵、语义率失真和语义信道容量方面的进展。

1 语义熵

语义信息的度量问题是语义信息理论的基础。熵是对随机变量不确定性的度量，语义熵是对语义不确定度或信息量大小的度量。到目前为止，对语义熵直观且通用的数学描述仍然是一个具有挑战性的难题：一方面语义基本内涵不易定义从而难以度量；另一方面人们对语义的产生机理和过程并不明确[5-7]。

1）语义熵起源于前香农时代，与自然语言的分析相关[8]。针对语言任务，1952 年，R. CARNAP 和Y. BARHILLEL[9]提出了语义熵的概念，用逻辑概率来衡量一个句子所包含的语义信息量，即：

其中，m(e)是指事件e在所有可能情况下为真的概率，也就是事件e的逻辑概率。可以看出，一个句子为真的逻辑概率越大，包含的信息量就越小。但是，这产生了一个悖论，即任何事实与其自身矛盾时会具有无穷大的信息量，如Hs(e ∧?0?1e)（表示“事件e与事件非e”发生的概率）为无穷大。2004年，L. FLORIDI[10]提出强语义信息理论，用与真实事件之间的距离来表示语义信息量的大小，解决了这一悖论。2011 年，S. D'AFLONSO[11]基于真理相似性对语义信息进行了定量描述。L. FLORID和S. D'AFLONSO的方法衡量的是某一事件相对于参考事件的信息，信息值总是在0～1。然而，这些度量都依赖于参考事件的存在。从本质上讲，他们的工作提供了两个句子之间语义相似度的度量，而不是语义不确定性或信息量大小的测量。2011 年，遵循R.CARNAP 的定义，J. BAO、P. BASU 等[12]采用命题逻辑拓展了m(e)的表示，进一步拓展了语言任务中语义熵的含义。

2）针对智能任务，I. D. MELAMED[13]提出了一种测量文本中单词的语义熵的方法。具体而言，对于一个词w，语义熵可以被表示为：

其中，H(T|w)代表了翻译不一致性，表示一个词被翻译成不同的方式所带来的不确定性，T表示目标词的集合，N(w)表示w的空链接的贡献，表示从一种语言翻译到另一种语言时遇到困难的可能性，F(w)是w 的频率。对于分类任务，LIU X. D.、JIA W. J. 等[14]引入匹配度和隶属度的概念来定义语义熵。隶属度是模糊集理论中的一个难以解析的概念，一般是根据经验来给定。定义?0? 为语义概念，μ?0?(x)为每个x ∈X的隶属度。对于某个类别Cj，匹配度Dj(?0?)定义为：

对于类别Cj，其语义熵定义为HS(?0?)=?6?Dj(?0?)log Dj(?0?)。将X 中所有类的语义熵相加，可以得到集合X 上的整体语义熵。

A. CHATTOPADHYAY 等[15]提出一种量化任务相关的语义熵，他们将语义熵定义为关于数据X的语义查询的最小数量，其答案足以预测任务V，可以表示为：

3）语义是对信号的理解，知识在语义的产生过程中充当了语义编码和表示的角色，发挥了重要作用。J. CHOI等[16]基于逻辑概率，从知识库的角度研究一个句子的语义熵。具体而言，记知识库为K，用p[K?6?q]表示句子q相对于知识库K正确的概率，简化为pq= p[K?6?q]，则q相对于K的语义熵为：

众所周知，扩展模式可以把简单的事物组合成复杂的系统，甚至产生智能。在人类的语言系统中，主谓宾、定状补的成分组成了句子，可以表达出单个单词所不可能具有的含义。受此启发，XIN G. T.和FAN P. Y.[17]认为智能语义应当是可以扩展的，语义熵的表示形式要体现知识扩展的理念。在语义的扩展中，知识层面发生了碰撞。语义正是在知识碰撞作用下，与信号作用的产物。例如，Apple Inc.属于商业公司类别，thirteen 属于数字类别，但是它们的碰撞可能会产生一个单词——iPhone，属于移动通信产品类别。用X1和X2表示信号，和表示两个知识实例，则语义熵可以表示为，其中?表示扩展，⊙表示碰撞。

4）不同于逻辑概率或统计概率模型，针对不同任务和背景，语义熵的推导形式也各不相同。A. KOLCHINSKY 与D. H. WOLPERT[18]将语义信息定义为描述系统与其所处环境之间关系的语法信息。M. KOUNTOURIS 和N. PAPPAS[19]使用Rényi熵对语义信息进行度量。N. J. VENHUIZEN 等[20]基于背景知识的语言理解模型推导出语义熵。C. LU[21]引入广义信息论，基于贝叶斯公式、逻辑概率和模糊集合等理论对语义信息进行数学度量描述。

2 语义率失真

在香农信息论中，率失真理论解决了失真情况下的编码问题。若信源为X～p(x)，编码后的表示为，率失真度量为，则率失真函数为：

如果R > R(D)，则存在编码方法使得平均失真趋向于D。如果R < R(D)，则这样的码序列不存在。

在语义通信中，在语义层面进行信息提取与编码表示，有助于进一步压缩语义信息的冗

提醒您：因为《语义信息论的回顾与展望》一文较长还有下一页，点击下面数字可以进行阅读！

《语义信息论的回顾与展望》在线阅读地址：语义信息论的回顾与展望