- 大数据环境下基于知识整合的语义计算技术与应用
- 蔡圆媛
- 2847字
- 2021-02-26 14:03:55
1.3 相关理论的演变与现状
20世纪80年代,随着语义网络和知识本体的发展,为了表示词汇的语义,一些研究者开始构造知识库,将词汇映射为概念,基于概念之间的语义关系组织词汇、计算词汇的语义相似度。随着网络的普及以及计算机的数据处理能力不断增强,超大规模的语料库逐步出现,相关研究将语料中的词和文档投影在语义空间中,基于空间分布判断两个对象之间的语义距离或相似度。
针对词汇的语义相似度计算,不少学者做了大量的研究工作。依据可利用的语义资源,现有的语义相似度计算方法大致可以分为基于知识库和基于语料库。前者能够充分利用知识定义和结构计算两个概念之间的语义相似度;后者主要基于Harris在1954年提出的分布假设理论[14],利用词汇的上下文分布计算其语义相似度。
1.3.1 基于知识库的概念语义相似度计算
知识库是领域专家依据经验构造的结构化的知识表示。知识库在本质上是一个对象模型,以本体概念和逻辑规则为基础,以语义网络为结构模型,用于描述不同层次和不同类别的概念抽象,对客观世界进行结构化的语义描述和映射。知识库将词抽象为概念或者语义节点,以多分类的形式构建概念之间的联系。基于其结构层次以及细粒度、不可再分的语义表征,知识库常被用于衡量两个概念的语义相似度,将词汇的语义相似度计算为其对应的多个概念语义相似度的最大值[15], [16]。典型的计算方法主要包括基于语义词典的方法和基于领域本体的方法。
1.基于语义词典的方法
基于语义词典的方法通常依赖于较为完备的语义词典,如WordNet和同义词词林。WordNet是美国普林斯顿大学建立和维护的一个英语词典,它将单词按照词义组织成一个网络,有别于传统意义上的词典,因此也被称为语义词典。Gao等人[17]基于WordNet的结构提出了基于概念之间路径长度和概念自身包含的信息含量的相似度计算方法。Li等人[18]利用知识库Probase提供的概念、子概念、实例以及它们之间的“is-a”关系计算概念之间的语义相似度,并基于WordNet和聚类技术进行词汇的语义消歧。Gabrilovich等人[19]将维基百科中给定的概念投影到高维的概念向量空间中,通过显性语义分析实现语义相关度计算的性能提升。
2.基于领域本体的方法
基于领域本体的方法侧重于度量特定领域中概念的语义相似度。例如,生物医学领域的基因序列与蛋白复合物的检测[20], [21]、地理信息学领域的信息检索[22]分别依赖基于医学基因本体和地理本体的语义相似度计算。
基于知识库的概念进行语义相似度计算的方法能够充分利用专家的先验知识,避免语料的数据稀疏性和不同语料之间的不平衡性[23]。但是,这种方法也存在明显的不足:
(1)知识库的构建依赖于领域专家,需要大量的人力来维护和更新。
(2)词汇的覆盖范围有限,无法及时表示新词。
(3)知识库的知识推理和补全本身是一个研究难题。
(4)缺乏足够的上下文信息来确定词汇在具体语境中所表达的准确概念。
1.3.2 基于语料库的单词语义相似度计算
语料库是无结构的文本集合,包含丰富的词汇信息和语法信息。为了计算机能更好地理解这些信息,基于语料库的语义相似度计算方法通常将词汇或文档表示为向量形式,利用统计方法来计算出向量特征值,进而计算出词汇的相关度或相似度。其思想来源于文本的分布假设理论[24]:语义相似的词汇通常出现在相同的上下文中。例如,“香槐”和“枫树”若均频繁出现在“森林”“灌木”“树叶”等词周围,则可以认为“香槐”和“枫树”具有相似的词义。
因此,基于语料库的单词语义相似度计算通常建立在计算上下文相似度的基础上。
(1)选择合理的上下文作为一组特征词。
(2)基于统计模型计算出特征词与每个词的相关性,得到词汇的特征向量,并将向量之间的相似度作为词汇的语义相似度。
Mitchell和Lapata[2]依据词频将前M个非停用词设为词向量的上下文,基于“词—上下文共现”统计出当给定一个目标词时,在某上下文出现的概率与该上下文的出现概率总和之间的比率,作为目标词向量的每一维的权重值。
向量空间模型通常将文本表示为词袋,构建出词与相关文本的共现矩阵(Co-occurrence Matrix),其中矩阵的行代表词,列代表相关文本。由此构造出以相关文本为特征的词的分布表示[25]。其中,相关文本可以是词、多元词组或人工定义的任何语法模式。依据共现矩阵的构造,Turney和Pantel将词向量的表示方式划分为“词—上下文共现(WordContext Co-occurrence)” “词—文档共现(Word-Document Co-occurrence)”和“词对—模式共现(Pair-Pattern Co-occurrence)”这三种类型。其研究表明,基于“词—上下文共现”构造出的单词向量表示能够更好地计算词之间的语义相似度,而后两者分别侧重于计算文档的相似度和词对语义关系的相似度[26]。同样,Sahlgren[27]研究了基于矩阵的词分布表示,其研究认为,一个词的语义中不仅包含与其他词在上下文中的共现关系(称为组合性关系,Syntagmatic),并且包含与具有相似上下文的其他词的替代性关系(Paradigmatic)。“词—文档共现”矩阵侧重于对词的横向共现关系进行建模,而“词对—模式共现”矩阵侧重于对词的纵向替代关系进行建模。Rapp等人[28]基于VSM和BNC语料库实现了精确的词义理解,提升了托福测试中多项选择题的得分,远高于考试人员的平均得分约28%。
VSM又可分为欧氏向量空间和概率向量空间,分别采用不同的向量度量方法。在欧氏向量空间中,词被解释为多维特征空间中的某一点,即词由一个多维向量表示,词之间的语义相似度被计算为空间中的两点距离[29];而在概率向量空间中,将词表示为一个概率分布,反映词与相关词共现的概率,利用概率分布的相似程度衡量语义相似度。采用VSM的好处是,它能够按照一定的统计模型从无结构的语料中自动提取出语义、语法等信息,能够相对简单、直观地表示文档中所蕴含的全局知识。此外,获取大规模语料的难度远小于构造一个成熟的知识库。但是,在传统的VSM中,词向量特征的选择和统计需要人为干预,而且通常需要利用相关技术来降低特征空间的维度。
综上所述,基于知识库的方法侧重于利用已知的结构化语义信息构建语义相似度计算模型;而对于基于语料的方法,词向量表示语义的能力直接影响语义相似度计算的准确性,因此其依赖于选择有效的相关词特征、统计模型以及向量相似度的计算模型。
虽然对于词汇语义相似性计算技术的研究已经获得了大量成果,但是现有技术仍在以下四个方面存在不足:
(1)较少研究对知识库和语料库的语义信息进行整合。由于单一资源所包含的语义信息有限,基于知识库和基于语料库的语义相似度计算方法应用范围受限、灵活性不足。知识库的词汇覆盖率较低,在某些领域的应用缺乏成熟的知识库;而语料中存在大量噪声数据和多义词,使基于语料的方法难以获得精确的度量结果,且依赖于语义消歧和数据降维。
(2)基于知识库的概念,语义相似度计算方法的准确率有待进一步提升。尤其是针对WordNet的概念图结构,其中可用的语义属性有待进一步挖掘和利用,构造混合式的计算方法。
(3)词汇语义的抽取和表示方法有待改进。传统基于词袋模型的VSM只考虑词汇在上下文中的统计特性,生成的词向量特征离散、稀疏,使得度量语义相似度的准确率不高。
(4)现有研究为了整合基于多个计算方法或异构向量空间模型的度量结果,通常采用平均操作,计算准确性较低;或采用回归模型对结果进行加权组合,需要大规模的训练数据集,计算任务量大,适应性较差。