4.2.5 属性抽取_知识图谱与认知智能：基本原理、关键技术、应用场景与解决方案-QQ阅读男生武侠网

书名：知识图谱与认知智能：基本原理、关键技术、应用场景与解决方案
作者名：吴睿
本章字数：889字
更新时间：2022-05-05 22:14:51

4.2.5　属性抽取

在定义方面，属性抽取与关系抽取的定义类似。属性抽取的知识图谱的三元组表示为（实体，属性，属性值）。比如属性抽取需要从“小明的注册年龄为25岁”中抽取出三元组（小明，年龄，25岁）。在开放域的知识图谱中，属性通常指实体的特征，比如人的年龄、肤色、国籍等。而在垂直域的知识图谱中，属性常用于关联业务目标实体的状态，比如人的年龄、商品的架构、设备的电压、企业的股价等状态属性数据。

在目标方面，属性抽取需要从企业数据仓库、办公文档、专业手册等数据中，通过结构化与非结构化的属性抽取，生成业务所需的知识图谱，特别是实体状态域的知识图谱。在结构化数据的属性抽取任务中，属性抽取目标与传统数据开发中的数据映射工作类似。因此，属性抽取的业务目标可以参考数据治理的业务目标，包括形式质量、内容质量和效用质量。

• 形式质量：指数据的完整性、可理解性、一致性。

• 内容质量：指数据的准确性、可靠性。

• 效用质量：指数据的稳定性、时效性、相关性。

在非结构化的属性抽取任务中，对算法模型同样可以用召回率、准确率及F1值进行评估。

在技术方面，实体属性抽取的主要任务流程是，将企业内外部数据源的数据库表，通过爬取、接口对接、批量导入等方法，以及事先定义好的源数据库Schema和业务知识图谱的知识体系各个类型的属性字段关系，对资源数据进行分类、映射、清洗，完成实体各个资源属性数据的规范与整理，填充知识体系的三元组。其中，针对单句文本的属性抽取是一个序列标注问题。因此，属性抽取任务可以在如图4-6所示的知识抽取算法框架上，开发诸如基于Bert、基于LSTM+CRF或者基于Bert+CRF的序列标注算法。

属性抽取和关系抽取非常相似，但是更具挑战性。除了要识别实体的属性名，还要识别实体的属性值。而属性值的结构是不确定的，因此业内大多非结构化属性抽取的研究都是基于规则进行抽取的，面向含有开放域知识的公开网页、查询日志、表格数据等。但是，基于规则的方法在企业业务数据上有一定的弊端：企业业务知识图谱不同于开放域知识图谱，它对信息的质量有着很高的要求，对信息噪声的容错性也较低。因此，某些研究者也在尝试通过整合序列标注模型，建立统一的质量评估方式进行模型迭代。