4.2.5 属性抽取

在定义方面,属性抽取与关系抽取的定义类似。属性抽取的知识图谱的三元组表示为(实体,属性,属性值)。比如属性抽取需要从“小明的注册年龄为25岁”中抽取出三元组(小明,年龄,25岁)。在开放域的知识图谱中,属性通常指实体的特征,比如人的年龄、肤色、国籍等。而在垂直域的知识图谱中,属性常用于关联业务目标实体的状态,比如人的年龄、商品的架构、设备的电压、企业的股价等状态属性数据。

在目标方面,属性抽取需要从企业数据仓库、办公文档、专业手册等数据中,通过结构化与非结构化的属性抽取,生成业务所需的知识图谱,特别是实体状态域的知识图谱。在结构化数据的属性抽取任务中,属性抽取目标与传统数据开发中的数据映射工作类似。因此,属性抽取的业务目标可以参考数据治理的业务目标,包括形式质量内容质量效用质量

• 形式质量:指数据的完整性、可理解性、一致性。

• 内容质量:指数据的准确性、可靠性。

• 效用质量:指数据的稳定性、时效性、相关性。

在非结构化的属性抽取任务中,对算法模型同样可以用召回率、准确率及F1值进行评估。

在技术方面,实体属性抽取的主要任务流程是,将企业内外部数据源的数据库表,通过爬取、接口对接、批量导入等方法,以及事先定义好的源数据库Schema和业务知识图谱的知识体系各个类型的属性字段关系,对资源数据进行分类、映射、清洗,完成实体各个资源属性数据的规范与整理,填充知识体系的三元组。其中,针对单句文本的属性抽取是一个序列标注问题。因此,属性抽取任务可以在如图4-6所示的知识抽取算法框架上,开发诸如基于Bert、基于LSTM+CRF或者基于Bert+CRF的序列标注算法。

属性抽取和关系抽取非常相似,但是更具挑战性。除了要识别实体的属性名,还要识别实体的属性值。而属性值的结构是不确定的,因此业内大多非结构化属性抽取的研究都是基于规则进行抽取的,面向含有开放域知识的公开网页、查询日志、表格数据等。但是,基于规则的方法在企业业务数据上有一定的弊端:企业业务知识图谱不同于开放域知识图谱,它对信息的质量有着很高的要求,对信息噪声的容错性也较低。因此,某些研究者也在尝试通过整合序列标注模型,建立统一的质量评估方式进行模型迭代。