图数据库典型应用案例

图数据库典型应用案例图数据库区别于其他数据库优势是:善于处理间接关系&构建知识网络。社交类业务具备高度连接的特点,比如 好友关系 等,<用户1,关注,

大家好,欢迎来到IT知识分享网。

图数据库典型应用案例

业务创新驱动力

业务创新不是由数字驱动,而是在深入分析各个业务环节间关系的基础上,进行相应的业务变革,从而带来业务创新,因此关系是行为的最强预测因素

例如:零售商超公司可以通过分析客户与产品间的关系进行产品推荐,通过分析商品门店与供应商之间的关系来优化供应链等。这些都是分析关系驱动业务的实际案例

图数据库区别于其他数据库优势是:

善于处理间接关系&构建知识网络

关系数据库具有分类帐样式的结构。外键可以将一个表信息连接到另一个表。关系数据库可以轻松处理直接关系,间接关系会涉及缓慢的多级联接。但是间接关系在关系数据库中难处理。

图形数据库仅由点和线组成。可以快速跨越多种类型实体,能够处理间接关系。

举例间接关系:

一种特殊的查询场景:找出开发商是XXX,小区绿化率大于30%,周边200米有大型超市,500米有地铁,1000米有三甲医院,2000米有升学率超过60%的高中,房价在800W以内,最近被经纪人带看次数最多的房子。

为什么mysql和es不合适?

MySQL 一次关联几十张表

ES需要有一张很宽的房源表,但无法搜索这套房源周边200米有大型超市。

图数据库应用(13种场景)

  • 一 地理导航

通过构建路网,实现智能导航。

  • 二 社交网络

社交类业务具备高度连接的特点,比如 好友关系 等,<用户1,关注,用户2>。

  • 三 信息检索

在搜索引擎中,对实体信息的精准聚合和匹配、对关键词的理解以及对搜索意图的语义分析等;

  • 四 语义搜索

通过识别用户语义获得搜索结果。

  • 五 自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;
  • 六 问答系统:匹配问答模式和知识图谱中知识子图之间的映射;

智能问答,和语义搜索类似,对于提问的内容,计算机首先分析问题的语义,然后将语义转换为查询语句,到知识图谱中查找,将最贴近的答案提供给提问者。

  • 七 推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项,知识图谱+推荐系统;

推荐系统首先要采集用户的需求,分析用户的以往数据,提取共同特征,然后根据一定的规则,对用户提供推荐的产品。淘宝即是典型的例子。

传统推荐系统的主要类型包括热门推荐、人工推荐、相关推荐、个性化推荐四大类。

1.热门推荐:当下热点事件,具有广泛的社会关注,以达到“广而告之”的效果。例如知乎、新浪微博的“热榜”等

2.人工推荐:编辑或内容运营人员人工推荐的优秀内容/物品

3.相关推荐:根据当下浏览的内容按照一定的信息或关联规则进行的内容推荐,主要起“丰富扩展”的作用,例如看了“快乐大本营”第四期,就会推荐第一期、第三期等

4.个性化推荐:根据用户的历史记录、实时行为以及个人偏好,通过算法和模型为用户自身定制化的推荐,已达到“想你所想”的效果

  • 八 电子商务

构建商品的知识图谱用于精准匹配用户的购买意愿和商品候选集,知识图谱+推荐系统;

  • 九 金融风控

利用实体之间的关系分析金融活动的风险以提供在风险触发后的补救措施(如反欺诈等);

当一个事件出现了反面影响时,可迅速根据知识图谱相关信息控制与之相影响的人物或者事件,将损失降到最小。

  • 十 公安刑侦

分析实体和实体之间的关系获取案件线索等;

  • 十一 司法辅助

法律条文的结构化表示和查询用于辅助案件的判决等;

  • 十二 教育医疗

提供可视化的知识表示,用于药物分析、疾病诊断等;

  • 十三 辅助决策

构建决策主题研究相关知识库、政策分析模型库和情报研究方法库,建设并不断完善辅助决策系统,为决策主题提供全方位、多层次的决策支持和知识服务。

其中,知识图谱是图数据库关联最为紧密、场景最广泛的应用方向。知识图谱以图数据库作为存储引擎,对海量信息进行智能化处理,形成大规模的知识并进而支撑业务应用。

预备知识

结构化、半结构化与非结构化数据

原始数据类型一般来说有三类

  • 结构化数据(Structed Data):如关系数据库
  • 半结构化数据(Semi-Structed Data):如XML、JSON、百科
  • 非结构化数据(UnStructed Data):如图片、音频、视频、文本

实体

实体可以简单理解为一个对象,它是图最基本的单位,实体指的是现实世界中的事物比如人、地名、概念、药物、公司等。

属性

实体含有若干属性,如人有姓名,年龄等。属性用三元组表达,如(人的ID,类型为姓名,实际名字)。

图数据库典型应用案例

属性图

关系

关系是实体间的联系。表达图里的“边”。比如人-“居住在”-北京、张三和李四是“朋友”。一般用三元组表达关系。注意,关系也有属性。关系的属性也用三元组表达。

图数据库典型应用案例

关系图

三元组

三元组(主语,谓语,宾语)

三元组是指形如((x,y),z)的集合,三元组是计算机专业的一门公共基础课程——数据结构里的概念。

主要是用来存储稀疏矩阵的一种压缩方式,也叫三元组表。假设以顺序存储结构来表示三元组表(triple table),则得到稀疏矩阵的一种压缩存储方式,即三元组顺序表,简称三元组表。

图数据库典型应用案例

简单三元组

多关系图

那什么叫多关系图呢?

数据结构图(Graph)。图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。

多关系图: 一般包含多种类型的节点和多种类型的边。比如左下图表示一个经典的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。这些类型由不同的颜色来标记。

图数据库典型应用案例

数据结构图和多关系图

图的存储

学术界RDF法:

图数据库典型应用案例

RDF法

工业界图数据库法:

图数据库典型应用案例

图数据库

HDT(Header,Dictionary,Triples)是RDF的一种紧凑的数据结构和二进制icon序列化格式,它可以压缩大数据集以节省空间,同时保持搜索和浏览操作而无需事先解压缩。这使得它成为在Web上存储和共享RDF数据集的理想格式。

图和AI融合

图数据库典型应用案例

知识驱动

图构建的简单架构

图数据库典型应用案例

基础架构

数据获取

结构化数据指的关系型数据库表示和存储的二维形式数据。这类数据可以直接通过Schema融合、实体对齐等技术将数据提取到图中。

半结构化数据主要指有相关标记用来分隔语义元素,但又不存在数据库形式的强定义数据。如网页中的表格数据、维基百科中的Infobox等。这类数据通过爬虫、网页解析等技术可以将其转换为结构化数据。

非结构化数据主要是从纯文本数据获取知识,主要包括实体识别、实体分类、关系抽取、实体链接等技术。

知识抽取

从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达

实体抽取

实体抽取又称命名实体识别,是图的核心单位,从文本中抽取实体是知识获取的一个关键技术,实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。

文本中识别实体,一般可以作为一个序列标注问题来进行解决。传统的实体识别方法以统计模型如HMM、CRF等为主导,随着深度学习的兴起,BiLSTM+CRF模型备受青睐,该模型避免了传统CRF的特征模版构建工作,同时双向LSTM能更好地利用前后的语义信息,能够明显提高识别效果。

关系抽取

关系抽取是从文本中自动抽取实体与实体之间的特定的语义关系,以补充图谱中缺失的关系。方法包括人工构造予以规则以及模版的方法识别实体关系。

文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关的语料中提取出实体之间的关联关系,通过关联关系将实体(概念)联系起来,才能够形成网状的知识结构。

案例:从“干酪鱼原来是奶酪做的”中抽取出<干酪鱼,食材,奶酪>。

其实可以粗暴地归为分类问题,为什么这么呢?因为最后需要得到的是食材这个关系,所以训练一个模型进行多分类就OK。

属性抽取

属性抽取是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。

属性抽取可以转换为实体抽取+分类问题,因为实体的属性可以看成是实体与属性值之间的一种名称关系。

知识融合

知识融合就是将多个知识库中的知识进行整合,形成一个知识库的过程,知识融合需要解决的问题是实体对齐。

不同数据源的实体收集知识的侧重点不同,可能会指向现实世界的同一个客体,比如有的知识库可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,通过实体对齐进行知识融合可以将不同知识库中的知识进行互补融合,形成全面、准确、完整的实体描述。

案例:对于历史人物曹操的描述,在百度百科、互动百科、维基百科等不同的知识库中,描述有一些差别。

实体对齐主要有两个关键:

  • 实体消岐
  • 指代消岐

实体消岐

在文本中可能同一个实体会有不同的写法,比如说“Angelbaby”就是杨颖的别称,因此“杨颖”和“Angelbaby”指的就是同一个实体。

作用就是对具有相同名称的实体进行区分。例如两个人同名,那就通过性别、工作、兴趣爱好等其他属性进行区分。

指代消岐

指代消岐跟实体消岐类似,都是处理同一个实体的问题。比如黄晓明案例中的“他”其实指的就是“黄晓明”。所以指代消解要做的事情就是,找出这些代词,都指的是哪个实体。

知识加工

对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

本体抽取

本体比较抽象,简单理解即为一系列概念,这一系列概念集合能够描述某个具体领域里的一切事物的共有特征,概念间又有一定的关系,构成一个具有层级特征的结构。

比如足球领域即为一个本体。

本体抽取过程包含三个阶段:

  • 实体并列关系相似度计算
  • 实体上下位关系抽取
  • 本体的生成

举例:

当得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别。

第一步,计算三个实体之间的相似度后,会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些,但实际上还是没有一个上下层的概念,它仍然为判断出阿里巴巴和手机就不隶属于一个类型,无法比较。

第二步,实体上下位关系抽取去完成这样的工作,从而生成第三步的本体。

第三步结束后,即明白,“阿里巴巴和腾讯都是公司这样一个本体下的细分实体,它们和手机不属于一类。”

知识推理

知识推理是指从已有的实体关系数据出发,经过计算机推理,建立实体间的新关联从而拓展和丰富知识网络,知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。

质量评估

对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效保证知识的质量。

参考文献

https://m.toutiao.com/is/rrqTL9V

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/51697.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信