“图形”一词来自数学领域。图形包含节点和边的集合。
节点是存储数据对象的顶点。每个节点可以有无限数量和类型的关系。
节点是存储数据对象的顶点。每个节点可以有无限数量和类型的关系。
每个节点都有描述它的属性或特性。在某些情况下,边也具有属性。具有属性的图形也称为属性图。
下面的属性图显示了一个社交网络图示例。考虑到人员(节点)及其关系(边),您可以找到一个特定人员的“朋友的朋友”,例如,Howard 的朋友的朋友。
在社交网络、推荐引擎和欺诈检测等使用案例中,需要在数据之间创建关系并快速查询这些关系,此时,图形数据库更具优势。
图形数据库能够预防复杂的欺诈行为。例如,您可以使用图形数据库中的关系以近乎实时的方式处理财务交易。通过快速图形查询,您能够检测到潜在购买者是否在使用已知欺诈案例中包含的相同电子邮件地址和信用卡。此外,图形数据库可以帮助您通过关系模式检测欺诈,例如多个人与个人电子邮件地址相关联,或者多个人共享同一个 IP 地址但居住在不同的物理位置。
对于提供建议的应用程序来说,图形模型是一个不错的选择。您可以存储诸如客户兴趣、朋友和购买历史记录等信息类别之间的图形关系。您可以使用高度可用的图形数据库,并根据关注相同运动内容且具有类似兴趣和购买历史记录的其他人购买的产品,向用户提供产品推荐。您也可以识别有共同好友但彼此还不认识的人员,然后提供好友推荐。
路线优化问题涉及分析数据集并查找最适合特定案例的值。例如,您可以使用图形数据库来查找以下内容:
图查询可以更快地分析这些情况,因为它们可以计算和比较两个节点之间的链接数量。
图形数据库非常适合用于发现数据中的复杂关系和隐藏模式。例如,一家社交媒体公司使用图形数据库来区分机器人账户和真实账户。它会分析账户活动,以发现账户互动与机器人活动之间的联系。
图形数据库提供了用于数据集成、关联数据和信息共享的技术。它们以标准化格式表示复杂的元数据或域概念,并为自然语言处理提供丰富的语义。您也可以将这些数据库用于知识图和主数据管理。例如,机器学习算法使用图形模型来区分亚马逊雨林和 Amazon 品牌。
图形数据库是定制的,用于管理高度互联的数据。随着现代数据的连通性和数量不断增加,图形数据库为经济高效地利用和分析数据提供了机会。以下是图形分析的三个主要优点。
图形模型的架构和结构可能会随您的应用程序而变化。数据分析师可以在不影响现有功能的情况下添加或修改现有图形结构。无需事先对域进行建模。
随着关系的数量和深度不断增加,关系数据库模型不再是理想选择。这会导致数据重复和冗余,需要处理多个表才能发现查询结果。相比之下,在查询关系时,图形数据库的性能提高了几个数量级。即使图形数据量增加,也能保持稳定的性能。
与关系数据库相比,图形查询耗时更短,生成相同报告的效率更高。图形技术利用链接节点。遍历联结或关系的过程非常快,因为节点之间的关系不是在查询时计算的,而是留存在数据库中。
图形数据库使用标准化的查询语言和图形算法工作。
图形查询语言用于与图形数据库进行交互。与 SQL 类似,该语言也具有添加、编辑和查询数据的功能。但是,这些语言利用底层的图形结构来高效处理复杂的查询。它们提供了一个界面,因此您可以提出以下问题:
Apache TinkerPop Gremlin、SPARQL 和 openCypher 是热门的图形查询语言。
图形算法是分析互联数据中的关系和行为的操作。例如,该算法会探索节点之间的距离和路径,或者分析传入的边和相邻节点以生成报告。这些算法可以识别连接数据元素的常见模式、异常、社区和路径。图形算法的一些示例包括:
专用的图形数据库最适用于高度连接的数据集以及任何需要搜索隐藏和明显关系的分析。如果这不符合您的使用案例,那么其他数据库类型可能更适用。
例如,假设您需要按物品记录产品库存。您只需要存储物品名称、可用数量等的详细信息。您无需保留其他信息,因此表格中的列不会更改。这一表格性质使得关系数据库更适用于此类不相关的数据。
同样重要的是,不要将图形数据库简单地用作键值存储。来自已知键的查找结果并不能最大限度地发挥图形数据库的目标功能。
Amazon Neptune 是一个专门打造的高性能图形数据库引擎,它经过优化,可存储数十亿种关系并以毫秒级延迟进行图形查询。Neptune 支持流行的图形模型 — 属性图形和 W3C 的资源描述框架(RDF)。Neptune 还支持相应的查询语言 Apache TinkerPop Gremlin 和 SPARQL,可让您构建查询,高效地浏览高度互连数据集。 Neptune 的主要特征包括:
立即创建免费账户,开始在 AWS 上使用图形数据库。