知识图谱是一种结构化的信息表示形式,它将数据组织为相互连接的实体及其关系。 它使用节点(如人物、地点或概念等实体)和边(实体之间的关系)来创建事实网络。 例如,关于电影的知识图谱可以将“克里斯托弗·诺兰”等实体与“盗梦空间”通过“directed_by”关系连接起来,并将“盗梦空间”与“莱昂纳多·迪卡普里奥”通过“starred_by”边连接起来。 这种结构使机器能够理解上下文并推断未明确说明的连接。 与传统数据库不同,知识图谱具有灵活性,允许动态集成各种数据源(例如,将产品目录与客户评论相结合),同时保持语义清晰。 诸如 RDF(资源描述框架)或属性图(例如,Neo4j)之类的工具通常用于对该数据建模。
在信息检索 (IR) 中,知识图谱通过添加语义上下文来增强搜索和数据发现。 传统的基于关键字的 IR 系统使用术语将查询与文档进行匹配,而知识图谱使系统能够解释用户意图。 例如,搜索“Apple”可能会返回有关该公司、水果或 iPhone 等产品的结果,具体取决于用户的上下文。 通过分析图中的关系(例如,“Apple Inc. 生产 iPhone”),系统可以消除术语的歧义并确定相关实体的优先级。 知识图谱还支持以实体为中心的搜索,其中结果按连接的概念分组。 例如,对“获得诺贝尔奖的科学家”的查询可能会遍历“科学家”、“奖项”和“诺贝尔奖”之间的边,以编制一份获奖者名单、他们的领域和发现。 这种方法通过利用结构化数据而不是仅仅依赖文本匹配来提高召回率和精确度。
开发人员在 IR 系统中使用知识图谱来构建诸如自动建议、多面搜索或个性化推荐之类的功能。 例如,电子商务平台可能会使用产品知识图谱,根据共享属性来建议相关商品(例如,“购买此相机的客户也购买了这些镜头”)。 在企业搜索中,知识图谱可以将内部文档、员工个人资料和项目数据链接起来,以回答诸如“查找柏林办事处具有 Python 经验的工程师”之类的查询。 诸如 Google 的知识图谱搜索之类的 API 或开源框架(例如,Apache Jena)简化了集成。 通过映射关系,知识图谱还能够进行推理——例如,推断对“3 万美元以下的电动汽车”的搜索应包括具有有效降低其价格的税收优惠的模型。 这种结构化的方法使 IR 系统对用户来说更直观和高效。