当前位置：首页 > 维修中心 > 电脑网络维修

Relik实事实体关联和相关抽取经常使用LlamaIndex 高效打造常识图谱

电脑网络维修
2024-11-14

文本消息转化为常识图谱的技术，自问世以来不时是钻研界的宠儿。大型言语模型（LLMs）的兴起让这个畛域遭到更多关注，但LLMs的老本之高令人却步。但是，经过对小型模型微调优化，咱们可以找到一种更经济高效的处置计划。

当天向大家引见Relik，这是由罗马大学（Sapienza University of Rome）人造言语处置团队精心研发的极速、轻量级消息提取框架。

1 消息提取流程

在不依赖LLMs的状况下，消息提取流程理论包括：

上图出现了消息提取的完整流程。始于一段方便的文本输入：“Tomaz likes to write blog posts. He is particularly interested in drawing diagrams.”。流程首先启动指代消解，将“Tomaz”和“He”辨以为同一人。紧接着，命名实体识别（NER）技术辨识出“Tomaz”、“Blog”和“Diagram”等主要实体。

随后，实体链接环节将这些识别出的实体与数据库或常识库中的相应条目相对应。例如，“Tomaz”对应到“Tomaz Bratanic (Q12345)”，“Blog”对应到“Blog (Q321)”。但是，"Diagram"在常识库中未找到婚配项。

接上去，相关提取步骤进一步剖析实体间的咨询，如识别出“Tomaz”与“Blog”之间存在“WRITES”相关，说明Tomaz撰写博客；“Tomaz”与“Diagram”之间存在“INTERESTED_IN”相关，标明他对图表有兴味。

最后，这些经过结构化的实体和相关消息被整合进常识图谱中，为后续的数据剖析或消息检索提供了有序且易于访问的资源。

在没有大型言语模型（LLMs）允许的状况下，消息提取上班理论依赖一系列专业模型来区分处置指代消解、命名实体识别、实体链接和相关提取等义务。整合这些模型须要付出额外的上班和粗疏的调整，但这种方法能够有效降落老本。经过经常使用和优化这些小型、特定义务的模型，可以在全体上缩小系统的构建和保养老本。

代码可在 GitHub 上失掉：

2 环境搭建与数据预备

介绍经常使用独立的Python环境，例如Google Colab，以便治理名目依赖项。

接上去性能Neo4j图数据库以存储解析出的数据。介绍经常使用Neo4j Aura（），它提供方便的收费云服务，且与Google Colab笔记本完美兼容。

成功数据库的搭建后，可经过LlamaIndex建设数据库衔接。

from llama_index.graph_stores.neo4j import Neo4jPGStoreusername="neo4j"password="rubber-cuffs-radiator"url="bolt://54.89.19.156:7687"graph_store = Neo4jPGStore(username=username,password=password,url=url,refresh_schema=False)

数据集

这里经常使用一个资讯数据集启动剖析，这个数据集是经过Diffbot API（）失掉的。

import pandas as pdNUMBER_OF_ARTICLES = 100news = pd.read_csv("https://raw.githubusercontent.com/tomasonjo/blog-datasets/main/news_articles.csv")news = news.head(NUMBER_OF_ARTICLES)

3 技术成功

消息提取流程首先从指代消解着手，其义务是识别文本中指代相反实体的不同表述。

据了解，目前可用于指代消解的开源模型相对较少。经过尝试比拟，这里选用经常使用spaCy的Coreferee（）。须要留意的是，经常使用Coreferee或许会遇到一些依赖性疑问。

加载spaCy中的指代消解模型，经常使用以下代码成功：

import spacy, corefereecoref_nlp = spacy.load('en_core_web_lg')coref_nlp.add_pipe('coreferee')

Coreferee模型能够识别文本中指代相反实体或实体组的表白式集群。为了依据这些识别出的集群对文本启动重写，须要自定义函数来成功这一环节。

def coref_text(text):coref_doc = coref_nlp(text)resolved_text = ""for token in coref_doc:repres = coref_doc._.coref_chains.resolve(token)if repres:resolved_text += " " + "and".join([t.textif t.ent_type_ == ""else [e.text for e in coref_doc.ents if t in e][0]for t in repres])else:resolved_text += " " + token.textreturn resolved_text

测试下这个函数，确保模型和依赖项设置正确：

print(coref_text("Tomaz is so cool. He can solve various Python dependencies and not cry"))

在这个例子中，模型成功识别出“Tomaz”和“He”实践上指向同一实体。经过运行coref_text函数，将“Tomaz”交流“He”。

请留意，这种重写机制并不总能生成齐全合乎语法规定的句子，由于它驳回了一种间接的交流逻辑来处置文本中的实体集群。虽然如此，关于大少数运行场景，这种方法曾经足够有效。

如今把这一指代消解技术运行于咱们的资讯数据集，并将其转换为LlamaIndex文档格局：

from llama_index.core import Documentnews["coref_text"] = news["text"].apply(coref_text)documents = [Document(text=f"{row['title']}: {row['coref_text']}")for i, row in news.iterrows()]

实体链接和相关提取

Relik库集成了实体链接和相关提取两大性能，能够将这两种技术融合运行。实体链接时，Relik以维基百科为附丽，成功文本实体与百科条目标精准对应。

将实体链接到维基百科

在相关提取方面，Relik经过辨识和定义文本中实体间的相关，协助咱们将原始的非结构化数据转化为有序的结构化消息。

4 常识图谱的构建与运行

目前，一切预备上班曾经就绪。接上去，可以创立PropertyGraphIndex实例，并将资讯文档作为数据输入，整合进常识图谱中。

此外，为了提取文档中的相关，须要将relik模型设置为kg_extractors参数的值。

from llama_index.core import PropertyGraphIndexindex = PropertyGraphIndex.from_documents(documents,kg_extractors=[relik],llm=llm,embed_model=embed_model,property_graph_store=graph_store,show_progress=True,)

构建图后，可以关上Neo4j阅读器来验证导入的图。经过运转以下Cypher语句取得相似的可视化：

MATCH p=(:__Entity__)--(:__Entity__)RETURN p LIMIT 250

结果：

5 问答性能成功

经常使用LlamaIndex，如今可以轻松地启动问答。只无应用系统自带的图检索器，便能够间接提出疑问：

query_engine = index.as_query_engine(include_text=True)response = query_engine.query("What happened at Ryanair?")print(str(response))

这就是定义的 LLM 和嵌入模型施展作用的中央。

6 总结

不依赖大型言语模型构建常识图谱是实际可行，具备老本效益且效率高。经过优化调整如Relik框架中的小型、义务专精的模型，检索增强型生成运行便能高效提敞开息。

实体链接作为主要步骤，确保了识别出的实体能够准确映射到常识库中的对应条目，从而维持了常识图谱的完整性与适用性。

借助Relik框架和Neo4j平台，咱们能够构建出性能弱小的常识图谱，这些图谱可以助力复杂的数据剖析和检索义务，而且防止了部署大型言语模型所带来的高昂老本。这种方法不只让先进的数据处置工具变得愈加亲民，也推进了消息提取流程的翻新与效率。

本文转载自，作者：

关注微信

上一篇：Ollama 轻松上手本地运转大模型最强工具

下一篇：微软提出LLM

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：http://www.duobeib.com/diannaowangluoweixiu/5536.html

Relik实事实体关联和相关抽取经常使用LlamaIndex 高效打造常识图谱

1 消息提取流程

2 环境搭建与数据预备

3 技术成功

4 常识图谱的构建与运行

5 问答性能成功

6 总结

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

Win11系统桌面不断刷新怎么教程

CentOS之yum安装JDK

电脑城教小白老桃毛u盘制作启动盘详细教程

windows10系统怎么重命名电脑名称教程

如何经过弱小的数据库提高移动运行程序性能

关注我们

Relik实事实体关联和相关抽取 经常使用LlamaIndex 高效打造常识图谱

1 消息提取流程

2 环境搭建与数据预备

3 技术成功

4 常识图谱的构建与运行

5 问答性能成功

6 总结

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

Relik实事实体关联和相关抽取经常使用LlamaIndex 高效打造常识图谱