中科大提出UniMEL框架

  • 电脑网络维修
  • 2024-11-15

多模态实体链接的关键性与应战

多模态实体链接(Multimodal Entity Linking, MEL)是常识图谱畛域中的一项基础义务,旨在将文档中的提及(mentions)链接到常识库中的实体。随着社交媒体和互联网的开展,文本和视觉的多模态性成为数据义务中的关键媒介。同时,线上消息的品质错落不齐,许多提及自身含混不清,高低文消息毛糙,仅依托文本模态往往难以启动有效消歧。但是,文本和视觉模态的结合往往能更准确、更轻松地启动消歧。例如,提及“United States”或者指代不同的实体,如国度称号、体育队伍或船只,但当同时思考文本和视觉消息时,可以更容易地将“United States”准确链接到“美国国度轮椅橄榄球队”的实体。

虽然深度学习方法在MEL义务中取得了必定的成绩,经过融合提及文本和图像失掉提及示意、运行交叉留意力机制和编码图像提取特色等方法,但这些方法仍面临多个应战:

为了处置上述疑问,咱们引入了一个一致框架UniMEL,旨在经常使用大型言语模型处置MEL义务,充沛融合多模态提及的图像和高低文,并生成实体的新繁复形容。据咱们所知,这是初次在MEL义务中引入基于多模态大型言语模型(MLLMs)的方法。

论文概览:题目、作者、会议和链接

题目 : UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

作者 : Qi Liu, Yongyi He, Defu Lian, Zhi Zheng, Tong Xu, Che Liu, Enhong Chen

会议 : Proceedings of the 33nd ACM International Conference on Information and Knowledge Management (CIKM ’24

多模态实体链接的定义与运行场景

多模态实体链接(Multimodal Entity Linking, MEL)是一种在常识库中将文本提及(mentions)与实体相链接的义务,这些提及不只蕴含文本消息,还包括视觉消息。这种链接模式在许多人造言语处置(NLP)的下游运行中十分有用,例如疑问回答和介绍系统。随着社交媒体和互联网的开展,文本和视觉的多模态性成为了数据义务的关键媒介。例如,提及“美国”或者指向不同的实体,如国度、体育队伍或船只,但当同时思考文本和视觉消息时,可以更准确地将其链接到“美国国度轮椅橄榄球队”的实体。

UniMEL框架的外围组件与上班流程

1. LLMs-based Entity Augmentation

为了处置实体形容过长和消息冗余的疑问,UniMEL框架经常使用大型言语模型(LLMs)来有效地摘要实体形容。经过向LLMs提供实体称号和其原始形容,并设计特定指令来强调生成摘要的繁复性和内容要求,LLMs能够生成新的、繁复的、消息丰盛的实体形容摘要。

2. MLLMs-based Mention Augmentation

应用多模态大型言语模型(MLLMs)的弱小视觉了解和指令遵照才干,UniMEL框架增强了提及的形容消息。经过将提及的图像、称号和文本高低文输入MLLMs,并设计特定的义务指令来疏导MLLMs专一于提及自身,从而生成高品质的文本形容,增强提及的消息。

3. Retrieval Augmentation

在选用最佳婚配实体之前,理论须要增加候选集并尽或者确保其准确性。经过增强的实体和提及消息,首先将实体称号和新形容衔接起来,并经常使用预训练的嵌入模型失掉其嵌入示意。而后,计算提及嵌入与常识库中每个实体嵌入的余弦相似度,检索出相似度最高的K个实体。

4. Multi-choice Selection

在域特定义务和数据上微调LLMs可以增强其在处置特定义务中的才干。经过高品质的数据和小规模候选集,设计了一个用于LLM指令调整的揭示模板。LLM依据给定的指令和文本输入预测答案,从而选用与提及最婚配的实体。

试验设计与数据集引见

1. 数据集引见

这些数据集的统计消息如下表所示:

数据集

训练集样本数

验证集样本数

测试集样本数

Wikidiverse

2. 试验设置

咱们的试验设置遵照了之前的上班,数据集被划分为训练集、验证集和测试集。咱们经常使用Wikidata作为咱们的常识库,并移除了那些在Wikidata中找不到对应实体的提及。在Wikidiverse中,数据集被划分为80%训练集、10%验证集和10%测试集。在WikiMEL和Richpedia中,数据集被划分为70%训练集、10%验证集和20%测试集。

关键试验结果与剖析

1. 试验结果

咱们的UniMEL框架在三个数据集上的体现如下:

这些结果标明,咱们的UniMEL框架在多模态实体链接义务中具备清楚的长处,并且能够有效地处置不同的数据集和实体类型。

2. 结果剖析

咱们的UniMEL框架经过整合文本和视觉消息,并对实体形容启动精简,有效地提高了实体链接的准确性。此外,咱们还对模型启动了微调,仅调整了约0.26%的模型参数,这进一步提高了模型在特定畛域义务上的体现。

经过对比不同的基线方法,咱们发现即使是纯文本方法(如BERT),也能在某些数据集上展现出不错的功能。但是,结合视觉消息的方法(如咱们的UniMEL)在处置含混不清和品质较低的提及消息时,体现更为杰出。

总体来说,这些试验结果验证了咱们的UniMEL框架在多模态实体链接义务中的有效性和先进性。

模型的长处与应战

1. 模型的长处

UniMEL模型在多模态实体链接义务中展现出清楚的长处。首先,该模型经过结合大型言语模型(LLMs)和多模态大型言语模型(MLLMs),有效地处置了文本和视觉消息的融合疑问。例如,经过MLLMs对提及的图像和文本高低文启动增强,使得模型能够更深化地理解图像与其高低文之间的语义相关。此外,UniMEL应用LLMs的总结才干,对实体形容启动精简,从而提高了实体检索的准确性和效率。

其次,UniMEL在候选实体集的缩减和重排方面也体现杰出。经过嵌入模型对实体和提及的嵌入示意启动相似度计算,模型能够有效地增加候选实体范围,并经过LLMs启动准确的多选婚配,从而提高了链接的准确性。

最后,试验结果显示,UniMEL在三个地下的多模态实体链接数据集上均到达了最佳功能,验证了其在实践运行中的有效性和优越性。

2. 模型的应战

虽然UniMEL在多模态实体链接义务中体现出弱小的才干,但仍面临一些应战。首先,文本和视觉消息的有效融合仍是一个复杂的疑问,尤其是在消息互补性无余的状况下,如何设计更有效的融合机制是提高模型功能的关键。

其次,虽然LLMs在处置文本消息方面体现杰出,但它们在特定畛域常识的运行上仍有限。如何让LLMs更好地顺应特定畛域的常识,以提高模型在特定义务上的体现,是未来钻研的一个关键方向。

最后,从实体形容中提取有效消息并启动高效处置的疑问也是应战之一。模型虽然经过LLMs的总结才干对形容启动了精简,但如何进一步优化消息提取和处置流程,以提高处置速度和准确性,仍需进一步探求。

论断与未来上班方向

UniMEL框架经过整合LLMs和MLLMs,有效地处置了多模态实体链接义务中的关键疑问,如文本和视觉消息的融合、实体形容的精简和候选实体集的高效处置等。试验结果标明,UniMEL在多个地下数据集上均取得了优秀的功能,验证了其在实践运行中的有效性和前景。

未来的上班方向可以从以下几个方面启动:

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6073.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号