浙江菱格木业有限公司

你的位置:浙江菱格木业有限公司 > 亚洲精品中文字幕东京热 >

让AI看懂长视频:MBZUAI冲突多模态视频清醒瓶颈

点击次数:100 亚洲精品中文字幕东京热 发布日期:2025-12-25 15:38:52
在东谈主工智能快速发展的今天,

在东谈主工智能快速发展的今天,教诲机器清醒视频内容变得越来越伏击。然则,现有的AI系统在面对长视频时时常力不从心,就像让一个只会看丹青书的孩子倏得去清醒一部两小时的电影一样繁难。来自阿联酋穆罕默德·本·扎耶德东谈主工智能大学(MBZUAI)的连络团队最近发表了一项冲突性连络,为这个难题提供了全新的治理决策。

这项由Mohammed Irfan Kurpath率领的海外连络团队于2025年12月发表的连络论文,题为"A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos"。连络团队来自多个知名机构,包括MBZUAI、贝鲁特好意思国大学和瑞典林雪平大学。这篇论文初次建议了一个全面的长视频多模态清醒基准测试LongShOTBench,以及一个智能代理系统LongShOTAgent。

面前的AI视频清醒技能面对着一个根人性的矛盾:现有的评测方法要么专注于万古期但忽略音频信息,要么体恤多模态但局限于短片断。这就好比让一个东谈主要么只用眼睛看一部无声电影,要么只听几分钟的片断配音,然后条目他们十足清醒整部电影的内容。连络团队相识到,着实的视频清醒需要同期处理视觉、语音和环境音频信息,何况要在万古期跨度内保抓连贯的推理才气。

为了治理这个问题,连络团队征战了LongShOTBench这一全新的评测基准。这个基准包含157个长视频,平均时长达到45分钟,认为向上117小时的视频内容。这些视频不是简便的片断拼接,而是完满的统一内容,涵盖从烹调教程到技能演示的各类场景。每个视频皆经过全心的多模态标注,确保视觉、音频和话语信息的完满性。

LongShOTBench的转换之处在于它的评估模式。传统的AI评测时常接受遴选题神色,这种模式就像只让学生作念填空题而不允许他们写稿文一样,无法着实测试深层清醒才气。违抗,LongShOTBench接受敞开式问答和多轮对话的神色,更接近确切的东谈主机交互场景。更伏击的是,它还引入了器用使用才气的测试,允许AI系统调用外部器用来扶植清醒,这就像给学生提供计较器、辞书等器用来完成复杂任务。

连络团队还征战了一套特有的评分机制,称为分级评价圭臬。这种评分模式不再是简便的对错判断,而是像安分改革作文一样,从多个维度进行邃密无比评估。每个问题皆配有翔实的评分圭臬,包括事实准确性、时间定位才气、多模态信息整合等方面。这种评分模式无意提供愈加精准和可解释的评估效果。

在技能架构方面,连络团队建议了LongShOTAgent智能代理系统。这个系统接受模块化盘算推算,就像一个配备了各类专科器用的多面手技师。它的中枢是一个轻量级的配合器,阐扬统筹调配各类专科模块,包括视觉清醒模块、语音识别模块和音频分析模块。迎面对复杂的视频理撤职务时,配合器会凭证需要动态遴选相宜的器用组合。

LongShOTAgent的责任历程分为三个阶段。最初是预处理和索引阶段,系统会对输入的长视频进行分段处理,索求各类模态的特征信息,并建造多模态向量数据库。这个过程肖似于史籍经管员为新到的册本编目和分类,为后续的快速检索作念好准备。接下来是自稳妥检索阶段,系统会凭证用户的查询需求,智能地定位到最有关的视频片断,幸免在所有这个词这个词长视频中进行低效搜索。临了是迭代优化和空洞阶段,系统会调用各类专科模块对检索到的片断进行深刻分析,并将效果整合成连贯的回话。

在实验评估中,连络团队测试了包括Gemini-2.5-Flash、Qwen2.5-Omni等在内的多个先进AI模子。效果涌现,即使是最强的交易模子Gemini-2.5-Flash也只达到了52.95%的全体准确率,而开源模子的线路更是普遍低于30%。这个效果令东谈主表露地相识到,面前的AI技能在长视频清醒方面仍有很大的普及空间。

深嗜的是,连络团队发现模子在处理不同长度视频时的线路有在彰着各别。在处理30分钟以内的短视频时,模子线路相对较好,但跟着视频长度增多到60分钟以上,性能彰着下落。这种表象肖似于东谈主类在万古期专注时容易出现重观点漫衍,反应了面前AI系统在万古期牵挂和推理方面的局限性。

LongShOTAgent在此次测试中线路出色,达到了44.66%的全体准确率,固然仍低于Gemini,但显贵卓绝了所有这个词开源模子。这讲明了通过合理的模块化盘算推算和智能配合,不错在不增多西宾数据的情况下显贵普及系统性能。

连络团队还极度体恤了器用使用才气的评估,这是传统视频清醒基准中缺失的伏击才气。在履行诓骗中,AI系统时常需要调用各类外部器用来完成复杂任务,比如进行数学计较、查询外部常识库或施行代码。LongShOTBench包含了16种不同类型的器用,涵盖语音处理、视觉清醒、翻译工作、计较器用和信息检索等多个方面。

从数据构建的角度来看,LongShOTBench的制作过程体现了严格的质料端正圭臬。连络团队接受了五阶段的自动化历程,包括多模态标注生成、问题盘算推算、谜底生成、分级圭臬制定和东谈主工考据。所有这个词的问题和谜底皆经过了东谈主工群众的审核和修正,确保了基准测试的可靠性和灵验性。

极度值得一提的是,连络团队在问题盘算推算时引入了情境框架的宗旨。他们莫得径直让AI模子生成问题,而是最初分析视频内容,识别出不同的不雅看情境,然后基于这些情境盘算推算相应的问题。这种方法更靠拢确切的东谈主类视频不雅看体验,无意更好地评估AI系统的实用价值。

在多轮对话评估中,LongShOTBench接受了理念念轨迹栽培来幸免失实积蓄。这意味着在对话的每一轮中,系统皆会基于圭臬谜底而不是前一轮的失实回话来络续对话。这种盘算推算确保了每一轮对话皆能得到公谈的评估,不会因为前边的失实而影响后续线路。

从技能已矣的角度看,LongShOTBench撑抓原生视频输入契约,幸免了因为不同的帧采样战略而带来的评估偏差。连络团队让每个模子使用我方的默许视频处理模式,这么的盘算推算愈加公谈,也更接近本体诓骗场景。

连络效果揭示了面前AI系统在长视频清醒方面的几个重要瓶颈。最初是万古期牵挂问题,现有模子难以在万古期跨度内守护一致的清醒状况。其次是多模态信息整合才气不及,很多模子固然无意处理视觉或音频信息,但难以灵验地将它们连合起来进行推理。临了是器用使用才气的缺失,大大量模子阑珊调用外部器用来治理复杂问题的才气。

这项连络的影响不单是局限于学术界。跟着视频内容在畴前生计中的伏击性不断增多,从在线教诲到文娱媒体,从安防监控到医疗会诊,长视频清醒技能的诓骗长进极其广漠。LongShOTBench为这些诓骗提供了圭臬化的评估框架,有助于推进有关技能的发展和落地。

连络团队也坦率地商榷了面前连络的局限性。由于计较资源的圆寂,他们主要体恤了参数目在10亿以下的模子,何况视频内容主要源泉于公开平台,可能在各类性方面存在一定局限。然则,他们容或将缓缓扩大基准测试的限制,并抓续更新和完善评估框架。

从方法论的角度来看,这项连络展示了奈何通过合理的任务判辨和模块化盘算推算来治理复杂的AI问题。LongShOTAgent的胜仗讲明了,并不老是需要更大的模子和更多的西宾数据,有时候智能的系统盘算推算和灵验的模块配合相似无意带来显贵的性能普及。

连络团队还极度强调了可复现性的伏击性。他们容或将公开所有这个词的代码、数据和评估框架,使其他连络者无意基于这个基础进行进一步的连络和纠正。这种敞开的连络作风关于推进所有这个词这个词畛域的发展具有伏击深嗜。

预测异日,这项连络为长视频清醒技能的发展指明了标的。跟着更浩大的基础模子和更高效的西宾方法的出现,连合LongShOTBench提供的圭臬化评估框架,咱们有事理敬佩AI系统在长视频清醒方面将会赢得更大的冲突。同期,器用增强的AI代理系统也将在更多本体诓骗中阐扬伏击作用。

Q&A

Q1:LongShOTBench比拟其他视频清醒测试有什么极度之处?

A:LongShOTBench是首个同期体恤万古期跨度和多模态信息的空洞基准。它包含平均45分钟的长视频,同期整合视觉、语音和环境音频信息,还引入了器用使用才气测试。传统测试要么只看短片断,要么忽略音频,LongShOTBench更接近确切的视频清醒需求。

Q2:为什么面前最强的AI模子在LongShOTBench上线路不睬念念?

A:即使是Gemini-2.5-Flash这么的顶级模子也只达到52.95%的准确率,主要原因是长视频清醒触及多个技能难点:万古期牵挂守护繁难、多模态信息整合复杂、器用使用才气不及。跟着视频长度增多,所有这个词模子的线路皆会显贵下落,这反应了面前技能的局限性。

Q3:LongShOTAgent是奈何责任的?

A:LongShOTAgent接受模块化盘算推算,包含一个轻量级配合器和多个专科模块。它先对长视频进行预处理和索引,建造多模态数据库,然后凭证查询需求智能检索有关片断,临了调用相宜的专科模块进行分析并整合效果。这种盘算推算在不增多西宾的情况下显贵普及了性能。