肛交 哭 游戏bug帮大模子学物理!准确率超GPT4o近4个百分点
发布日期:2024-12-08 13:23 点击次数:93
会通物理知识的大型视频话语模子PhysVLM肛交 哭,开源了!
它不仅在 PhysGame 基准上展现出动身点进的性能,还在通用视频贯穿基准上(Video-MME, VCG)发达出朝上的性能。
在这项商榷之前,思让 AI 像东谈主类儿童相通,通过不雅察天下贯穿基本的物理学问,是一个主要挑战。
关于推行天下的视频来说,全面秘籍和阐述统共泛泛的物理风景既难题又无须要。
比拟之下,游戏视频(gameplay videos)经常包含违背物理学问的"故障风景"(glitches),这有助于简化物理学问贯穿的界说和评估,即专注于阐述物理学问的违背风景,而不是试图列举统共存在的泛泛物理风景。
为此,PhysVLM 在成心整理的一套数据集上查考,包括用于评估的 PhysGame benchmark、用于监督微调的 PhysInstruct 数据集和用于偏好对王人的 PhysDPO 数据集。
三级电影PhysGame benchmark 贪图
如图所示, PhysGame包含 880 个含有故障风景的游戏视频,每个视频都配有一个高质地的多项选拔题,成心针对故障风景的性质进行标注。
△PhysGame 类别漫衍
PhysGame 涵盖了四个要害的物理边界(即力学、联接学、光学和材料属性),并细分为 12 个具体类别(如重力和速率)。
力学(Mechanics):该类别触及力与力矩过火春联接的影响,提供了阐述和分析视频中物体联接的基础旨趣。典型案例包括重力、弹性和摩擦力。
联接学(Kinematics):该边界商榷不筹议力的情况下的联接,触及良好分类,如随技术变化的速率和加快度。
光学(Optics):该边界激情光的行动与特质过火与物资的相互作用,包括反射、折射以及招揽与透射。
材料属性(Material properties):该边界指的是物资固有的特质,包括颜料、刚性、物体形势以及东谈主体姿态。
PhysGame benchmark 构建
视频收罗和过滤 :
PhysGame 中的视频主要从 Reddit 页面握取,该页面包含带有额外事件和故障风景的游戏视频。为了均衡不同的类别,团队还通过要害词搜索从 YouTube 增强视频数据。团队笔据以下两项轨范进行东谈主工筛查:
选项生成 :
本文以多项选拔题的形势创建问答对。具体来说,正确选项姿首了视频中违背物理学问原则的特定故障风景。为了增强收敛选项的实在度,本文条目收敛选项中的故障风景应与视频中不雅察到的个体或动作高度关系,这使视频 LLM 贯穿故障骨子,而不单是通过识别包含的物体或动作来选拔谜底。
质地截止 : 肛交 哭
为了保证数据集的质地,本文进行了一项包括东谈主工检查和自动 LLM 赞助检查在内的双重质地截止过程:
东谈主工检查:统共初步标注的问答对都经过不同东谈主工标注东谈主员的严格交叉检查。关于正确选项,检查东谈主员必须评估它们是否全面准确地姿首了统共存在的物理学问违背实例。关于收敛选项,检查东谈主员需评估它们是否宽裕具有招引性;
LLM 赞助检查 : 团队去除那些仅凭问题和选项,不需要稽查视频就能由 GPT-4o 正确回答的问答对。
△PhysGame 示例 PhysInstruct&PhysDPO 数据集构建
PhysInstruct:
为了栽培视频 LLM 的物理学问贯穿才气,团队修复了 PhysInstruct 数据集用于监督微调。视频收罗过程与 PhysGame 中的进程调换。为了退守数据裸露,团队严格摒除任何已包含在 PhysGame 中的视频。团队治服 Self-instruct 范式通过教唆 GPT-4o 来构建 PhysInstruct。
PhysDPO:
团队构建了偏好对王人数据集 PhysDPO,以提供更实在和可靠的回答。如图 3 所示,团队将 PhysInstruct 数据聚积生成的谜底视为 preferred 回答,而 dis-preferred 回答则通过元信息点窜(meta-information hacking)、技术点窜(temporal hacking)和空间点窜(spatial hacking)生成。团队用误导性的元信息以及减少帧数和镌汰帧分辨率的视频帧来教唆 GPT-4o。
以下是 PhysDPO 数据集构建进程图:
模子评估与分析
PhysGame benchmark 实验成果 :
在统共私有模子中,GPT-4o 和 Gemini-1.5-pro 发达最好,辩认达到了 56.1% 和 55.2% 的平均准确率。在统共细分边界中,GPT-4o 在摩擦和加快度方面发达优厚。比拟之下,Gemini-1.5-pro 在贯穿与重力、弹性、反射、招揽与透射、颜料和刚性关系的物理学问方面发达更强。
现存的开源模子远远逾期于私有模子。即即是发达最好的开源模子 LLaVA-OneVision,其平均准确率仅为 47.7%。比拟之下,本文提议的 PhysVLM 在统共私有和开源模子中都达到了动身点进的性能。与开源步伐比拟,本文的 PhysVLM 在 12 个评估边界中的 6 个边界达到了最高性能。值得注意的是,PhysVLM-DPO 在平均准确率这一决策上比最好发达的私有模子 GPT-4o 超出了 3.4%。
△PhysGame benchmark 实验成果
Video-MME benchmark 实验成果 :
本文的 PhysVLM 模子在统共 7B 模子中发达优厚。令东谈主诧异的是,动作 7B 模子,PhysVLM-SFT 和 PhysVLM-DPO 在全体发达上辩认比 34B 模子 LLaVA-NeXT-Video 提高了 3.2% 和 3.8% 的统统值。通过比较 PhysVLM-SFT 和 PhysVLM-DPO,团队发现,使用所提议的 PhysDPO 数据进行 DPO 查考在短视频和长视频上的发达都有所栽培,而在中等长度的视频上的发达略有着落。
△Video-MME benchmark 实验成果
VCG benchmark 实验成果 :
在仅使用 SFT 的模子中,本文的 PhysVLM-SFT 在平均得分方面发达最好。在四个子类别的评估中,PhysVLM-SFT 在信息正确性和一致性类别上发达尤为出色。与使用 DPO 或 PPO 查考的 PPLLaVA 和 LLaVA-Next-Video 比拟,本文的 PhysVLM-DPO 也展现出超卓的性能,进一步考证了所提议的 PhysVLM 模子在通用视频贯穿中的出色才气。
△VCG benchmark 实验成果
PhysVLM 关系论文、代码、数据均已开源 :
pre-prints: https://arxiv.org/abs/2412.01800
代码相连 : https://github.com/PhysGame/PhysGame
leaderboard: https://physgame.github.io/#leaderboard
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿骨子
附上论文 / 情势主页相连,以及关系方式哦
咱们会(尽量)实时修起你
点这里� � 激情我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~