手机版
搜索
帮助
微博
微信

互联网快讯

首页科技快讯 Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平

Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平

来源：晰数塔互联网快讯时间：2026年02月13日 20:44

（来源：机器之心）

本工作由香港科技大学、中科院自动化所、加州大学圣克鲁斯分校的研究者们共同完成

当我们解一道复杂的数学题或观察一幅抽象图案时，大脑往往需要反复思考、逐步推演。然而，当前主流的深度学习模型却走的是「一次通过」的路线——输入数据，经过固定层数的网络，直接输出答案。

这种前馈式架构在图像分类等感知任务上表现出色，但面对需要多步推理的抽象问题时，却显得力不从心。最典型的例子就是「ARC-AGI 基准测试」——一个被认为是衡量 AI 抽象推理能力的「试金石」。

近日，来自香港科技大学、中科院自动化所、UC Santa Cruz 的研究团队提出了「Loop-ViT」，首次将循环 Transformer 引入视觉推理领域。这个仅有 18M 参数的模型，在 ARC-AGI-1 基准上达到了「65.8%」的准确率，超越了参数量高达 73M 的 VARC 集成模型。更令人惊讶的是，其 3.8M 的小型版本也能达到 60.1% 的准确率，几乎追平人类平均水平（60.2%）。

论文标题：LoopViT: Scaling Visual ARC with Looped Transformers

论文链接：https://arxiv.org/abs/2602.02156

代码开源：https://github.com/WenjieShu/LoopViT

什么是 ARC-AGI？

为什么它如此困难？

ARC-AGI（Abstraction and Reasoning Corpus）是由 Keras 之父 François Chollet 提出的抽象推理基准。与 ImageNet 等传统视觉基准不同，ARC 不考察模型识别猫狗、汽车的能力，而是测试其归纳推理能力。

每个 ARC 任务仅提供 2–4 个示例对（输入-输出网格），模型需要从这些示例中归纳出潜在规则，然后将其应用到新的测试输入上。这些规则可能涉及：

对象的平移、旋转、镜像

图案的重复与填充

基于颜色的条件变换

类似「重力」的物理模拟

人类通常能够通过观察示例、提出假设、验证修正的迭代过程来解决这些问题。然而，传统的前馈神经网络却缺乏这种「反复思考」的能力——它们的计算深度被固定绑定在网络层数上。

Loop-ViT 的核心创新

循环架构：解耦计算深度与参数量

传统 Vision Transformer 的计算流程是：输入 → 第 1 层 → 第 2 层 → …… → 第 L 层 → 输出。每增加一层就意味着更多的参数，计算深度与模型容量紧密绑定。

Loop-ViT 的设计理念截然不同：重复执行同一组权重。模型的核心是一个权重共享的 Transformer 块，可以被循环执行 T 次。这意味着：

计算深度可以任意扩展，而不增加参数

模型被迫学习一个通用的「思考步骤」，而非任务特定的启发式规则

类似于人类大脑的工作记忆被反复更新

数学上，传统模型是，而 Loop-ViT 是，同一个

被反复应用。

混合编码块：全局推理 + 局部更新

研究团队观察到，ARC 任务需要两种不同的处理模式：

全局规则归纳：理解整体变换规律（如「所有蓝色变红色」）

局部模式执行：精确的像素级操作（如「填充封闭区域」）

为此，Loop-ViT 设计了 Hybrid Block，融合了：

自注意力机制：捕捉全局依赖关系

深度可分离卷积：处理局部空间模式

动态退出：知道何时停止思考

并非所有问题都需要同样长的思考时间。简单的几何变换可能几步就能确定答案，而复杂的算法推理则需要更多迭代。

Loop-ViT 引入了基于熵的动态退出机制：

每次迭代后，计算预测分布的 Shannon 熵

当熵值低于阈值（模型「确信」了答案），立即停止

无需任何额外参数，完全基于模型的内在不确定性

实验表明，能够「早退」的样本准确率高达 83.33%，而需要完整迭代的困难样本准确率为 45.80%。这与人类的认知资源分配策略惊人地一致——简单问题快速解决，复杂问题投入更多时间。

实验结果：

小参数，大性能

在 ARC-AGI-1 基准上，Loop-ViT 的表现令人印象深刻。几个关键观察如下：

参数效率惊人：3.8M 的 Loop-ViT-Small 超越 18M 的 VARC，仅用 1/5 参数。

超越模型集成：18M 的 Loop-ViT 超越 73M 的 VARC 四模型集成。

深入理解：

模型在「思考」什么？

研究团队对 Loop-ViT 的内部机制进行了可视化分析，揭示了有趣的「涌现」行为：

预测结晶现象：随着迭代进行，模型的预测从模糊逐渐变得清晰确定。早期迭代的预测波动较大，后期则趋于稳定——就像溶液中的晶体逐渐析出。

注意力模式演化：

早期迭代：注意力分布广泛，模型在「扫描」整个输入，收集信息。

后期迭代：注意力变得稀疏聚焦，精确对准需要操作的区域。

这种从「全局探索」到「局部执行」的转变，与人类解决视觉推理问题的策略高度相似。

结语

Loop-ViT 的成功揭示了一个重要洞见：在视觉领域，对于需要推理的任务，「思考时间」比「模型大小」更重要。

这与当前大模型领域一味追求参数规模的趋势形成鲜明对比。也许，实现真正的人工智能不仅需要更大的网络，更需要让模型学会像人一样「反复思考」。

相关推荐

Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平
 AI教父Hinton中国首次演讲实录：人类可能就是大语言模型
 5分钟读懂Lilian Weng万字长文：大模型是怎么思考的？
为什么我们需要拥抱小模型？
一个让AI帮忙深度思考的方法
 科普之旅｜漫话智能体-当机器学会思考
 Open AI发布新一代大模型“o1”：会像人类一样“花时间思考”
蚂蚁、OpenAI、DeepSeek卷疯了！国产最强万亿参数旗舰模型Ling-1T开源
 人工智能的“高考”时刻，AI大模型打先锋
 AI将取代40%白领类职业，跨越两条“生死线”

网址: Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平 http://www.xishuta.cn/newsview147074.html

所属分类：行业热点

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

最新科技快讯

智元发布远征A3全尺寸机器人，2026年量产目标数万台

智元发布远征A3全尺寸机器人，2026年

微软喊话要实现AI“自给自足” 预言白领工作18个月内实现自动化

微软喊话要实现AI“自给自足” 预言白领

Loop-ViT：让AI学会「反复思考」全国首个！超3万卡国产AI算力上线，喂饱股价提前暴涨！千亿AI巨头，正式开源发布近4万根钢丝撑起世界第一高桥，中国研发合 1800亿大模型龙头提价30%！机会这么史上第二惨！苹果市值一夜蒸发逾万亿 AI 高德被约谈背后：谁在为「低价」买单？科比“开网约车” 万物皆可“单挑”詹姆斯

科技快讯热点排名

科技快讯热点

人类唯一的出路: 变成人工智能（五）

人类唯一的出路: 变

报告：抖音海外版下载量突破10亿大关挑战Facebook

报告：抖音海外版下载

苏宁易购2018年报:营收破2453亿线下门店超万家

苏宁易购2018年报

阿里巴巴钉钉宣布1月30日上线企业拜年红包

阿里巴巴钉钉宣布1月

即时专业知识

精选专栏

Lofree（洛斐）数字键盘可以控制方向