币界网消息,据动察 Beating 监测,谷歌团队(作者包括何恺明、谢赛宁等)发表论文,提出 Vision Banana,在自家图像生成模型 Nano Banana Pro(即 Gemini 3 Pro Image)上做轻量指令微调,将其转化为通用视觉理解模型。核心做法是把所有视觉任务的输出统一参数化为 RGB 图像,让分割、深度估计、表面法线估计等感知任务都通过图像生成来完成,无需为每类任务设计专用架构或训练损失。评测覆盖了图像分割和 3D 几何推断两大类任务。分割方面,语义分割(给图中每个像素标注类别,如「路面」「行人」「车辆」)在 Cityscapes 上超过专用分割模型 SAM 3 4.7 个百分点;指代表达分割(根据自然语言描述找到并分割对应物体,如「左边那只戴帽子的狗」)同样超过 SAM 3 Agent。但在实例分割(区分同一类别的不同个体,如分别标出图中的五只狗)上仍落后于 SAM 3。3D 方面,度量深度估计(从单张照片推算每个像素到相机的实际物理距离)在四个标准数据集上平均准确率 0.929,高于专用模型 Depth Anything V3 的 0.918,且完全用合成数据训练,不使用真实深度数据,推理时也不需要相机参数。表面法线估计(推断物体表面朝向)在三个室内基准上取得最优。微调只是将少量视觉任务数据混入原始图像生成训练数据,模型的图像生成能力基本不受影响:在生成质量评测中与原始 Nano Banana Pro 打平。论文认为图像生成预训练在视觉领域的角色类似于文本生成预训练在语言领域的角色:模型在学会生成图像的过程中,已经习得了理解图像所需的内部表征,指令微调只是将其释放出来。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
