萌币圈游戏工作室

当前位置:首页 » 区快链资讯 » 24小时快讯 »  正文»谷歌Vision Banana:计算机视觉的「GPT

谷歌Vision Banana:计算机视觉的「GPT

据动察 Beating 监测,谷歌团队(作者包括何恺明、谢赛宁等)发表论文,提出 Vision Banana,在自家图像生成模型 Nano Banana Pro(即 Gemini 3 Pro Image)上做轻量指令微调,将其转化为通用视觉理解模型。核心做法是把所有视觉任务的输出统一参数化为 RGB 图像,让分割、深度估计、表面法线估计等感知任务都通过图像生成来完成,无需为每类任务设计专用架构或训练损失。

评测覆盖了图像分割和 3D 几何推断两大类任务。分割方面,语义分割(给图中每个像素标注类别,如「路面」「行人」「车辆」)在 Cityscapes 上超过专用分割模型 SAM 3 4.7 个百分点;指代表达分割(根据自然语言描述找到并分割对应物体,如「左边那只戴帽子的狗」)同样超过 SAM 3 Agent。但在实例分割(区分同一类别的不同个体,如分别标出图中的五只狗)上仍落后于 SAM 3。3D 方面,度量深度估计(从单张照片推算每个像素到相机的实际物理距离)在四个标准数据集上平均准确率 0.929,高于专用模型 Depth Anything V3 的 0.918,且完全用合成数据训练,不使用真实深度数据,推理时也不需要相机参数。表面法线估计(推断物体表面朝向)在三个室内基准上取得最优。

微调只是将少量视觉任务数据混入原始图像生成训练数据,模型的图像生成能力基本不受影响:在生成质量评测中与原始 Nano Banana Pro 打平。论文认为图像生成预训练在视觉领域的角色类似于文本生成预训练在语言领域的角色:模型在学会生成图像的过程中,已经习得了理解图像所需的内部表征,指令微调只是将其释放出来。

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

上一篇: Web3信息基础设施协议RSS3现已部署至Avalanche
下一篇: KelpDAO:正推进善后解决方案,并将优先保障用户利益

猜你喜欢


优惠券怎么做才能赚钱?地推为成功助力

优惠券怎么做才能赚钱?地推为成功助力

我正式加入高佣联盟这个正能量满满的大家庭!并在师傅,团队伙伴和如简的帮助支持下,从一个标准的宝妈小白,凭借高佣联盟“让生活更优惠,让创业更简单”的大爱平台,到如今159w+团队,终于打拼出属于自己的一片天空!感谢帮助过我的所有人,滴水之恩,永远铭记于心!...

当了7年全职宝妈,纯小白起步的教程

当了7年全职宝妈,纯小白起步的教程

但有了宝宝后就做了全职宝妈,一做就是七年。这七年,除了把我培养的颇懂如何带娃养娃之外,其他的职场技能似乎消失殆尽。当我想重新赚钱的时候,与社会长期脱轨带来的自我怀疑,让我陷入了迷茫,而高佣联盟的出现,让我看到了能找回曾经的自己的希望...

安卓手机如何赚钱

安卓手机如何赚钱

利用安卓手机赚钱的方法多样,包括在线调查、应用试玩和平台推广等,新手也能轻松上手,每天赚取零花钱。...

会员中心

联系我们

  • 微信商务号
  • QQ交流1群
  • 联系站长
二维码