동찰 Beating에 따르면 구글 팀(He Kaiming, Xie Saining 등의 저자 포함)이 논문을 발표했으며 Vision Banana를 제안했습니다. 이 논문에서는 Nano Banana Pro(즉, Gemini 3 Pro Image)라는 자사 이미지 생성 모델을 가볍게 조정하여 일반적인 시각 이해 모델로 변환했습니다. 핵심 방법은 모든 시각 작업의 출력을 RGB 이미지로 통일 매개화하여 세그멘테이션, 깊이 추정, 표면 노멀 추정 등의 인지 작업을 모두 이미지 생성을 통해 수행하고 각 작업에 대해 전용 아키텍처나 교육 손실을 설계할 필요가 없습니다.
평가는 이미지 세그멘테이션 및 3D 기하적 추론 두 가지 주요 범주의 작업을 다룹니다. 세그멘테이션 측면에서 시티스케이프스(도로, 보행자, 차량과 같은 각 픽셀에 대한 카테고리 레이블 지정)에서 의미론적 세그멘테이션은 전용 세그멘테이션 모델 SAM 3 4.7포인트 이상을 넘었습니다. 지시 체계적인 세그멘테이션(자연어 설명에 따라 해당 물체를 찾고 세분화하는 것, 예: "모자를 쓴 개의 왼쪽에")도 SAM 3 Agent를 앞섰습니다. 그러나 인스턴스 세그멘테이션(다른 개체를 분류하는 것, 예: 이미지에서 다섯 마리 개를 각각 식별)에서는 여전히 SAM 3에 뒤쳐졌습니다. 3D 측면에서, 메트릭 깊이 추정(단일 사진에서 각 픽셀을 카메라로부터의 실제 물리적 거리로 추정)은 네 가지 표준 데이터셋에서 평균 정확도 0.929로 Depth Anything V3 전용 모델의 0.918보다 높았으며, 완전히 합성된 데이터만을 사용하여 학습했으며 실제 깊이 데이터는 사용하지 않았으며 추론 시 카메라 매개 변수가 필요하지 않았습니다. 표면 노멀 추정(물체 표면 방향 추론)은 삼 개의 실내 벤치마크에서 최적의 결과를 얻었습니다.
미세 조정은 소량의 시각 작업 데이터를 원래 이미지 생성 교육 데이터에 혼합하는 것으로, 모델의 이미지 생성 능력은 거의 영향을 받지 않습니다. 생성 품질 평가에서 원래 Nano Banana Pro와 유사합니다. 논문은 이미지 생성 사전 교육이 언어 분야의 텍스트 생성 사전 교육과 유사한 역할을 시갖는다고 주장하며, 모델은 이미지 생성을 배우면서 이미지 이해에 필요한 내부 표현을 학습했고, 지시 조정은 단지 그것을 해방하는 것뿐이라고 합니다.