Falcon Perception: 0.6B parametri e batte SAM 3 nel grounding visuale — spatial +21%, OCR-guided +13%

Technology Innovation Institute (TII) rilascia Falcon Perception: un modello di visione da soli 0.6B parametri specializzato in grounding e segmentazione da linguaggio naturale. Su quasi tutti i benchmark batte SAM 3 (Meta) nonostante una dimensione nettamente inferiore — con margini che arrivano a +21,9 punti sulla comprensione spaziale.

Cosa fa Falcon Perception

Il grounding visuale è la capacità di identificare e localizzare oggetti in un’immagine in base a una descrizione testuale: “auto rossa nel parcheggio”, “persona con cappello blu in secondo piano”, “tabella nella parte inferiore del documento”. Falcon Perception va oltre la semplice detection: produce maschere di segmentazione a risoluzione variabile, gestisce scene dense (centinaia di istanze), e capisce istruzioni OCR-guided (“l’oggetto con l’etichetta che dice X”).

Architettura: early-fusion single backbone

La scelta tecnica chiave è l’early-fusion: patch di immagini e testo vengono processati in una singola sequenza dallo stesso backbone, con un’hybrid attention mask — bidirezionale per le immagini, causale per il testo. Nessuna pipeline modulare separata per vision e linguaggio. Il risultato è un modello più compatto e più veloce, con l’interfaccia Chain-of-Perception: il modello produce prima le coordinate (<coord>), poi le dimensioni (<size>), poi la maschera (<seg>).

Benchmark vs SAM 3

Task	Falcon Perception	SAM 3 (Meta)	Vantaggio
SA-Co Macro-F1 (segmentazione)	68,0	62,3	+5,7
PBench L1 — Attributi	63,6	54,4	+9,2
PBench L2 — OCR-guided	38,0	24,6	+13,4
PBench L3 — Spatial	53,5	31,6	+21,9
PBench L4 — Relazioni	49,1	33,3	+15,8
Dense (100+ istanze)	72,6	58,4	+14,2

Fonte: TII / arXiv:2603.27365, aprile 2026. Unico punto dove SAM 3 vince: calibrazione presenza (MCC 0.82 vs 0.64).

Come usarlo

from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
    "tiiuae/Falcon-Perception",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained("tiiuae/Falcon-Perception")

image = Image.open("scena.jpg")
prompt = "auto rossa parcheggiata"

inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
masks = processor.post_process_masks(outputs)

VRAM stimata: 4-8 GB per il modello da 0.6B — gira su qualsiasi GPU gaming da RTX 3060 in su. Il companion Falcon OCR (0.3B) per document understanding richiede 2-4 GB.

Cosa fa Falcon Perception

Architettura: early-fusion single backbone

Benchmark vs SAM 3

Come usarlo

Lascia un commento Annulla risposta