Technology Innovation Institute (TII) rilascia Falcon Perception: un modello di visione da soli 0.6B parametri specializzato in grounding e segmentazione da linguaggio naturale. Su quasi tutti i benchmark batte SAM 3 (Meta) nonostante una dimensione nettamente inferiore — con margini che arrivano a +21,9 punti sulla comprensione spaziale.

Cosa fa Falcon Perception

Il grounding visuale è la capacità di identificare e localizzare oggetti in un’immagine in base a una descrizione testuale: “auto rossa nel parcheggio”, “persona con cappello blu in secondo piano”, “tabella nella parte inferiore del documento”. Falcon Perception va oltre la semplice detection: produce maschere di segmentazione a risoluzione variabile, gestisce scene dense (centinaia di istanze), e capisce istruzioni OCR-guided (“l’oggetto con l’etichetta che dice X”).

Architettura: early-fusion single backbone

La scelta tecnica chiave è l’early-fusion: patch di immagini e testo vengono processati in una singola sequenza dallo stesso backbone, con un’hybrid attention mask — bidirezionale per le immagini, causale per il testo. Nessuna pipeline modulare separata per vision e linguaggio. Il risultato è un modello più compatto e più veloce, con l’interfaccia Chain-of-Perception: il modello produce prima le coordinate (<coord>), poi le dimensioni (<size>), poi la maschera (<seg>).

Benchmark vs SAM 3

Task Falcon Perception SAM 3 (Meta) Vantaggio
SA-Co Macro-F1 (segmentazione) 68,0 62,3 +5,7
PBench L1 — Attributi 63,6 54,4 +9,2
PBench L2 — OCR-guided 38,0 24,6 +13,4
PBench L3 — Spatial 53,5 31,6 +21,9
PBench L4 — Relazioni 49,1 33,3 +15,8
Dense (100+ istanze) 72,6 58,4 +14,2

Fonte: TII / arXiv:2603.27365, aprile 2026. Unico punto dove SAM 3 vince: calibrazione presenza (MCC 0.82 vs 0.64).

Come usarlo

from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
    "tiiuae/Falcon-Perception",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained("tiiuae/Falcon-Perception")

image = Image.open("scena.jpg")
prompt = "auto rossa parcheggiata"

inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
masks = processor.post_process_masks(outputs)

VRAM stimata: 4-8 GB per il modello da 0.6B — gira su qualsiasi GPU gaming da RTX 3060 in su. Il companion Falcon OCR (0.3B) per document understanding richiede 2-4 GB.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *