Technology Innovation Institute (TII) rilascia Falcon Perception: un modello di visione da soli 0.6B parametri specializzato in grounding e segmentazione da linguaggio naturale. Su quasi tutti i benchmark batte SAM 3 (Meta) nonostante una dimensione nettamente inferiore — con margini che arrivano a +21,9 punti sulla comprensione spaziale.
Cosa fa Falcon Perception
Il grounding visuale è la capacità di identificare e localizzare oggetti in un’immagine in base a una descrizione testuale: “auto rossa nel parcheggio”, “persona con cappello blu in secondo piano”, “tabella nella parte inferiore del documento”. Falcon Perception va oltre la semplice detection: produce maschere di segmentazione a risoluzione variabile, gestisce scene dense (centinaia di istanze), e capisce istruzioni OCR-guided (“l’oggetto con l’etichetta che dice X”).
Architettura: early-fusion single backbone
La scelta tecnica chiave è l’early-fusion: patch di immagini e testo vengono processati in una singola sequenza dallo stesso backbone, con un’hybrid attention mask — bidirezionale per le immagini, causale per il testo. Nessuna pipeline modulare separata per vision e linguaggio. Il risultato è un modello più compatto e più veloce, con l’interfaccia Chain-of-Perception: il modello produce prima le coordinate (<coord>), poi le dimensioni (<size>), poi la maschera (<seg>).
Benchmark vs SAM 3
| Task | Falcon Perception | SAM 3 (Meta) | Vantaggio |
|---|---|---|---|
| SA-Co Macro-F1 (segmentazione) | 68,0 | 62,3 | +5,7 |
| PBench L1 — Attributi | 63,6 | 54,4 | +9,2 |
| PBench L2 — OCR-guided | 38,0 | 24,6 | +13,4 |
| PBench L3 — Spatial | 53,5 | 31,6 | +21,9 |
| PBench L4 — Relazioni | 49,1 | 33,3 | +15,8 |
| Dense (100+ istanze) | 72,6 | 58,4 | +14,2 |
Fonte: TII / arXiv:2603.27365, aprile 2026. Unico punto dove SAM 3 vince: calibrazione presenza (MCC 0.82 vs 0.64).
Come usarlo
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
model = AutoModelForCausalLM.from_pretrained(
"tiiuae/Falcon-Perception",
device_map="auto"
)
processor = AutoProcessor.from_pretrained("tiiuae/Falcon-Perception")
image = Image.open("scena.jpg")
prompt = "auto rossa parcheggiata"
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
masks = processor.post_process_masks(outputs)
VRAM stimata: 4-8 GB per il modello da 0.6B — gira su qualsiasi GPU gaming da RTX 3060 in su. Il companion Falcon OCR (0.3B) per document understanding richiede 2-4 GB.
