Granite 4.0 3B Vision: IBM batte tutti sulla table extraction — 92,1 TEDS su PubTables, Apache 2.0

IBM rilascia Granite 4.0 3B Vision con un obiettivo dichiarato: estrarre dati strutturati da documenti enterprise meglio di qualsiasi modello compatto disponibile. Il risultato: SOTA su table extraction (92,1 TEDS su PubTablesV2), SOTA su chart understanding (86,4% su Chart2Summary), e 85,5% exact match su form extraction zero-shot. Licenza Apache 2.0, 3B parametri, disponibile su HuggingFace. […]

Waypoint-1.5: mondi 3D interattivi generati in tempo reale dalla tua GPU — RTX 3090 basta

Overworld rilascia Waypoint-1.5, un world model che genera ambienti 3D interattivi in tempo reale direttamente sulla GPU di casa. Non è un gioco, non è un motore grafico — è un modello AI che crea mondi esplorabili generativamente, frame per frame, rispondendo all’input dell’utente. Funziona su RTX 3090 a 720p/60fps. Su laptop gaming standard in […]

Meta Muse Spark: 16 strumenti integrati, #4 al mondo — ma non è open source

Meta ha presentato Muse Spark, il suo nuovo modello AI accessibile via meta.ai — il primo rilascio significativo dopo Llama 4. Score Artificial Analysis: 52, quarto al mondo dietro Gemini 3.1 Pro, GPT-5.4 e Claude Opus 4.6. La particolarità: 16 strumenti integrati nativi, tra cui code interpreter Python, visual grounding e sub-agenti. Il limite: non […]

RAG multimodale in locale: guida completa con Sentence Transformers v5.4 e Qwen3-VL

Finora fare RAG su documenti visivi — PDF scansionati, screenshot, slide, immagini di prodotto — richiedeva pipeline complesse con OCR, pre-processing e modelli separati per testo e immagini. Sentence Transformers v5.4 cambia questo: con una singola API puoi creare embedding multimodali su testo, immagini e video, e costruire sistemi di ricerca semantica che funzionano cross-modale. […]