Dopo il flop di Llama 4, Zuckerberg punta sul ragionamento avanzato e sul multimodale. I benchmark lo mostrano competitivo ma non dominante. Pecca: non sarà open source. E un ente indipendente solleva dubbi sul suo comportamento durante i test di sicurezza.
Meta è tornata nella corsa all’intelligenza artificiale con un modello nuovo, un’architettura nuova e — soprattutto — una struttura organizzativa nuova. Muse Spark è il primo modello sviluppato dal Meta Superintelligence Labs, l’unità di ricerca creata nel 2025 con investimenti miliardari e guidata da Alexandr Wang, cofondatore di Scale AI, che Zuckerberg ha ingaggiato a peso d’oro insieme a una schiera di ricercatori attratti con compensi che includono centinaia di milioni di dollari in azioni.
Il lancio arriva dopo il caso Llama 4 — aprile 2025, ampiamente criticato, con Meta che ha poi ammesso di aver usato versioni ottimizzate non rilasciate al pubblico per gonfiare i benchmark. Questa volta, l’azienda ha scelto un approccio diverso: meno ambizioni di dominio assoluto, più concretezza sui casi d’uso.
Cosa sa fare Muse Spark
Muse Spark rompe con la tradizione dei modelli Meta su un punto fondamentale: è il primo modello di ragionamento dell’azienda. I modelli precedenti erano progettati per rispondere immediatamente sulla base dell’addestramento; Muse Spark invece affronta i problemi passo dopo passo, cambiando strategia se il primo approccio non funziona. È inoltre multimodale — elabora e genera sia testo che immagini — e può coordinare il lavoro di più sotto-agenti in parallelo grazie a una modalità di “riflessione” che Meta paragona alle funzioni avanzate di Gemini Deep Think e GPT Pro.
Meta lo descrive come “piccolo e veloce, ma sufficientemente potente da affrontare domande complesse in ambiti come scienza, matematica e salute.” È il primo di una nuova famiglia: servirà a validare architettura e metodi di addestramento prima di passare a versioni più grandi.
I benchmark: competitivo, non dominante
I numeri pubblicati da Meta mostrano un modello che si inserisce nella fascia alta del mercato senza però dominarlo. Nel GPQA Diamond — il test che misura capacità di livello dottorale — Muse Spark ottiene l’89,5%, dietro al 94,3% di Gemini 3.1 Pro e al 92,7-92,8% di Claude Opus 4.6 e GPT-5.4. Sul benchmark sanitario HealthBench Hard, invece, supera tutti i concorrenti con un punteggio del 42,8% — un risultato significativo in un settore ad alto valore.
Il caveat rimane quello già noto: Meta ha in passato manipolato i risultati dei benchmark con versioni non rilasciate al pubblico. Se i test indipendenti confermeranno questi numeri, il cambio di passo sarà reale. Se no, sarà un déjà vu di Llama 4.
Non è open source — almeno per ora
C’è però un cambio di filosofia che ha già suscitato reazioni nella community AI: Muse Spark non è open source. A differenza dei modelli precedenti della famiglia Llama — scaricabili, modificabili, eseguibili su hardware proprio — Muse Spark è attualmente uno strumento principalmente interno. Sarà disponibile in anteprima privata per partner selezionati via API, rendendolo persino più proprietario rispetto ai modelli a pagamento di OpenAI e Anthropic. Meta ha dichiarato di voler rendere open source le versioni future, ma per ora l’accesso è chiuso.
Il modello alimenta già Meta AI nell’app dedicata e su meta.ai, e nelle prossime settimane verrà integrato in WhatsApp, Instagram, Facebook, Messenger e negli occhiali Ray-Ban AI.
Il dubbio sulla sicurezza: “Riconosce le trappole”
Sul fronte della sicurezza, i test interni mostrano che Muse Spark ha rifiutato il 98% delle richieste considerate potenzialmente pericolose in un benchmark sul rischio biologico. Ma l’ente indipendente Apollo Research ha sollevato un problema più sottile: il modello mostra un’elevata “consapevolezza della valutazione”, riconoscendo spesso i test come “trappole di allineamento.” Meta ha minimizzato, sostenendo che il fenomeno riguarda solo una piccola parte delle valutazioni. Gli esperti di sicurezza AI, però, sanno che un modello capace di riconoscere quando viene testato — e comportarsi di conseguenza — è esattamente il tipo di comportamento che rende più difficile valutarne la reale pericolosità.
La macchina dietro Muse Spark
Il lancio è il risultato visibile di una riorganizzazione profonda. Nel giugno 2025, Meta ha investito 14,3 miliardi di dollari per acquisire il 49% di Scale AI e portare Wang in azienda come primo Chief AI Officer. A marzo 2026 è stata creata una nuova divisione di ingegneria AI applicata guidata da Maher Saba, che lavora in parallelo ai Superintelligence Labs per sviluppare quello che un memo interno definisce “il motore dati che migliora i modelli più rapidamente.”
Secondo Meta, negli ultimi nove mesi l’infrastruttura AI è stata ricostruita da zero: l’azienda sostiene di aver raggiunto prestazioni simili a Llama 4 Maverick con oltre un ordine di grandezza in meno di potenza computazionale — un risultato, se reale, che cambierebbe i parametri economici dell’intera industria.
