Apple Foundation Model: 5 Modelli, 1 Segreto, $1B

Apple ha presentato la terza generazione dei suoi modelli di base per l’intelligenza artificiale. Sono cinque, non uno. Sono nati da un accordo miliardario con Google. E il modo in cui funzionano — soprattutto il modello da 20 miliardi di parametri che ne attiva solo 3 sul tuo iPhone — dice molto di più su dove va l’industria di quanto non dicano i numeri di benchmark.

Per due anni, Apple Intelligence è stato un prodotto in cerca di credibilità. Siri non migliorava. Le funzionalità AI arrivavano con mesi di ritardo. L’assistente sembrava più una slide di marketing che un prodotto reale.

Ora il quadro cambia. I nuovi Apple Foundation Model (AFM 3) non sono un aggiornamento incrementale. Sono una ridefinizione dell’architettura — on-device e cloud, con la privacy come vincolo progettuale e non come features.

“People don’t buy what you do; they buy why you do it.” — Simon Sinek. Apple sta scommettendo che nel mercato dell’IA, il perché conta più del quanto. E i numeri, per una volta, sembrano darle ragione.

Indice

I cinque modelli AFM 3: una famiglia inedita

La famiglia AFM 3 è composta da cinque modelli, ognuno pensato per un workload specifico. Non è un’unica intelligenza generale: è un ecosistema modulare che copre tutto, dalla classificazione di un’email alla generazione di immagini.

Modello	Tipo	Parametri totali	Parametri attivi	Deployment
AFM 3 Core	Denso, testo	3B	3B	On-device
AFM 3 Core Advanced	Sparse, multimodale	20B	1–4B (via IFP)	On-device
AFM 3 Cloud	Sparse (PT-MoE)	Non dichiarato	Non dichiarato	PCC — Apple silicon
ADM 3 Cloud	Visione/imagine	Non dichiarato	Non dichiarato	PCC — Apple silicon
AFM 3 Cloud Pro	Reasoning, agentic	Non dichiarato	Non dichiarato	PCC — NVIDIA su Google Cloud

AFM 3 Core — il solido sul palmo della mano

Un modello denso da 3 miliardi di parametri. Niente di fantascientifico, ma con un salto qualitativo rispetto alla generazione precedente: nei test di preferenza umana, il 45.6% dei partecipanti lo preferisce al modello 2025 (che ne prendeva il 23.3%). Per la comprensione delle immagini, supera il 61%. È il modello che lavora dietro quinte quando chiedi a Siri di riassumere una email o di suggerire una risposta.

AFM 3 Core Advanced — il vero colpo di scena

Qui sta la sorpresa. 20 miliardi di parametri in architettura nativamente multimodale e sparse — ma solo 1–4 miliardi attivi per ogni token generato. Il modello completo vive nella memoria flash (NAND) del dispositivo. Per ogni prompt, un sparse mask predictor analizza l’istruzione e carica in DRAM solo i parametri necessari.

Il risultato: prestazioni che si avvicinano a un modello da 9 miliardi, con la latenza di uno da 3. Nei benchmark di matematica e coding, guadagna 5–8 punti assoluti rispetto al Core da 3B denso. È come avere un modello grande che si adatta in tempo reale alla complessità della richiesta. Ne parliamo in dettaglio nel prossimo paragrafo.

AFM 3 Cloud — il lavoro pesante nel cloud

Il modello server-side generico. Ottimizzato per velocità e prestazioni, gira su chip Apple silicon all’interno della Private Cloud Compute. Costruito su un’architettura Parallel-Track Mixture-of-Experts (PT-MoE), con miglioramenti per stabilità e ragionamento su lungo contesto. Nei test, il 64.7% dei partecipanti lo preferisce al modello cloud del 2025 (che ne otteneva l’8.7%).

ADM 3 Cloud — il modello che vede

Specializzato nella comprensione e generazione di immagini. Gestisce Genmoji, Image Playground, il fotoritocco avanzato e — soprattutto — i task di editing con controllo spaziale. Supporta la Spatial Reframing, il tocco diretto sulle aree da modificare e la personalizzazione dell’output visivo. Il 37.8% di preferenza vs. il 9.6% del predecessore.

Esempi di immagini generate con ADM 3 Cloud

AFM 3 Cloud Pro — il reasoner

Il modello più capace della famiglia. Puntato su agentic tool use, ragionamento complesso e matematica. Aggiunge circa il 10% in soddisfazione testuale e il 14% su task di immagine rispetto ad AFM 3 Cloud. La novità architetturale: è l’unico modello che non gira su Apple silicon, ma su GPU NVIDIA all’interno di Google Cloud, mantenendo le garanzie di privacy della PCC.

IFP: il pruning che cambia le regole del gioco on-device

Il cuore tecnico di AFM 3 Core Advanced è una tecnica chiamata Instruction-Following Pruning (IFP), pubblicata da Apple su un paper presentato a ICML e poi integrata nell’architettura di production.

Cos’è il pruning strutturato

In generale, il pruning (potatura) è una tecnica per rimuovere parametri ridondanti da un modello, rendendolo più piccolo e veloce. Il pruning strutturato rimuove interi gruppi di parametri (righe e colonne delle matrici FFN), mantenendo la struttura efficiente per l’inferenza. Funziona bene, ma è statico: una volta deciso cosa tagliare, il mask non cambia.

Cosa fa IFP in modo diverso

IFP rende il pruning dinamico e dipendente dall’input. Per ogni prompt, un sparse mask predictor analizza l’istruzione e decide quali righe e colonne delle FFN attivare. Il modello completo (20B parametri) resta nella memoria flash del dispositivo. Ma solo la porzione rilevante — tipicamente 1–4B parametri — viene caricata in DRAM per l’inferenza.

In pratica, IFP condivide lo spirito del Mixture-of-Experts (MoE): attiva dinamicamente un sottinsieme di parametri. Ma è progettato specificamente per l’inferenza on-device, dove il caricamento pesi dalla flash è costoso e la latenza è critica.

Architettura AFM 3 Core Advanced - Instruction-Following Pruning

I risultati

Il modello da 3B attivi tramite IFP supera di 5–8 punti il modello denso da 3B in domini come matematica e coding, e si avvicina alle prestazioni di un modello denso da 9B — con una latenza (time-to-first-token) quasi identica a quella di un denso da 3B.

Per il Text-to-Speech, AFM 3 Core Advanced con 1B parametri attivi raggiunge un MOS di 4.15 nella voce generale e 4.24 nella voce conversazionale, rispetto ai 3.87 e 3.82 del baseline. Per la dettatura, il 44.7% di preferenza vs. il 17.6%.

Private Cloud Compute su Google Cloud: la privacy si espande

Una delle notizie meno urlate — ma forse più significative — è l’espansione della Private Cloud Compute (PCC) su infrastruttura Google Cloud.

Fino ad oggi, i task computazionalmente intensivi che non potevano girare on-device venivano gestiti da server Apple silicon nei data center Apple. Con AFM 3 Cloud Pro — il modello per reasoning e agentic tool use — Apple ha bisogno di GPU NVIDIA, che non possiede. La soluzione: portare la PCC su Google Cloud.

Come ha spiegato Apple Security Research, le garanzie fondamentali restano invariate:

Computazione stateless: nessun dato persiste dopo l’elaborazione
Garanzie enforceable: il codice è verificabile e Apple ne mantiene il controllo completo
Nessun accesso privilegiato: nessun operatore umano può accedere ai dati
Non targettizzabilità: i server non possono essere individuati e attaccati come bersagli specifici
Trasparenza verificabile: tutti i binari vengono pubblicati per ispezione pubblica

L’infrastruttura su Google Cloud combina NVIDIA Confidential Computing, CPU Intel con TDX (Trust Domain Extensions) e il chip Titan di Google. Apple e Google hanno costruito protezioni aggiuntive: un trusted computing base completo (dai firmware al codice applicativo), una supply chain protetta con registri crittograficamente verificabili, e un’architettura che isola il parsing dei dati di rete in processi dedicati.

“Apple retains complete control over PCC software; Apple devices will only trust PCC software that is cryptographically approved by Apple.”

La rotta graduale verso la disponibilità completa è prevista per l’estate 2026.

Cosa cambia per l’utente concreto

Tradotto in funzionalità reali, i modelli AFM 3 alimentano tutto ciò che Apple ha annunciato alla WWDC 2026. Come abbiamo raccontato nella nostra copertura dell’evento:

Siri diventa un vero assistente conversazionale. Non è più un modello isolato: è l’intera famiglia AFM orchestrata. Il contesto personale, la conoscenza del mondo e la consapevolezza dello schermo permettono a Siri di gestire conversazioni complesse — non solo comandi vocali.

Le immagini diventano modificabili con precisione. ADM 3 Cloud gestisce la Spatial Reframing, il ritocco al tocco e la personalizzazione. Image Playground si estende oltre l’inquadratura originale, riempiendo bordi e contesti.

La voce di Siri è più espressiva. Con MOS 4.24 nella voce conversazionale, l’assistente è meno robotico e più naturale — un dettaglio che conta nella percezione quotidiana.

Lo sviluppo si apre. Come già illustrato nella nostra analisi sul Foundation Models framework, gli sviluppatori possono accedere al modello on-device attraverso un’API dedicata, integrando l’IA direttamente nelle loro app.

Tutto gratis, su ogni dispositivo Apple. Apple non sta mettendo AI dietro un paywall. Il che è una scelta strategica precisa: vendere ecosistema, non abbonamenti.

Analisi: le sfide che restano aperte

Il prezzo del segreto

Il ruolo di Google nella costruzione dei modelli AFM 3 è un dettaglio che Apple gestisce con cura. Come avevamo già analizzato, l’accordo multi-year prevede un flusso di circa 1 miliardo di dollari all’anno verso Google. Le tecnologie alla base dei modelli Gemini sono state usate per costruire gli AFM 3 — tramite distillazione — ma Apple mantiene il branding completo. Non ci sono tracce di “Gemini” nel prodotto finale. Apple Insider ha scritto che i modelli “don’t contain a drop of Gemini”, ma la distillazione implica che le capacità del modello teacher (Gemini) influenzano il student (AFM).

Il vantaggio competitivo è reale?

I numeri sono impressionanti: AFM 3 Core Advanced con 3B parametri attivi si avvicina a un modello denso da 9B. Ma la competizione non è ferma. Google ha Gemini Nano che gira on-device. Samsung sta integrando modelli proprietari. Meta ha Llama per il mercato open-source. Il vantaggio di Apple resta l’integrazione verticale — hardware, software e servizi sotto un unico controllo — ma il gap tecnico si sta riducendo.

La Private Cloud Compute è davvero sicura?

L’espansione su Google Cloud è audace. Apple sta dicendo: “possiamo fidarci di un terzo per i nostri dati più sensibili, a patto che l’architettura sia giusta”. Le garanzie sono solide sul carta — binari pubblici, attesting indipendenti, supply chain verificabile. Ma ogni estensione del perimetro di sicurezza è anche un nuovo vettore di attacco. Il fatto che Apple pubblichi i binari per ispezione pubblica è un segnale forte. Le conferenze di sicurezza e i bounty program completeranno il quadro.

L’asimmetria del miliardo

L’accordo con Google crea un’asimmetria interessante: Apple paga Google per costruire modelli che competono con Google. Google riceve miliardi e vede le proprie tecnologie usate dal suo rivale più importante nel consumer. Per Apple, il miliardo è il costo della privacy — il prezzo per non dover gestire data center GPU da centinaia di migliaia di dollari ciascuno. Per Google, è revenue pura con basso rischio.

Domande frequenti (FAQ)

I modelli AFM 3 usano i dati personali degli utenti per l’addestramento?

No. Apple dichiara esplicitamente che l’addestramento utilizza dati pubblici, con licenza, open-source, sintetici e da studi dedicati. Nessuna interazione utente viene utilizzata. Gli editori web possono optare per l’esclusione.

Cos’è la Private Cloud Compute e perché è diversa dal cloud normale?

La PCC è un sistema in cui i dati vengono elaborati in server stateless che non mantengono informazioni dopo l’elaborazione. Nessun operatore umano può accedere ai dati, il codice è verificabile pubblicamente e Apple mantiene il controllo crittografico su tutto il software eseguito. È l’opposto del cloud tradizionale, dove il fornitore ha accesso potenziale ai dati.

AFM 3 Core Advanced funziona su tutti gli iPhone?

No. Il modello sparse da 20B è ottimizzato per l’Apple silicon più recente e potente. I dispositivi con meno memoria disponibile utilizzeranno AFM 3 Core (il modello denso da 3B), che resta comunque significativamente migliorato rispetto alla generazione precedente.

Siri è un modello separato?

No. Siri è l’orchestrazione dell’intera famiglia AFM. A seconda della richiesta, Siri può invocare il modello on-device (Core o Core Advanced) o il cloud (Cloud, Cloud Pro, ADM 3 Cloud). Non esiste un “modello Siri” isolato.

Apple vende i dati agli advertiser?

Apple afferma che i dati degli utenti non vengono venduti. I modelli AFM 3 non utilizzano dati privati per l’addestramento e l’inferenza on-device non invia dati al cloud per i task più semplici. Per le richieste che richiedono il cloud, la PCC garantisce che i dati non persistano.

Fonti

Introducing the Third Generation of Apple’s Foundation Models — Apple Machine Learning Research, 8 giugno 2026
Expanding Private Cloud Compute — Apple Security Research, giugno 2026
Instruction-Following Pruning for Large Language Models — Apple ML Research / ICML, giugno 2025
Paper IFP su arXiv — Hou et al., 2025

Articoli correlati su melamorsicata.it:

Apple Foundation Model: cinque modelli, un segreto e un miliardo di dollari