Gemini In IOS 18: L'IA MM1 Sta Per Rivoluzionare Apple

Siamo in attesa dell’annuncio della WWDC 2024: l’evento per sviluppatori che quest’anno dovrebbe essere incentrato sull’intelligenza artificiale. Quindi sarà un evento molto importante.

Mentre attendiamo le date, che di solito cadono nel mese di giugno, arrivano notizie che Apple e Google stanno discutendo sull’integrazione del modello linguistico Gemini di Google in iOS 18.

L’integrazione mira a migliorare le capacità di IA di Apple per compiti complessi sia in locale per attività semplici che su cloud per compiti più articolati come la generazione di immagini realistiche o testi lunghi.

Nonostante Apple lavori sulle proprie soluzioni di IA, quali il progetto open-source multimodale MM1 e i generatori interni Ajax e Apple GPT, la società starebbe trattando con Google per avere Gemini, come indica Bloomberg. Questo evidenzia i ritardi della società nel settore dell’AI generativa.

Indice dei contenuti

I progressi di Apple nel settore dell’IA

Apple sta lavorando intensamente nel campo dell’intelligenza artificiale (IA), puntando a rafforzare le proprie competenze e a competere con giganti come Google, Microsoft e Amazon.

Tra i progetti di spicco, troviamo il modello multimodale open-source MM1, e iniziative interne come Ajax e Apple GPT. Questi sforzi mirano a sviluppare sistemi conversazionali avanzati e a migliorare significativamente le capacità di Siri, con l’obiettivo di automatizzare attività complesse multi-step potenzialmente già in iOS 18.

Squadra e Investimenti: La squadra dedicata all’IA conversazionale in Apple, denominata “Modelli Fondamentali”, conta 16 membri e riceve un sostanziale supporto finanziario. Apple investe milioni di dollari al giorno per l’addestramento dei suoi modelli linguistici, dimostrando l’impegno dell’azienda verso l’innovazione in questo campo.
Tecnologia e Potenziale: Il progetto Ajax prevede un chatbot proprietario chiamato “Apple GPT”, che dovrebbe superare le capacità dell’originale ChatGPT 3.5 grazie all’addestramento su un dataset di 200 miliardi di parametri. Inoltre, Apple sta sviluppando software per la generazione di contenuti multimediali, inclusi video e immagini, e pianifica di implementare l’IA in Xcode per assistere automaticamente gli sviluppatori di app.

Nonostante l’ambizione, Apple riconosce le proprie lacune tecnologiche rispetto a concorrenti come Google, spingendola a cercare partner per il “lavoro pesante” nella generazione di IA, in particolare per la creazione di immagini e testi basati su prompt.

Le discussioni con Google sono in corso, e sebbene un accordo non sia previsto prima del WWDC di giugno, Apple esplora anche collaborazioni con OpenAI o la possibilità di offrire agli utenti più partner IA, per evitare potenziali problemi antitrust.

In cosa consiste il progetto Ajax di Apple

Apple sta sviluppando un ambizioso modello di linguaggio su larga scala noto come Ajax, affiancato da un chatbot interno denominato Apple GPT.

Questi progetti rappresentano la spina dorsale degli sforzi di Apple per avanzare nel campo dell’intelligenza artificiale, mirando a creare sistemi conversazionali avanzati che possano comprendere e rispondere in modo naturale alle richieste degli utenti.

L’obiettivo è quello di migliorare significativamente l’interazione tra l’utente e i dispositivi Apple, rendendo Siri e altre applicazioni basate su IA più intuitive e capaci.

Ajax si configura come un tentativo di Apple di superare le capacità attuali dei modelli linguistici disponibili, puntando ad addestrare il sistema su un dataset di dimensioni senza precedenti. La cifra esatta non è stata divulgata, ma si stima che il modello venga addestrato su centinaia di miliardi di parametri, il che potrebbe posizionarlo al vertice del settore per capacità e precisione.

L’aspetto innovativo di Ajax risiede nella sua capacità di gestire una vasta gamma di compiti, dalla generazione di testo alla comprensione del linguaggio naturale, offrendo una base solida per lo sviluppo di applicazioni e servizi più intelligenti.

Parallelamente, Apple GPT si presenta come un chatbot sviluppato internamente con l’obiettivo di integrarsi perfettamente nell’ecosistema Apple. Questo chatbot è destinato a diventare un punto di riferimento per gli utenti, assistendoli in una varietà di attività quotidiane e fornendo risposte contestualizzate e personalizzate.

La combinazione di Ajax e Apple GPT segna un passo significativo verso la realizzazione di un’interfaccia utente basata sull’IA che possa comprendere e anticipare le esigenze degli utenti, migliorando l’esperienza complessiva con i prodotti Apple.

Cosa prevede il modello MM1 per LLM multimodale

Il modello MM1 rappresenta un passo avanti significativo nello sviluppo dell’intelligenza artificiale multimodale, combinando con abilità dati visivi e linguistici.

Questo modello è progettato per eseguire con alta precisione compiti quali la generazione di didascalie per immagini, la risposta a domande visive e l’inferenza del linguaggio naturale. La sua capacità di comprendere e generare linguaggio basandosi su segnali visivi e linguistici apre nuove frontiere per le interazioni uomo-macchina.

Capacità di Apprendimento Contestuale: Il MM1, nella sua configurazione più ampia di 30 miliardi di parametri, ha dimostrato eccezionali abilità di apprendimento contestuale. Utilizza la tecnica del “catena di pensiero” per risolvere problemi complessi e aperti basandosi su pochi esempi, mostrando una notevole capacità di ragionamento multi-step.
Funzionalità Multimodali: Grazie al suo addestramento multimodale, il MM1 può eseguire previsioni in contesto, contare oggetti, seguire formati personalizzati, riferirsi a parti di immagini, eseguire OCR, dimostrare senso comune e svolgere funzioni matematiche di base. Queste capacità lo rendono particolarmente versatile e adatto a un’ampia gamma di applicazioni.

Il modello MM1 sfrutta un dataset diversificato, che include coppie immagine-didascalia, dati immagine-testo intrecciati e dati solo testuali, per il pre-addestramento su larga scala.

Il coinvolgimento di Google con Gemini

Apple e Google stanno valutando l’uso di Gemini per migliorare le funzionalità di IA in iOS 18 in tempi brevi. Questa collaborazione potrebbe rappresentare un importante passo avanti per Apple, che cerca di potenziare le proprie capacità in termini di intelligenza artificiale.

Il modello Gemini di Google, noto per la sua capacità di gestire input audio, video e testuali di grandi dimensioni, supera le prestazioni di GPT-4, evidenziando un’evoluzione significativa nella tecnologia di generazione di contenuti.

Accordo Finanziario: La potenziale intesa tra Apple e Google potrebbe riflettere l’attuale accordo tra le due aziende, che vede Apple ricevere il 36% dei ricavi pubblicitari generati dalle ricerche effettuate tramite Safari. Questa collaborazione, tuttavia, si estenderebbe all’uso dell’IA generativa basata su cloud di Google per la creazione di testi e immagini, ampliando significativamente le capacità degli iPhone in termini di generazione di contenuti.
Impatto sui Dispositivi: Google ha già stretto una partnership con Samsung per integrare le capacità di Gemini nei dispositivi Galaxy S24. L’integrazione di Gemini in iOS 18 potrebbe rivoluzionare l’approccio all’IA nei dispositivi consumer, migliorando notevolmente le funzionalità degli iPhone in aree come la creazione di immagini e la generazione di testi a partire da prompt forniti dagli utenti.
Considerazioni Strategiche e Regolamentari: La partnership potrebbe aiutare Apple a colmare il divario nel settore dell’IA, specialmente considerando le sfide incontrate con Siri. Tuttavia, un accordo di questa portata potrebbe attirare l’attenzione dei regolatori per questioni anticoncorrenziali, dato che entrambe le aziende sono già sotto la lente delle autorità regolatorie in Europa e negli Stati Uniti.

Si tratterebbe di un accordo win-win: da un lato Apple avrebbe più tempo per addestrare i suoi modelli AI proprietari e dall’altro Google otterrebbe un uso massivo di Gemini, che potrebbe portare a un suo ulteriore miglioramento. Per non parlare dell’accordo miliardario per l’uso delle API di Gemini.

Sfide e considerazioni

L’integrazione di Gemini in iOS 18 e il progresso verso l’AI MM1 multimodale sollevano questioni importanti e sfide che Apple e Google devono affrontare.

L’aspetto più critico riguarda la privacy e la sicurezza dei dati degli utenti. Con la crescente capacità di elaborazione e generazione di contenuti basati sull’intelligenza artificiale, si pone il rischio che le informazioni personali possano essere utilizzate in modi non previsti o addirittura dannosi.

Un’altra considerazione riguarda l’interoperabilità tra i sistemi di Apple e Google. Sebbene le due aziende stiano collaborando su Gemini, garantire che le tecnologie funzionino senza problemi su piattaforme diverse può essere una sfida. Questo richiede un lavoro di adattamento e ottimizzazione costante per assicurare che le funzionalità basate su AI siano accessibili ed efficienti su tutti i dispositivi.

Infine, c’è la questione dell’accettazione da parte degli utenti. L’introduzione di capacità avanzate di AI nei dispositivi quotidiani porta con sé il compito di educare il pubblico sull’uso responsabile e sui benefici di queste tecnologie.

Apple e Google devono quindi impegnarsi non solo nello sviluppo tecnologico ma anche nella comunicazione efficace delle potenzialità e dei limiti dell’IA, per costruire fiducia e promuovere un’adozione consapevole da parte degli utenti.

Queste sfide richiedono un approccio olistico che consideri non solo gli aspetti tecnici ma anche etici e sociali dell’integrazione dell’IA nei dispositivi di uso quotidiano.

La collaborazione tra Apple e Google su Gemini iOS 18 rappresenta un’opportunità unica per affrontare queste questioni in modo innovativo, ponendo le basi per un futuro in cui l’IA può migliorare significativamente l’esperienza utente mantenendo alti standard di privacy e sicurezza.

In conclusione

La collaborazione, sebbene richieda ancora conferme e risultati tangibili, suggerisce la possibilità di esperienze utente arricchite e più intuitive nei dispositivi Apple, promettendo avanzamenti nel modo in cui interagiamo con la tecnologia quotidianamente.

Guardando al futuro, la partnership tra Apple e Google su Gemini potrebbe indubbiamente segnare un punto di svolta. Tuttavia, affrontare con successo le preoccupazioni per la privacy e garantire una transizione fluida e accessibile per gli utenti saranno i veri test per questo ambizioso progetto.

Ma resta comunque una domanda a cui gli utenti vorrebbero risposta: ma Siri, dopo tutto questo, diventerà realmente utile?

Gemini in iOS 18 in attesa dell’addestramento dell’AI MM1