ReALM

Apple ha recentemente presentato ReALM (Reference Resolution As Language Modeling), un innovativo modello di AI progettato per migliorare le interazioni con Siri.

Questo nuovo sistema di intelligenza artificiale punta a comprendere in modo più accurato i riferimenti ambigui nel linguaggio naturale e il contesto visivo degli utenti.

ReALM converte le informazioni di contesto in formato testuale, permettendo ai modelli di machine learning di interpretarle più facilmente.

Ciò potrebbe portare Siri a fornire risposte più intuitive, anticipando le necessità degli utenti in base a ciò che appare sullo schermo dei loro dispositivi iOS o macOS. Con le sue prestazioni simili a GPT-4 ma con una maggiore efficienza, ReALM potrebbe rivoluzionare le capacità di intelligenza artificiale dei prodotti Apple, a partire da iOS 18 e macOS 15.

Cosa è ReALM e come può migliorare l’AI

Convertendo la risoluzione dei riferimenti in un problema di modellazione del linguaggio, ReALM ottiene significativi miglioramenti delle prestazioni rispetto ai metodi esistenti.

Lo studio dimostra che ReALM mostra sostanziali miglioramenti rispetto ai sistemi attuali, con anche il modello più piccolo che registra un aumento di oltre il 5% nella gestione dei riferimenti sullo schermo.

Rispetto a GPT-4, i modelli ReALM di Apple mostrano prestazioni simili con meno parametri, rendendoli più adatti per l’uso sui dispositivi. Convertendo le immagini in testo, ReALM bypassa la necessità di parametri avanzati di riconoscimento delle immagini, risultando in un modello più piccolo ed efficiente.

Il modello è progettato per migliorare l’accuratezza e la fluidità naturale delle interazioni con Siri, comprendendo meglio il contesto e il significato dietro le richieste degli utenti, specialmente quelle che coinvolgono riferimenti ambigui.

Ecco alcuni punti chiave:

  • Converte tutte le informazioni presenti sullo schermo in testo, semplificando il compito per il modello di linguaggio che ora deve elaborare solo dati testuali.
  • Questo approccio rende il processo di analisi dei dati contestuali più efficiente e meno dispendioso in termini di risorse, portando potenzialmente a risposte più veloci e accurate da Siri.
  • I modelli ReALM più piccoli di Apple hanno prestazioni simili a GPT-4, ma con meno parametri, rendendoli più adatti per l’uso direttamente sui dispositivi.
  • Aumentando i parametri in ReALM, le sue prestazioni superano ampiamente quelle di GPT-4.

I vantaggi di ReALM rispetto ad altri modelli di AI concorrenti

I risultati delle valutazioni mostrano che ReALM supera significativamente i precedenti sistemi di risoluzione dei riferimenti allo stato dell’arte come MARRS, e persino il più piccolo modello ReALM-80M si comporta allo stesso livello di GPT-4 nonostante abbia molti meno parametri.

I modelli ReALM sono disponibili in quattro dimensioni: ReALM-80MReALM-250MReALM-1B e ReALM-3B, dove “M” e “B” indicano rispettivamente milioni e miliardi di parametri. ReALM dimostra anche solide capacità di generalizzazione zero-shot, permettendogli di gestire nuovi tipi di entità come “allarmi” senza un addestramento esplicito.

Comparazione ReALM
ReALM: il nuovo modello AI di Apple che promette di comprendere dove sta operando 3

I possibili utilizzi di ReALM

Il modello può trovare numerose applicazioni pratiche per migliorare l’esperienza utente grazie al suo approccio innovativo di convertire le informazioni visive in formato testuale. Ecco alcuni potenziali utilizzi:

  • Assistenti virtuali più intuitivi: Sfruttando il riconoscimento avanzato delle immagini per comprendere meglio il contesto visivo, ReALM può aiutare assistenti come Siri a fornire risposte più pertinenti e contestualizzate alle richieste degli utenti. Ad esempio, se un utente chiede “Cosa significa questa icona?”, Siri potrebbe analizzare ciò che appare sullo schermo e dare una risposta accurata.
  • Interazioni più fluide: Convertendo le informazioni visive in testo, ReALM semplifica il processo di analisi del contesto per i modelli di linguaggio. Ciò può portare a interazioni più veloci e naturali con le app, poiché le richieste ambigue vengono comprese in modo più accurato.
  • Accessibilità migliorata: La capacità di ReALM di interpretare i riferimenti visivi potrebbe essere particolarmente utile per gli utenti con disabilità visive. Ad esempio, un assistente vocale potrebbe descrivere in modo preciso gli elementi sullo schermo, migliorando l’accessibilità.

Cosa potremmo vedere alla WWDC 2024 in merito all’intelligenza artificiale

Apple ha grandi piani per l’intelligenza artificiale, molti dei quali potrebbero essere svelati alla Worldwide Developers Conference (WWDC) del 2024. Ecco cosa potremmo aspettarci:

Lancio pubblico di ReALM e altre iniziative AI

Apple prevede di lanciare pubblicamente le sue iniziative AI, incluso ReALM, alla WWDC di giugno 2024. Questo potrebbe segnare l’inizio di una nuova era per l’intelligenza artificiale nei prodotti Apple.

Strategia AI completa e modelli ibridi

Apple dovrebbe presentare una strategia AI completa durante la WWDC 2024. Questa potrebbe includere:

  • Modelli on-device più piccoli per preservare la privacy e la sicurezza
  • Licenze di LLM di altre aziende per l’elaborazione off-device più complessa
  • Potenziali partnership con Google per le funzionalità di Gemini e la tecnologia OpenAI sugli iPhone

Nuove funzionalità AI in iOS 18

Con iOS 18, previsto per il 2024, ci aspettiamo di vedere numerose nuove funzionalità AI, tra cui:

  • Miglioramenti di Siri: Una nuova generazione di Siri potrebbe tenere conversazioni più naturali, ricordare il contesto e offrire suggerimenti proattivi grazie a ReALM.
  • Funzioni AI in iWork: Suite di produttività come Pages e Keynote potrebbero integrare strumenti di scrittura e presentazione potenziati dall’AI.
  • Strumento di completamento del codice assistito dall’AI: Per semplificare lo sviluppo di app per sviluppatori.

Con la sua vasta base di utenti e la focalizzazione sull’esecuzione del prodotto, Apple potrebbe emergere come leader nella creazione del primo “vero sistema operativo nativo per l’AI”.

In conclusione

ReALM rappresenta un passo avanti significativo nell’evoluzione dell’intelligenza artificiale di Apple. Convertendo le informazioni di contesto in formato testuale, questo modello innovativo può migliorare notevolmente l’esperienza utente con assistenti virtuali come Siri.

L’approccio permette una comprensione più accurata dei riferimenti ambigui e del contesto visivo, portando a interazioni più fluide e intuitive.

Sebbene il potenziale di ReALM sia promettente, è importante ricordare che si tratta di una tecnologia emergente. Sarà fondamentale monitorarne attentamente l’impatto sull’esperienza utente e continuare a perfezionarla nel tempo.

Con una implementazione attenta e un costante miglioramento, ReALM potrebbe trasformare il modo in cui interagiamo con i dispositivi Apple nei prossimi anni.

Join the Conversation

6 Comments

  1. “Apple potrebbe emergere come leader nella creazione del primo “vero sistema operativo nativo per l’AI”.”

    Addirittura…

  2. non capisco una cosa, mi piacerebbe approfondire, nel momento in cui hai sviluppato ReALM, per quale motivo devi stingere partnership con Google?

    “…Potenziali partnership con Google per le funzionalità di Gemini e la tecnologia OpenAI sugli iPhone…”

    Con iOS18, cosa sarebbe demandato a ReALM, e cosa a Google? ReALM sarebbe solo dietro Siri, e per tutto il resto ci sarebbe Gemini?

    1. Il fatto è che i modelli vanno istruiti con molti dati e questo richiede tempo. Probabilmente per giugno questo addestramento non sarà ancora a buon punto. Quindi al momento probabilmente ne affittano uno già istruito.

      1. ma appoggiandosi ad un altro, non c’è il rischio che l’integrazione con l’hw venga meno, almeno in parte, e che non sia possibile far girare tutto sul dispositivo?

      2. Non solo, si rischia pure di regalare dati di addestramento a Google con interazioni fatte su iOS.

Leave a comment

Cosa ne pensi?