
A poco meno di un mese di anticipo rispetto la WWDC 2024, la conferenza degli sviluppatori Google I/O 2024 ha svelato le ultime novità nel campo dell’intelligenza artificiale e del machine learning.
Con Gemini, la nuova versione dell’assistente AI multimodale, Google punta a migliorare l’esperienza degli utenti Android, portando l’AI generativa e il supporto al linguaggio naturale direttamente sui dispositivi mobili.
Oltre a Gemini, Google ha annunciato numerose funzionalità AI all’avanguardia. Tra queste, spiccano l’integrazione di Gemini in Google Search, Workspace e Foto per migliorare la ricerca, la produttività e la gestione dei contenuti.
Novità attese anche per gli sviluppatori, con strumenti come Gemini Flash e Project Astra che promettono di semplificare lo sviluppo di applicazioni AI. Nel complesso, Google I/O 2024 ha visto alcune novità. Un giorno dopo il lancio di chatGPT-4o.
Indice dei contenuti
Le novità sull’integrazione di Gemini
Google sta integrando Gemini in numerose applicazioni come Gmail, Documenti, Drive, Presentazioni e Fogli. Grazie a Gemini 1.5 Pro, con una finestra di contesto fino a 2 milione di token e un ragionamento più avanzato, l’assistente può rispondere a una varietà più ampia di domande e fornire risposte più approfondite.
Nella barra laterale di Gmail, Gemini può riassumere le email ricevute, ad esempio quelle inviate dalla scuola dei figli, evidenziando i dettagli più importanti e le azioni da intraprendere.
Si può anche chiedere a Gemini di trovare informazioni specifiche, come i dettagli dell’hotel per una riunione familiare, e inserirle direttamente in un’email.
Nell’app mobile di Gmail, Gemini offrirà opzioni utili come “riassumi questa email”, “elenca i prossimi passi” o “suggerisci una risposta”. Potrete anche chiedere a Gemini di trovare offerte specifiche, come quella di un appaltatore per la riparazione del tetto, sepolte nella tua casella di posta.
Funzione ‘Chiedi a Foto’ in Google Foto
Google sta introducendo la funzione “Chiedi a Foto” in Google Foto, sfruttando l’intelligenza artificiale di Gemini. Questa nuova funzionalità vi permetterà di cercare e selezionare foto in base a risposte contestuali, rendendo più semplice navigare tra gli album.
Gemini può interpretare le immagini e leggere il testo al loro interno. Ad esempio, se state cercando la targa di un’auto tra una serie di foto, l’AI saprà riconoscere il veicolo in base alla frequenza con cui appare negli album e al contesto.
Secondo Google, “Chiedi a Foto” è così avanzata che potrebbe persino interpretare eventi della vita basandosi sulle foto, come quando una figlia ha imparato a nuotare per la prima volta.
Gemini nelle ricerche e nella Ricerca Google
Google sta portando Gemini direttamente nella Ricerca, con nuove funzionalità come “AI Overview” e capacità di pianificazione simili a un assistente virtuale.
Le “AI Overview” mostreranno un riepilogo delle risposte alle domande di ricerca più complesse, sintetizzando informazioni da tutto il web. Ad esempio, se cercate il modo migliore per pulire gli stivali in pelle, potreste vedere un riepilogo con un processo di pulizia dettagliato.
Inoltre, potrete cercare qualcosa come “Crea un piano pasti per 3 giorni per un gruppo, facile da preparare” e ottenere un punto di partenza con una vasta gamma di ricette da tutto il web.
La Ricerca Google con Gemini potrà anche aiutarvi a trovare ristoranti in base a criteri specifici, come la presenza di musica dal vivo o di terrazze panoramiche, a seconda della stagione.
Nuovi modelli di intelligenza artificiale
Google ha presentato Gemini 1.5 Flash, un modello leggero ottimizzato per velocità ed efficienza, ideale per task ad alta frequenza in cui la bassa latenza e il costo sono fattori cruciali.
Gemini 1.5 Flash eccelle in compiti come sintesi, chat, sottotitolazione di immagini e video, estrazione di dati da documenti e tabelle lunghi, grazie al processo di “distillazione” che trasferisce le conoscenze e le abilità essenziali dal modello più grande 1.5 Pro a questo modello più piccolo ed efficiente.
Miglioramenti a Gemini 1.5 Pro
Gemini 1.5 Pro, il modello di punta di Google, ha ricevuto numerosi miglioramenti. Oltre a estendere la finestra di contesto a 2 milione di token, Google ha potenziato le capacità di generazione di codice, ragionamento logico e pianificazione, conversazione multi-turno, e comprensione di audio e immagini attraverso avanzamenti nell’addestramento e negli algoritmi.
Gemini 1.5 Pro può ora seguire istruzioni sempre più complesse e sfumate, comprese quelle che specificano il comportamento a livello di prodotto, come il ruolo, il formato e lo stile.
L’azienda ha migliorato il controllo sulle risposte del modello per casi d’uso specifici, come la creazione di un agente di chat con una certa personalità e stile di risposta, o l’automazione di flussi di lavoro attraverso più chiamate di funzione. Inoltre, gli utenti possono ora indirizzare il comportamento del modello impostando istruzioni di sistema.
Progetto Astra: assistente multimodale avanzato
Google sta sviluppando prototipi di agenti avanzati come Progetto Astra, che possono elaborare informazioni più velocemente codificando continuamente i fotogrammi video, combinando input video e audio in una timeline di eventi e memorizzando queste informazioni per un rapido richiamo.
Sfruttando i modelli vocali all’avanguardia di Google, questi agenti hanno anche un tono di voce più naturale, con una gamma più ampia di intonazioni. Possono comprendere meglio il contesto in cui vengono utilizzati e rispondere rapidamente in conversazione, come un vero assistente personale.
Cosa sono i Gems di Gemini
Google ha introdotto i “Gems” in Gemini Advanced, che permettono agli utenti di creare versioni personalizzate di Gemini seguendo semplici istruzioni. Ad esempio, un utente può creare un “Gem” come un assistente culinario, un tutor di matematica o una guida alla scrittura creativa.
I Gems possono accedere a Google Drive, Gmail e altre app Google per basarsi sui contenuti presenti in queste estensioni. Questa funzione offre agli utenti un maggiore controllo e personalizzazione dell’esperienza con l’AI.
In pratica i Gems sono la risposta ai GPT di chatGPT.
Il modello Gemma di Google
Gemma è la famiglia di modelli open source leggeri di Google, costruiti sulla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini. Gemma offre modelli all’avanguardia che possono essere personalizzati per eccellere in nuovi compiti, utilizzando poche righe di codice con Keras 3.0, e possono essere distribuiti su Android con MediaPipe o serviti su Google Cloud.
Strumenti di generazione di contenuti
Google ha presentato Veo, il suo modello di generazione di video più avanzato e recente. Veo genera video di alta qualità a risoluzione 1080p in un’ampia gamma di stili visivi e cinematografici che possono durare oltre un minuto.
Con una comprensione avanzata del linguaggio naturale e della semantica visiva, genera video che rappresentano fedelmente la visione creativa dell’utente, catturando con precisione il tono del prompt e rendendo i dettagli anche in prompt più lunghi.
Il modello offre un livello di controllo creativo senza precedenti e comprende termini cinematografici come “timelapse” o “riprese aeree di un paesaggio”. Veo crea filmati coerenti e coesi, in modo che persone, animali e oggetti si muovano realisticamente durante le inquadrature.
Imagen 3 per la creazione di immagini
Imagen 3 è il modello di generazione di immagini da testo di Google di qualità più elevata. Genera un incredibile livello di dettaglio, producendo immagini fotorealistiche e realistiche, con molti meno artefatti visivi fastidiosi rispetto ai modelli precedenti.
Imagen 3 comprende meglio il linguaggio naturale, l’intento dietro il prompt e incorpora piccoli dettagli dai prompt più lunghi. La comprensione avanzata del modello lo aiuta a padroneggiare una vasta gamma di stili.
È anche il miglior modello di Google finora per la resa del testo, una sfida per i modelli di generazione di immagini. Questa capacità apre possibilità per generare messaggi di auguri personalizzati, diapositive di titoli nelle presentazioni e altro ancora.
Sia Veo che Imagen 3 sono attualmente disponibili solo in anteprima privata per un gruppo selezionato di creatori. Google sta esplorando modi per integrare queste tecnologie in prodotti come YouTube Shorts e altri strumenti per la creazione di contenuti, consentendo agli utenti un maggiore controllo creativo.
Funzionalità di Gemini per gli sviluppatori
Google sta lavorando per portare Gemini Nano alla versione desktop di Chrome, il browser internet più popolare al mondo. L’integrazione di Gemini Nano aiuterà gli utenti a generare testo per recensioni di prodotti, post sui social media e altro ancora.
Ciò è reso possibile dai recenti progressi nel supporto WebGPU e WASM su Chrome, che permettono a Gemini Nano di funzionare a una velocità ragionevole su diverse configurazioni hardware.
La società di Mountain View sembra già in trattative con altre aziende per portare questa funzionalità anche su altri browser. Presto verrà aperto un programma di anteprima per gli sviluppatori. Inoltre, Gemini Nano arriverà anche in Chrome DevTools, consentendo agli sviluppatori di ottenere spiegazioni per i messaggi di errore e aiutandoli a risolvere problemi di codifica.
Novità per gli sviluppatori di app Android
Dall’introduzione delle funzionalità AI in Android Studio l’anno scorso, Google continua ad evolvere i modelli sottostanti, integrare il feedback degli utenti ed espandere la disponibilità in più paesi e territori, in modo che gli sviluppatori possano sfruttare l’AI nel loro flusso di lavoro e diventare più produttivi.
Gli sviluppatori possono ora fornire prompt personalizzati a Gemini in Android Studio per generare suggerimenti di codice. Dopo aver abilitato Gemini, è possibile richiedere di semplificare il codice complesso riscrivendolo, eseguire trasformazioni specifiche o generare nuove funzioni descrivendole.
Gemini può ora analizzare i rapporti di crash, generare approfondimenti, fornire un riepilogo del crash e, quando possibile, consigliare i passaggi successivi, inclusi codice di esempio e link alla documentazione pertinente.
È disponibile un nuovo template di app di avvio per prototipare con i modelli Gemini, in cui è possibile inviare prompt direttamente all’API Gemini, aggiungere immagini come input e visualizzare le risposte sullo schermo.
Quando si è pronti per portare le funzionalità AI in produzione con Google Cloud, è possibile accedere alle potenti capacità dei modelli Gemini tramite Vertex AI, la piattaforma di sviluppo gestita da Google per la creazione e il deployment di AI generativa.
Gemini 1.5 Pro, con una finestra di contesto più ampia, arriverà su Android Studio entro la fine dell’anno, portando risposte di qualità superiore e sblocando casi d’uso come l’input multimodale.
Miglioramenti per gli utenti avanzati
Google ha presentato Gemini Live, una nuova funzionalità di chat vocale per il suo assistente AI Gemini, mirata a migliorare l’interazione per gli abbonati Gemini Advanced. Questa nuova capacità permetterà agli utenti di impegnarsi in conversazioni parlate bidirezionali simili all’interazione umana con l’AI, rendendola un assistente intelligente versatile simile a ciò che OpenAI ha sviluppato per ChatGPT.
Gemini Live consente agli utenti di avere conversazioni vocali in tempo reale con l’assistente AI di Google. A differenza delle tradizionali risposte basate su testo, Gemini Live si adatterà ai modelli di linguaggio degli utenti, fornendo risposte più naturali e concise.
La funzione include dieci opzioni vocali tra cui scegliere, offrendo un’esperienza personalizzata. Gli utenti possono porre domande complesse o richiedere informazioni dettagliate e ricevere risposte approfondite, mantenendo un flusso di dialogo naturale. È anche possibile interrompere l’AI mentre parla, proprio come avviene nelle conversazioni umane.
Gemini Live mira a semplificare le attività quotidiane e migliorare l’esperienza degli smartphone Android con funzionalità più interattive e intelligenti. Comprendendo e adattandosi ai modelli di linguaggio individuali, promette di offrire un assistente AI più conversazionale e user-friendly.
Disponibilità di Gemini Pro 1.5 in più lingue
Con Gemini Advanced, che sarà lanciato in estate, Google porterà il supporto di Gemini 1.5 Pro a oltre 35 lingue. Questo modello introduce un modello di abbonamento premium che consentirà agli utenti di accedere alle capacità avanzate di Gemini 1.5 Pro.
La finestra di contesto di 1 milione di token di Gemini 1.5 Pro, la più ampia di qualsiasi modello fondamentale finora, gli consente di dimostrare una efficienza senza pari nella sintesi e nell’interpretazione di enormi quantità di informazioni multimodali.
Le valutazioni multilingue evidenziano la sua capacità migliorata di elaborare e comprendere più lingue, mostrando miglioramenti significativi rispetto ai modelli Gemini 1.0 e ad altri modelli specializzati come USM e Whisper in task di comprensione del linguaggio.
Gemini 1.5 Pro può adattarsi e generare risposte accurate in base a istruzioni minime. Questa capacità è particolarmente evidente in compiti complessi che richiedono la comprensione di istruzioni sfumate o l’apprendimento di nuovi concetti da una quantità limitata di informazioni nel prompt.
Le sue capacità di apprendimento in contesto mostrano prestazioni eccellenti nel complesso benchmark Machine Translation from One Book (MTOB), che testa l’abilità del modello di imparare a tradurre una nuova lingua da un’unica fonte di materiale istruttivo.
Conclusione
Considerando le principali novità presentate al Google I/O 2024, possiamo constatare come Gemini, l’assistente AI multimodale, rappresenti il fulcro dell’innovazione.
L’integrazione di questa tecnologia in applicazioni come Gmail, Google Foto e Ricerca aprirà nuove possibilità per migliorare la produttività e l’esperienza utente.
Inoltre, i progressi nell’AI generativa, come i nuovi modelli Veo per la creazione di video e Imagen 3 per la generazione di immagini, stanno ridefinendo i confini della creatività digitale.
Pare che la società abbia usato il nome AI per oltre 120 volte durante la sua presentazione, denotando come l’intelligenza artificiale sia il fulcro di tutta l’evoluzione dei prossimi 12 mesi.
Sarà sempre più presente nelle app, servizi, siti e altro. Un elemento con il quale interagiremo sempre di più. Una rivoluzione al pari di quella di internet.
Ora non resta che attendere la mossa di Apple.