Durante la conferenza degli sviluppatori I/O di maggio, Google ha presentato Gemini: la sua nuova intelligenza artificiale multimodale. Questo innovativo modello è stato progettato per interpretare e lavorare su diverse tipologie di informazioni come testi, immagini, audio, video e codici.
È il primo modello di intelligenza artificiale multimodale di Google che segna un passo avanti significativo nel panorama dell’IA: grazie alla sua versatilità è capace di funzionare su svariati dispositivi dai data center agli smartphone.
LE TRE VERSIONI DI GEMINI
Google ha lanciato 3 diverse versioni di Gemini:
- Gemini Ultra: la versione più potente capace di compiti più complessi
- Gemini Pro: integrato in Bard e nel motore di ricerca
- Gemini Nano: la versione più efficiente adatta alle attività su smartphone (presente a partire dal Google Pixel 8 Pro)
Le prestazioni di Gemini Ultra superano di gran lunga i modelli di intelligenza artificiale attuali in numerosi benchmark, dimostrando la sua eccellenza nelle attività di comprensione linguistica multitasking su larga scala (MMLU) e nei compiti multimodali complessi. Infatti, nella fase di test è emerso che la versione Ultra è capace di comprendere le immagini, audio e video e di compiere ragionamenti matematici. Rappresenta una rivoluzione capace di superare le abilità umane in ambito MMLU, grazie alla sua capacità di risposta alle domande, di riassunto e di traduzione.
DIFFERENZA TRA GEMINI E GPT-4
La sostanziale differenza tra Gemini Ultra e GPT-4 è che quest’ultimo non è multimodale. GPT-4 è un modello di intelligenza artificiale che può soltanto interagire con altri strumenti multimodali, in quanto il suo raggio d’azione è circoscritto solo nella capacità di comprendere e generare testi.
Il modello Gemini 1.0, invece, è stato progettato per essere multimodale, addestrato per identificare e interpretare simultaneamente diversi input come testo, immagini, audio e codice, consentendo una comprensione più approfondita delle sfumature presenti tra le informazioni. Grazie a questa capacità, Gemini è in grado di rispondere in modo più efficace a domande legate a tematiche più complesse, come quelle riguardanti la matematica e la fisica ad esempio.
La versione Gemini Ultra, però, sarà fruibile nel 2024, dopo un rigoroso processo di controllo di fiducia e sicurezza, al fine di garantire che il modello di intelligenza artificiale sia in conformità con i principi di sviluppo responsabile di Google. L’azienda ha implementato diverse misure preventive e correttive per affrontare potenziali rischi associati a Gemini, tra cui l’impiego di moderazione umana, la filtrazione di contenuti sensibili e la verifica delle fonti.
GEMINI PER LA PROGRAMMAZIONE AVANZATA
L’applicazione di Gemini, inoltre, si estende anche nell’ambito della programmazione, comprendendo, spiegando e creando codici di qualità in diversi linguaggi di programmazione. Questa sua capacità di operare su molteplici linguaggi e di gestire informazioni complesse, lo rende un modello cruciale e di supporto per gli sviluppatori. L’obiettivo di Google è di rendere Gemini uno strumento collaborativo per affrontare le sfide di programmazione, concepire progetti e implementare soluzioni in maniera rapida ed efficiente, agevolando così il tempestivo lancio di applicazioni e servizi migliorati.
IL FUTURO DI GEMINI
Nelle settimane a venire, Gemini sarà integrato in diversi prodotti e servizi di Google, tra cui Search, Ads, Chrome e Duet Ai. I developer avranno la possibilità di utilizzare Gemini Pro attraverso l’API Gemini in Google AI Studio o Google Cloud Vertex AI a partire dal 13 dicembre. Inoltre, Gemini sarà incorporato nei successivi dispositivi Pixel, potenziando le funzionalità come il riassunto nell’app Registratore e Smart Reply su Gboard.
Dunque, Gemini apre le porte a nuove possibilità nella comprensione multimodale e nell’apprendimento automatico. L’implementazione di questo modello di intelligenza artificiale in una vasta gamma di prodotti e servizi, promette di trasformare significativamente l’approccio di sviluppatori e aziende nell’utilizzo dell’IA per progetti innovativi e scalabili.