
Il 2024 è stato un anno importante per tutto il mondo AI, è stato l’anno che ha decretato il passaggio dai modelli “solamente” text-to-text a quelli -quasi- completamente multimodali. È stato l’anno dell’annuncio di Sora, dell’esplosione di NotebookLM, di GPT4-o e la sua modalità vocale. È stato l’anno di Apple Intelligence, di Llama 3, dell’arrivo massiccio di Grok dentro X.
Fino a venti giorni fa era chiaro che la leadership indiscussa di tutto il panorama AI restava; con tutte le difficoltà, dai rilasci avvenuti mesi dopo gli annunci, alle fughe di cervelli dall’azienda, Ilya Sutskever in primis; salda nella mani di Sam Altman e OpenAI, dalla collaborazione con Apple all’annuncio della serie di modelli o1. Rimanevano però alcuni malumori rispetto all’azienda tra gli appassionati del settore.
Shipmas – la mossa perfetta di OpenAI
Il 4 dicembre diventa tutto più certo con l’annuncio dei 12 giorni di “shipmas”: 12 giorni di anunci e rilasci: OpenAI non ha perso colpi.
Il 5 dicembre OpenAI annuncia la versione “full” di o1, il modello che “pensa” prima di rispondere, e allo stesso tempo annuncia il nuovo piano di abbonamento “Pro” da 200 USD, che da accesso illimitato a GPT4o, o1 e o1-mini e accesso limitato alla “pro mode” di o1, che usa ancora più computer power e quindi pensa ancora di più prima di rispondere.
Il 9 dicembre c’è stata la presentazione del nuovo modello text-to-video Sora-turbo e della piattaforma dedicata sora.com, accessibile ovunque fuori dall’UE e in esclusiva agli utenti plus e pro. La realese è arrivata dopo diversi mesi, in quanto l’annuncio iniziale è stato a febbraio di quest’anno, ma l’attesa ha portato i suoi frutti e ha permesso i controlli di sicurezza del modello e la creazione di una piattaforma pensata per i creativi.
Il 10 dicembre OpenAI ha rilasciato la funzione Canvas a tutti gli utenti, anche quelli non paganti e ha inserito la possibilità di eseguire il codice -per il momento solo python- direttamente nella piattaforma.
L’11 dicembre, qualche ora prima che OpenAI parlasse degli aggiornamenti alla collaborazione con l’azienda di Cupertino per la sua Apple Intelligence, Google, che sembrava essere ormai stata dimenticata, annuncia in pompa magna la “Gemini 2.0 era”, sorprendendo tutti. Questo annuncio ci dà una visuale su quello che sarà il 2025.
2025 – the year of AI agents
Con l’annuncio di Gemini 2.0 flash, più performante persino dei modelli 1.5 pro, big G manda un messaggio chiaro a chi segue il settore e agli investitori: “Non sottovalutateci, abbiamo e avremo ancora più assi nella manica”. È già, perché non è la prestazione di 2.0 flash a stupire, perché a farlo è tutto ciò che questo modello rende e renderà possibile: l’era degli Agenti. Di seguito gli annunci che Google ha fatto finora:
- Project Asta: annunciato la prima volta al Google I/O di Maggio ‘24, con l’intento di creare un assistente 24/7 “always-on Gemini” che possa vedere e sentire tutto ciò che vedi e senti tu. Potrebbe aiutarti nel montare un mobile e ricordarti dove hai lasciato le istruzioni. In compenso OpenAI ha rilasciato il 12 dicembre la modalità video in advance voice mode. La modalità audio e video di Gemini -che gli permette di parlare con te e di connettersi alla tua fotocamera o di vedere lo schermo su cui stai lavorando per lavorare insieme- è per il momento disponibile solo nelle piattaforme pensate per gli sviluppatori come Google AI Studio.
- Project Mariner: una AI che permette a Gemini di usare sotto i tuoi occhi il tuo browser Chrome, per fare acquisti online, ricerche, presentazioni, mandare mail o altro.
- NotebookLM: l’AI di Google per studiare che riceve in importante aggiornamento grafico con una UX basata su tre finestre: quella delle fonti, quella della chat e quella “Studio”, in cui tenere scrivere e consultare le note (che possono essere scritte dall’utente o dall’AI) e in cui generare podcast, anche di 30 o 40 minuti se si è fortunati. È stata aggiunta la funzione di intervenire nel podcast, facendo domande agli host AI ed è stato introdotto il piano a pagamento “Plus”, per ora per le aziende e per le università ma presto sarà disponibile anche un’offerta consumer tramite Google One.

- Project Moohan, lo vedremo più in basso nell’articolo
- Jules: un Agente per la programmazione che “utilizzando Gemini 2.0, si integra perfettamente con GitHub e consente di delegare le correzioni di bug e altre attività che richiedono molto tempo, in modo da potersi concentrare su questioni più critiche”.
- Deep Reserch: la risposta di Google a Perplexity che consente di fare delle vere e proprie ricerche online con Gemini e crea alla fine un resoconto in Docs. È più lento di Perplexity ma crea delle risposte più qualitative ed approfondite. Più info qui e di seguito una recensione completa chelstra il funzionamento dell funzione.
Nel frattempo il 12 dicembre OpenAI rilascia la condivisione in tempo reale della fotocamera in voice mode, introduce i Projects, simili a quelli di Anthropic e agli Spaces di Perplexity permettono di tenere tutte le chat di una categoria inn un unico posto, con la possibilità di avere delle istruzioni dedicate per quelle chat e una knowledge base di file che si possono caricare e che l’AI userà per rispondere. Il 16 dicembre ChatGPT Serch diventa disponibile per tutti, anche gli utenti del piano Free ed è integrato in Advance Voice Mode, in Canvas ed è stata aggiunta la possibilità di usare Apple Maps “così potrai cercare e chattare su ristoranti e attività commerciali locali con informazioni aggiornate”.
Project Moohan – la sfida di Google a Quest e Vision Pro
Il 12 dicembre Google, in collaborazione con Samsung e Qualcomm; presenta Android XR il nuovo sistema operativo dell’azionda di Mountain View pensato per la realta aumentata e virtuale. È il primo OS progettato dalle fondamenta con e per Gemini. Infatti sul blog di Big G si legge: “Gli occhiali -e i visori, ndb- con Android XR permetteranno di toccare con mano la potenza di Gemini”.
Alla presentazione è stato fatto vedere quello che sarà il visore di Samsung e che verrà probabilmente presentato al prossimo unpaked insieme ai Galaxy S25 series e che dovrebbe, secondo le indiscrezioni, tenersi il 22 gennaio.

Un aspetto fondamentale, e che troviamo anche su VisionOS, è il tracciamento degli occhi, che consente agli utenti di interagire con gli elementi guardandoli, eliminando la necessità di continui movimenti delle mani.
Nel segmento degli occhiali smart vedo molto potenziale, in quello della MR un po’ meno. È possibile che commercialmente funzioni. Io però parlo di un’altra cosa. Potremo identificare fra dieci anni un prima e dopo MR? Lo possiamo fare con gli smartphone, lo possiamo fare con gli auricolari bluetooth, fatico a vedere per il momento un qualcosa che possa segnare un cambiamento drastico nella nostra routine quotidiana. Spero però che quel qualcosa arriverà e sarà interessante capire da chi arriverà: se da Meta, se da Apple, se da Google, o se da un’azienda nuova che riuscirà ad imporsi.
Vittoria di Google?
Il 16 dicembre Google presenta Veo 2, la nuova iterazione del loro modello di generazione video. Anche su questo punto l’azienda di Sundar Pichai vince su quella di Altman. Veo 2 inffati, comparato con Sora Turbo, regala un realismo e una “comprensione” della fisica maggiori, presentando numerosi esempi video con istruzioni dettagliate che dimostrano il controllo avanzato della telecamera e del dettaglio nei singoli frame.
19 dicembre, nel penultimo giorno di Shipmas, OpenAI presenta “un nuovo modo di lavorare con ChatGPT”. Questa nuova funzione permette, per il momento solo su Mac, di fare in modo che ChatGPT interagisca direttamente con le nostre app, sfruttando una maggiore comprensione del contesto. Al momento le app compatibili con questa funzione sono alcune app per note, tra cui Notion e Apple Notes e alcune e app per la programmazione. OpenAI dice che hanno “intenzione di rendere disponibile questa funzionalità agli utenti Windows e Free il prossimo anno”.
Un’ora prima della live di OpenAI però, Google presenta Gemini 2.0 flash thinking, il diretto concorrente di o1-mini. Questa è la prova ultima: Big G non è rimasta indietro, hanno continuato a lavorare e ora stanno arrivando i frutti, tutti in un colpo. Infatti il modello della regina delle ricerche è -o in ogni caso sembra essere- migliore di quello di OpenAI. In più 2.0 flash thinking mostra integralmente la sua CoT, a differenza dei modelli o1 che forniscono solo un riassunto di ogni “anello” della catena.

Insomma, Google sembra avere vinto, sembra essersi rialzata da un biennio infelice per quando riguarda la competizione nell’area AI, e così è. OpenAI però ha in serbo per l’ultimo giorno di Shipmas, il 20 dicembre, un’ultima sorpresa, che non sarà in grado di riportare le cose come erano prima, dove Google era largamente indietro rispetto ai laboratori delle più giovani start-up, ma che manda un chiaro segnale da parte di Sam Altman e i suoi: “Siamo ancora un passo avanti a tutti”.
A questo proposito però voglio parlare anche di una dichiarazione di Satya Nadella, CEO di Microsoft. Quest’ultimo ha infatti parlato del fatto che OpenAI abbia avuto due anni di vantaggio nello sviluppo dell’AI, e che questa possibilità non si ripresenterà più. Possiamo interpretare questa dichiarazione in due modi.
- “Sarà difficile sonfiggerci”, vista la partnership che Microsoft gode con OpenAI.
- “Da qui in avanti saremo tutti sulla stessa linea di partenza, quindi ancje noi (di Microsoft) avremo la nostra possibilità”.
Che ne dite?
In questa intervista Nadella ha parlato anche di come il SaaS (Software as a Service, in altre parole le app) verrà rimpiazzato (o comunque in larga parte) dagli Agents, che saranno in grado di mettere in contatto più facilmente l’utente con i database. Qui l’intervista completa.
AGI nel 2025? Proprio così, o3 ne è la prova

Nell’ultimo giorno di Shipmas, il 20 dicembre, OpenAI ha presentato -ma non rilasciato- la prossima versione dei modelli “o”, o3 e o3-mini, saltando la versione o2. Questi modelli hanno sorpreso tutti, tanto che qualcuno ha pensato di chiamarli AGI. o3 ha infatti raggiunto una percentuale incredibilmente più alta -l’87%- rispetto ai modelli precedenti nel benchmark più difficile di ARC, ARC-AGI, considerato il punto di riferimento nel raggiungere l’AGI. Questo ha portato ARC a cercare una collaborazione con OpenAI nella creazione di nuovi benchmark per fissare nuovi standard e capire le potenzialità dei nostri modelli. In più o3 è riuscito a risolvere il 25% dei più difficili problemi matematici che mettono in difficoltà anche i migliori matematici. I modelli precedenti non arrivavano a più del 2%. Al momento il modello sarà disponibile ai ricercatori per il solo fine di test di sicurezza, di cui OpenAI sembra interessarsi parecchio ultimamente viste le uscite di alcune persone proprio per questo motivo.
Ci si potrebbe dilungare ore per parlare di questo modello, ma qui non ne abbiamo lo spazio, quindi vi lascio con un punto di vista interessante di seguito e qui sopra un video assolutamente da vedere che parla delle reazioni delle migliori menti a questo annuncio:
Altre AI news di dicembre 2024
- Nel trambusto generale è xAI -che ha appena annunciato una nuova serie di raccolta fondi da ben 6 miliardi USD- che cerca di ricordare a tutti che anche loro stanno macinando con Musk che dice che il training di Grok 3 continua con 10 volte il computer power di Grok 2 e presto 20 volte in più. In questi giorni è stata anche rilasciata l’app di Grok per IOS e Grok web (grok.com).
- Il buon Zuck invece annuncia che MetaAI ha ora 600 mln di utenti attivi al mese e annuncia Llama 3.3 70B, l’ultima realese di Llama 3 e che performa come la versione 405B (ma ad una frazione del costo). Ricorda anche che “la prossima fermata è Llama 4” e che anche loro stanno lavorando, mentre costruiscono un datacenter da più di 2 GW che useranno per addestrare i futuri modelli.
- Google ci dice qui che “la disponibilità generale (di Gemini 2.0 flash, ndb) avverrà a partire da gennaio, insieme ad altre dimensioni del modello”. È quindi facile immaginare che si parli della versione di punta di Gemini 2.0, che andrà a concorrere direttamente con GPT5/Orion, e che sarà probabilmente denominata “2.0 Pro”.
- La grande assente sembra essere Anthropic, in quanto non abbiamo informazioni riguardo al prossimo modello di punta Claude 3.5 Opus. Vedremo cosa tireranno fuori, se aspettano che le acque si siano calmate per avere più attenzione mediatica o se, come ipotizza qualcuno, non sono stati molto fortunati con l’addestramento.
- Ad essere in difficoltà con il prossimo LLM di punta potrebbe essere anche OpenAI, che a detta del WSJ è delusa dai risultati dell’addestramento avvenuto finora. Risultati che non giustificano gli enormi costi. Questo dubbio era sorto già in seguito ad un report simile di The Information, a cui era seguita una smentita da parte di Sam Altman. Qui più info.
- Perplexity ha aggiunto la possibilità di impostare delle custom sources all’interno delle Spaces (la versione di Perplexity dei Projects di OpenAI e Anthropic). Questa funzione permette di fare ricerche solo nei siti che si preferisce e da fonti che si ritengono affidabili. In più Perplexity ha annunciato l’acquisizione di Carbon che consentirà “agli utenti di collegare app come Notion e Google Docs direttamente a Perplexity”.
- Google ha sviluppato un nuovo chip per il calcolo quantistico chiamato Willow che ha eseguito in meno di 5 minuti un calcolo di riferimento che a uno dei supercomputer più veloci di oggi impiegherebbe 10.000.000.000.000.000.000.000.000 anni. WOW. Qui un articolo de La Ragione che ne parla.
Lascia un commento