digitale, Innovazione, Ricerca, Società della Conoscenza

AI Intelligenza Artificiale. La storia interna di ChatGPT nel dialogo di Will Douglas Heaven con quattro autori

Novembre 2022, la società OpenAI lancia senza clamore ChatGPT. Nessuno all’interno dell’azienda era preparato per un mega successo virale. Cosa è avvenuto in pochi mesi? Quali saranno gli sviluppi?

Andiamo a comprendere dietro le quinte il fenomeno culturale che nel gennaio 2023, a soli due mesi dal lancio, ha raggiunto la strabiliante cifra di 100 milioni di utenti attivi mensili. ChatGPT è l’applicazione consumer con la crescita più rapida nella storia.

Ringraziamo Will Douglas Heaven, senior AI editor del MIT Massachusetts Institute of Technology Technology Review, che voluto condividere il suo dialogo con quattro autori di ChatGPT.

By Will Douglas Heaven

Per conoscere la storia dietro il chatbot (software che simula una conversazione con un essere umano), come è stato realizzato, come OpenAI lo ha aggiornato dal momento del rilascio e cosa pensano i suoi creatori del suo successo, ho parlato con quattro persone che hanno contribuito a creare quella che è diventata una delle app Internet più popolari che mai. Oltre ad Agarwal e Fedus, ho parlato con John Schulman, cofondatore di OpenAI, e Jan Leike, leader del team di allineamento di OpenAI, che lavora sul problema di far fare all’AI ciò che i suoi utenti vogliono che faccia (e nient’altro) .

Quello che mi è venuto fuori è stata la sensazione che OpenAI sia ancora perplesso dal successo della sua anteprima di ricerca, ma ha colto l’opportunità per portare avanti questa tecnologia, osservando come milioni di persone la stanno usando e cercando di risolvere i problemi peggiori man mano che si presentano.

Da novembre, OpenAI ha già aggiornato più volte ChatGPT. I ricercatori stanno utilizzando una tecnica chiamata adversarial training per impedire a ChatGPT di consentire agli utenti di indurlo a comportarsi male (noto come jailbreak). Questo lavoro mette l’uno contro l’altro più chatbot: un chatbot interpreta l’avversario e attacca un altro chatbot generando testo per costringerlo a superare i suoi soliti vincoli e produrre risposte indesiderate. Gli attacchi riusciti vengono aggiunti ai dati di addestramento di ChatGPT nella speranza che impari a ignorarli.       

OpenAI ha anche firmato un accordo multimiliardario con Microsoft e ha annunciato un’alleanza con Bain, una società di consulenza gestionale globale, che prevede di utilizzare i modelli di intelligenza artificiale generativa di OpenAI nelle campagne di marketing per i suoi clienti, tra cui Coca-Cola. Al di fuori di OpenAI, il clamore su ChatGPT ha dato il via a un’altra corsa all’oro attorno a modelli linguistici di grandi dimensioni, con aziende e investitori di tutto il mondo che sono entrati in azione.

È un sacco di clamore in tre brevi mesi. Da dove viene ChatGPT? Quali misure ha adottato OpenAI per assicurarsi che fosse pronto per il rilascio? E dove stanno andando dopo?  

Quanto segue è stato modificato per lunghezza e chiarezza.

Jan Leike: È stato travolgente, onestamente. Siamo stati sorpresi e abbiamo cercato di recuperare.

John Schulman: Stavo controllando molto Twitter nei giorni successivi al rilascio, e c’è stato questo periodo folle in cui il feed si stava riempiendo di screenshot di ChatGPT. Mi aspettavo che fosse intuitivo per le persone e mi aspettavo che ottenesse un seguito, ma non mi aspettavo che raggiungesse questo livello di popolarità mainstream.

Sandhini Agarwal: Penso che sia stata sicuramente una sorpresa per tutti noi quante persone hanno iniziato a usarlo. Lavoriamo così tanto su questi modelli che dimentichiamo quanto possano essere sorprendenti per il mondo esterno a volte.

Liam Fedus: Siamo rimasti decisamente sorpresi di quanto bene sia stato accolto. Ci sono stati così tanti tentativi precedenti di un chatbot generico che sapevo che le probabilità erano contro di noi. Tuttavia, la nostra beta privata ci ha dato la certezza di avere qualcosa che le persone potrebbero davvero apprezzare.

Jan Leike: Mi piacerebbe capire meglio cosa sta guidando tutto questo, cosa sta guidando la viralità. Ad esempio, onestamente, non capiamo. Non lo sappiamo.

Parte della perplessità del team deriva dal fatto che la maggior parte della tecnologia all’interno di ChatGPT non è nuova. ChatGPT è una versione perfezionata di GPT-3.5, una famiglia di modelli linguistici di grandi dimensioni che OpenAI ha rilasciato mesi prima del chatbot. GPT-3.5 è esso stesso una versione aggiornata dGPT-3 , apparso nel 2020. L’azienda rende questi modelli disponibili sul proprio sito Web come interfacce di programmazione delle applicazioni o API, che rendono facile per altri sviluppatori di software collegare i modelli al proprio codice . OpenAI ha anche rilasciato una precedente versione perfezionata di GPT-3.5, chiamata InstructGPT, nel gennaio 2022. Ma nessuna di queste versioni precedenti della tecnologia è stata presentata al pubblico. 

Liam Fedus: Il modello ChatGPT è messo a punto dallo stesso modello linguistico di InstructGPT e abbiamo utilizzato una metodologia simile per perfezionarlo. Abbiamo aggiunto alcuni dati di conversazione e messo a punto un po’ il processo di formazione. Quindi non volevamo sopravvalutarlo come un grande progresso fondamentale. Come si è scoperto, i dati conversazionali hanno avuto un grande impatto positivo su ChatGPT.

John Schulman: Le capacità tecniche grezze, valutate dai benchmark standard, in realtà non differiscono sostanzialmente tra i modelli, ma ChatGPT è più accessibile e utilizzabile.

Jan Leike: In un certo senso puoi intendere ChatGPT come una versione di un sistema di intelligenza artificiale che abbiamo avuto per un po’ di tempo. Non è un modello fondamentalmente più capace di quello che avevamo in precedenza. Gli stessi modelli di base erano disponibili sull’API da quasi un anno prima dell’uscita di ChatGPT. In un altro senso, l’abbiamo reso più allineato con ciò che gli umani vogliono farne. Ti parla in dialogo, è facilmente accessibile in un’interfaccia di chat, cerca di essere utile. Questo è un progresso incredibile e penso che sia ciò che le persone stanno realizzando.

John Schulman: Deduce più facilmente l’intento. E gli utenti possono ottenere ciò che vogliono andando avanti e indietro.

ChatGPT è stato addestrato in modo molto simile a InstructGPT, utilizzando una tecnica chiamata apprendimento per rinforzo dal feedback umano (RLHF). Questa è la salsa segreta di ChatGPT. L’idea di base è prendere un modello di linguaggio di grandi dimensioni con la tendenza a sputare tutto ciò che vuole, in questo caso GPT-3.5, e perfezionarlo insegnandogli quali tipi di risposte preferiscono effettivamente gli utenti umani.

Jan Leike:Abbiamo avuto un folto gruppo di persone che leggeva i prompt e le risposte di ChatGPT e poi diceva se una risposta era preferibile a un’altra risposta. Tutti questi dati sono stati quindi uniti in un’unica esecuzione di allenamento. Gran parte di esso è lo stesso tipo di cosa che abbiamo fatto con InstructGPT. Vuoi che sia utile, vuoi che sia veritiero, vuoi che sia – sai – non tossico. E poi ci sono cose specifiche per produrre dialoghi ed essere un assistente: cose come, se la domanda dell’utente non è chiara, dovrebbe porre domande di follow-up. Dovrebbe anche chiarire che si tratta di un sistema di intelligenza artificiale. Non dovrebbe assumere un’identità che non ha, non dovrebbe affermare di avere capacità che non possiede, e quando un utente gli chiede di svolgere attività che non dovrebbe svolgere, deve scrivere un rifiuto Messaggio.

Sandhini Agarwal: Sì, penso che sia quello che è successo. C’era un elenco di vari criteri in base ai quali i valutatori umani dovevano classificare il modello, come la veridicità. Ma hanno anche iniziato a preferire cose che consideravano una buona pratica, come non fingere di essere qualcosa che non sei. 

Poiché ChatGPT era stato creato utilizzando le stesse tecniche utilizzate in precedenza da OpenAI, il team non ha fatto nulla di diverso quando si è preparato a rilasciare questo modello al pubblico. Hanno ritenuto che il livello che avevano fissato per i modelli precedenti fosse sufficiente.  

Sandhini Agarwal: Quando ci stavamo preparando per il rilascio, non abbiamo pensato a questo modello come a un rischio completamente nuovo. GPT-3.5 era già presente nel mondo e sappiamo che è già abbastanza sicuro. E attraverso la formazione di ChatGPT sulle preferenze umane, il modello ha appena appreso automaticamente il comportamento di rifiuto, dove rifiuta molte richieste.

Jan Leike: Abbiamo fatto qualche ulteriore “red-teaming” per ChatGPT, dove tutti in OpenAI si sono seduti e hanno cercato di rompere il modello. E avevamo gruppi esterni che facevano lo stesso genere di cose. Abbiamo anche avuto un programma di accesso anticipato con utenti fidati, che hanno fornito feedback.

Sandhini Agarwal: Abbiamo scoperto che generava alcuni output indesiderati, ma erano tutte cose che genera anche GPT-3.5. Quindi, in termini di rischio, come anteprima della ricerca, perché era quello che inizialmente doveva essere, andava bene.

John Schulman: Non puoi aspettare che il tuo sistema sia perfetto per rilasciarlo. Abbiamo testato le versioni precedenti per alcuni mesi e i beta tester hanno avuto impressioni positive sul prodotto. La nostra più grande preoccupazione riguardava la fattualità, perché al modello piace fabbricare le cose. Ma InstructGPT e altri modelli linguistici di grandi dimensioni sono già disponibili, quindi abbiamo pensato che fintanto che ChatGPT è migliore di quelli in termini di fattualità e altri problemi di sicurezza, dovrebbe andare bene. Prima del lancio abbiamo confermato che i modelli sembravano un po’ più concreti e sicuri di altri modelli, secondo le nostre valutazioni limitate, quindi abbiamo deciso di procedere con il rilascio.

OpenAI ha osservato come le persone utilizzano ChatGPT sin dal suo lancio, vedendo per la prima volta come si comporta un modello linguistico di grandi dimensioni quando viene messo nelle mani di decine di milioni di utenti che potrebbero cercare di testarne i limiti e trovarne i difetti. Il team ha provato a saltare sugli esempi più problematici di ciò che ChatGPT può produrre, dalle canzoni sull’amore di Dio per i preti stupratorial codice malware che ruba i numeri delle carte di credito, e usarli per frenare le versioni future del modello.  

Sandhini Agarwal: Abbiamo molti prossimi passi. Sicuramente penso che il modo in cui ChatGPT è diventato virale abbia fatto esplodere molti problemi che sapevamo esistessero davvero e diventassero critici, cose che vogliamo risolvere il prima possibile. Ad esempio, sappiamo che il modello è ancora molto distorto. E sì, ChatGPT è molto bravo a rifiutare richieste errate, ma è anche abbastanza facile scrivere prompt che gli impediscano di rifiutare ciò che volevamo che rifiutasse.

Liam Fedus: È stato emozionante osservare le diverse e creative applicazioni degli utenti, ma siamo sempre concentrati sulle aree in cui migliorare. Pensiamo che attraverso un processo iterativo in cui distribuiamo, riceviamo feedback e perfezioniamo, possiamo produrre la tecnologia più allineata e capace. Man mano che la nostra tecnologia si evolve, inevitabilmente emergono nuovi problemi.

Sandhini Agarwal: Nelle settimane successive al lancio, abbiamo esaminato alcuni degli esempi più terribili che la gente avesse trovato, le cose peggiori che la gente vedesse in natura. Abbiamo valutato ciascuno di essi e abbiamo parlato di come dovremmo risolverlo.

Jan Leike: A volte è qualcosa che è diventato virale su Twitter, ma abbiamo alcune persone che in realtà contattano in silenzio.

Sandhini Agarwal: Molte cose che abbiamo scoperto erano jailbreak, che è sicuramente un problema che dobbiamo risolvere. Ma poiché gli utenti devono provare questi metodi contorti per far sì che il modello dica qualcosa di negativo, non è che questo fosse qualcosa che ci mancava completamente o qualcosa che ci ha sorpreso molto. Tuttavia, è qualcosa su cui stiamo lavorando attivamente in questo momento. Quando troviamo jailbreak, li aggiungiamo ai nostri dati di addestramento e test. Tutti i dati che stiamo vedendo alimentano un modello futuro.

Jan Leike:  Ogni volta che abbiamo un modello migliore, vogliamo pubblicarlo e testarlo. Siamo molto ottimisti sul fatto che un addestramento mirato all’avversario possa migliorare molto la situazione con il jailbreak. Non è chiaro se questi problemi scompariranno del tutto, ma pensiamo di poter rendere molto più difficile il jailbreak. Ancora una volta, non è che non sapessimo che il jailbreak fosse possibile prima del rilascio. Penso che sia molto difficile anticipare davvero quali saranno i veri problemi di sicurezza con questi sistemi una volta che li avrai implementati. Quindi stiamo ponendo molta enfasi sul monitoraggio di ciò per cui le persone utilizzano il sistema, vedendo cosa succede e quindi reagendo a ciò. Questo non vuol dire che non dovremmo mitigare in modo proattivo i problemi di sicurezza quando li anticipiamo.

A gennaio, Microsoft ha rivelato Bing Chat, un chatbot di ricerca che molti presumono essere una versione del GPT-4 ufficialmente non annunciato di OpenAI. (OpenAI afferma: “Bing è alimentato da uno dei nostri modelli di nuova generazione che Microsoft ha personalizzato specificamente per la ricerca. Incorpora i progressi di ChatGPT e GPT-3.5.”) L’uso di chatbot da parte di giganti della tecnologia con reputazioni multimiliardarie per proteggere crea nuove sfide per coloro che hanno il compito di costruire i modelli sottostanti.

Sandhin Agarwal: La posta in gioco in questo momento è decisamente molto più alta di quanto non fosse, diciamo, sei mesi fa, ma è ancora più bassa di dove potrebbe essere tra un anno. Una cosa che ovviamente conta davvero con questi modelli è il contesto in cui vengono utilizzati. Come con Google e Microsoft, anche una cosa che non è fattuale è diventata un grosso problema perché sono pensati per essere motori di ricerca. Il comportamento richiesto di un modello di linguaggio di grandi dimensioni per qualcosa come la ricerca è molto diverso rispetto a qualcosa che dovrebbe essere solo un giocoso chatbot. Dobbiamo capire come percorrere il confine tra tutti questi diversi usi, creando qualcosa che sia utile per le persone in una vasta gamma di contesti, in cui il comportamento desiderato potrebbe davvero variare. Ciò aggiunge più pressione. Perché ora sappiamo che stiamo costruendo questi modelli in modo che possano essere trasformati in prodotti. ChatGPT è un prodotto ora che abbiamo l’API. Stiamo costruendo questa tecnologia generica e dobbiamo assicurarci che funzioni bene su tutto. Questa è una delle sfide chiave che dobbiamo affrontare in questo momento.

John Schulman: Ho sottovalutato la misura in cui le persone indagano e si preoccupano della politica di ChatGPT. Avremmo potenzialmente potuto prendere decisioni migliori durante la raccolta dei dati di addestramento, il che avrebbe ridotto questo problema. Ci stiamo lavorando adesso.

Jan Leike: Dal mio punto di vista, ChatGPT fallisce spesso: ci sono così tante cose da fare. Non sembra che abbiamo risolto questi problemi. Dobbiamo tutti essere molto chiari con noi stessi e con gli altri sui limiti della tecnologia. Voglio dire, i modelli linguistici esistono da un po’ di tempo ormai, ma siamo ancora agli inizi. Conosciamo tutti i problemi che hanno. Penso che dobbiamo solo essere molto sinceri, gestire le aspettative e chiarire che questo non è un prodotto finito.

Credits: Will Douglas Heaven technologyreview.com

#ChatGPT #MIT