Il modello Megatron-Turing Natural Language Generation (MT-NLG) è più del triplo del GPT-3 con 530 miliardi di parametri

Poco meno di un anno e mezzo fa OpenAI ha annunciato il completamento di GPT-3, il suo algoritmo di elaborazione del linguaggio naturale che era, all’epoca, il modello più grande e complesso del suo genere. Questa settimana, Microsoft e Nvidia hanno introdotto un nuovo modello che chiamano “il modello di linguaggio generativo più grande e potente del mondo”. Il modello Megatron-Turing Natural Language Generation (MT-NLG) è più del triplo del GPT-3 con 530 miliardi di parametri.

I 175 miliardi di parametri di GPT-3 erano già tanti; il suo predecessore, GPT-2, aveva solo 1,5 miliardi di parametri e il modello Turing Natural Language Generation di Microsoft, rilasciato nel febbraio 2020, ne aveva 17 miliardi.

Un parametro è un attributo che un modello di machine learning definisce in base ai suoi dati di training e l’ottimizzazione di più di essi richiede l’aumento della quantità di dati su cui il modello è addestrato. È essenzialmente imparare a prevedere quanto è probabile che una data parola sia preceduta o seguita da un’altra parola e quanto tale probabilità cambia in base ad altre parole nella frase.

Come puoi immaginare, arrivare a 530 miliardi di parametri ha richiesto molti dati di input e altrettanta potenza di calcolo. L’algoritmo è stato addestrato utilizzando un supercomputer Nvidia composto da 560 server, ciascuno contenente otto GPU da 80 gigabyte. Sono 4.480 GPU in totale e un costo stimato di oltre $ 85 milioni.

Per i dati di addestramento, i creatori di Megatron-Turing hanno utilizzato The Pile, un set di dati messo insieme dal gruppo di ricerca sui modelli linguistici open source Eleuther AI. Composto da tutto, da PubMed a Wikipedia a Github, il set di dati ammonta a 825 GB, suddivisi in 22 set di dati più piccoli. Microsoft e Nvidia hanno curato il set di dati, selezionando i sottoinsiemi che hanno ritenuto essere “della più alta qualità relativa”. Hanno aggiunto i dati di Common Crawl, un’organizzazione no-profit che scansiona il Web aperto ogni mese e scarica contenuti da miliardi di pagine HTML, quindi li rende disponibili in un formato speciale per il data mining su larga scala. Anche GPT-3 è stato addestrato utilizzando i dati di Common Crawl.

Il post sul blog di Microsoft su Megatron-Turing afferma che l’algoritmo è abile in compiti come la previsione del completamento, la comprensione della lettura, il ragionamento di buon senso, le inferenze del linguaggio naturale e la disambiguazione del senso delle parole. Ma resta sintonizzato: probabilmente ci saranno più abilità aggiunte a quell’elenco una volta che il modello inizierà a essere ampiamente utilizzato.

GPT-3 si è rivelato avere capacità oltre ciò che i suoi creatori si aspettavano, come scrivere codice, fare matematica, tradurre tra le lingue e completare automaticamente le immagini (oh, e scrivere un cortometraggio con un finale inaspettato). Ciò ha portato alcuni a ipotizzare che GPT-3 potrebbe essere la porta d’accesso all’intelligenza artificiale generale. Ma la varietà di talenti dell’algoritmo, sebbene inaspettata, rientrava ancora nel dominio del linguaggio (compresi i linguaggi di programmazione), quindi è un po’ una forzatura.

Tuttavia, dati i trucchi che GPT-3 aveva nella manica in base ai suoi 175 miliardi di parametri, è interessante chiedersi con cosa potrebbe sorprenderci il modello Megatron-Turing a 530 miliardi. L’algoritmo probabilmente non sarà disponibile in commercio per un po’ di tempo, quindi ci vorrà un po’ prima che lo scopriamo.

I creatori del nuovo modello, tuttavia, sono molto ottimisti. “Non vediamo l’ora di scoprire come MT-NLG modellerà i prodotti di domani e motiverà la community a spingere ulteriormente i confini dell’elaborazione del linguaggio naturale”, hanno scritto nel post sul blog. “Il viaggio è lungo e tutt’altro che completo, ma siamo entusiasti di ciò che è possibile e di ciò che ci aspetta”.

Vulnerabilità di Log4j – Cosa bisogna sapere

Source: WSJ Un difetto nel software Internet ampiamente utilizzato noto come Log4j ha lasciato le aziende e i funzionari governativi in ​​difficoltà per rispondere a un’evidente minaccia alla sicurezza informatica

SMART AGENT – cosa sono?

Gli agenti intelligenti sono entità di vario tipo capaci di percepire l’ambiente circostante con l’utilizzo di sensori e di mettere in atto specifiche azioni per mezzo di attuatori. Nel caso dell’uomo i sensori possono

Contatto