Compartilhe este artigo

Le Cripto T devono temere GPT-3. Dovrebbero abbracciarlo

Invece di avere paura del processore di linguaggio GPT-3, la comunità Cripto dovrebbe sfruttare i suoi progressi nell'apprendimento profondo.

Jesus Rodriguez è il CEO di IntoTheBlock, una piattaforma di market intelligence per Cripto . Ha ricoperto ruoli dirigenziali presso importanti aziende Tecnologie e hedge fund. È un investitore attivo, relatore, autore e docente ospite presso la Columbia University.

A História Continua abaixo
Não perca outra história.Inscreva-se na Newsletter The Protocol hoje. Ver Todas as Newsletters

Negli ultimi giorni, c'è stata un'esplosione di commenti nella comunità Cripto sul nuovo modello di generatore di linguaggio GPT-3 di OpenAI. Alcuni commenti esprimono una curiosità utile su GPT-3, mentre altri sono un BIT' estremi, affermando che la comunità Cripto dovrebbe esserne terrorizzata.

L'interesse è in un certo senso sorprendente perché i modelli GPT non sono esattamente nuovi e stanno facendo notizia nella comunità del machine learning da oltre un anno. La ricerca alla baseil primo modello GPT è stato pubblicato a giugno 2018, seguito daGPT-2 a febbraio 2019 E più recentemente GPT-3 due mesi fa.

Vedi anche:Che cos'è GPT-3 e dovremmo essere terrorizzati?

Penso che sia improbabile che GPT-3 da solo possa avere un impatto importante nell'ecosistema Cripto . Tuttavia, le tecniche alla base di GPT-3 rappresentano il più grande progresso nel deep learning degli ultimi anni e, di conseguenza, possono diventare incredibilmente rilevanti per l'analisi delle criptovalute. In questo articolo, vorrei prendermi qualche minuto per approfondire alcuni dei concetti alla base di GPT-3 e contestualizzarli nel mondo Cripto .

Che cosa è GPT-3?

GPT-3 è un modello di comprensione del linguaggio naturale (NLU) di grandi dimensioni che utilizza ben 175 miliardi di parametri per padroneggiare diverse attività linguistiche. Le dimensioni rendono GPT-3 il più grande modello NLU al mondo, superando il Turing-NLG di Microsoft e il suo predecessore GPT-2.

GPT-3 è in grado di svolgere diverse attività linguistiche, come la traduzione automatica, la risposta alle domande, l'analisi linguistica e, naturalmente, la generazione di testo. GPT-3 ha catturato l'attenzione dei media per la sua capacità di generare testo falso che è indistinguibile da quello reale.

Quanto è rilevante per le Cripto? Immagina di avere la possibilità di generare regolarmente falsi comunicati stampa che muovono il prezzo delle Cripto più piccole? Sembra una minaccia spaventosa, ma non è la parte più importante di GPT-3.

GPT-3 è un modello basato sul linguaggio e, di conseguenza, opera utilizzando dataset testuali. Dal punto di vista del mercato Cripto , questa capacità è interessante, ma certamente non così tanto. Ciò a cui dovremmo davvero prestare attenzione sono le tecniche alla base di GPT3.

La magia dietro GPT-3

GPT-3 si basa su una nuova architettura di apprendimento profondo nota come trasformatori. Il concetto di trasformatori è stato originariamente delineato nel documento "L'attenzione è tutto ciò di cui hai bisogno, pubblicato nel 2017 dai membri del team di Google Brain.

La principale innovazione dell'architettura del trasformatore è il concetto di "attenzione" (da cui il titolo del documento). L'attenzione è in genere utilizzata in un tipo di problema noto come Seq2Seq, in cui un modello elabora una sequenza di elementi (parole, lettere, numeri) e produce una sequenza diversa. Questo tipo di problema è incredibilmente comune negli scenari di intelligenza linguistica come la generazione di testo, la traduzione automatica, le risposte alle domande e così via.

Ogni volta che vedi uno scenario Seq2Seq, dovresti associarlo a ciò che viene chiamato architetture encoder-decoder. Gli encoder catturano il contesto della sequenza di input e lo passano al decoder, che produce la sequenza di output. I meccanismi di attenzione affrontano i limiti delle architetture tradizionali delle reti neurali identificando gli aspetti chiave dell'input a cui "prestare attenzione".

Le architetture tradizionali di deep learning necessitano di un feedback costante tra codificatori e decodificatori, il che le rende altamente inefficienti.

Pensa a uno scenario di traduzione automatica dallo spagnolo all'inglese. In genere, il decoder tradurrà l'input di testo spagnolo in una rappresentazione intermedia nota come "lingua immaginaria" che verrà utilizzata dal decoder per tradurlo in inglese. Le architetture di apprendimento profondo più tradizionali necessitano di un feedback costante tra codificatori e decoder, il che le rende altamente inefficienti.

Concettualmente, i meccanismi di attenzione esaminano una sequenza di input e decidono a ogni passaggio quali altre parti della sequenza sono importanti. Ad esempio, in uno scenario di traduzione automatica, il meccanismo di attenzione evidenzierebbe le parole a cui il decodificatore "dovrebbe prestare attenzione" per eseguire la traduzione.

L'architettura del trasformatore che alimenta modelli come GPT-3 è un'architettura encoder-decoder tradizionale che inserisce blocchi di attenzione per migliorare l'efficienza. Il ruolo di quel blocco è di esaminare l'intero input e gli output correnti e dedurre dipendenze che aiuteranno a ottimizzare la produzione dell'output finale.

L'architettura del trasformatore ha prodotto modelli che possono essere addestrati in dataset di grandi dimensioni e possono essere parallelizzati in modo efficiente. Non sorprende che, dopo il documento originale di Google, ci sia stata una corsa per costruire modelli super grandi che padroneggiassero diverse attività linguistiche.BERT di Google,RoBERTa di Facebook,Turing-NLG di Microsoft E OpenAI GPT-3sono esempi più recenti di questi modelli.

GPT-2 ha stupito il mondo operando con 1,5 miliardi di parametri. Quel record è stato infranto da Turing-NLG di Microsoft, che ha utilizzato 17 miliardi di parametri, solo per GPT-3 che ha utilizzato la ridicola cifra di 175 miliardi di parametri. Tutto ciò è accaduto in un anno. Chiaro e semplice: quando si tratta di trasformatori, più grande è meglio.

Vedi anche: Ben Goertzel -AI per tutti: sistemi super intelligenti che premiano i creatori di dati

La prima generazione di architetture di trasformatori si è concentrata su task linguistici. Ma aziende comeFai clic su Mi Piace E IA apertahanno pubblicato una ricerca recente che adatta i modelli dei trasformatori alla classificazione delle immagini. Si potrebbe pensare che questo sia solo un tentativo di generare immagini false. Ma l'impatto va ben oltre.

La generazione di immagini false è estremamente importante per semplificare la formazione dei modelli di classificazione delle immagini in assenza di grandi set di dati etichettati. Ci sono statitentativi di adattare i trasformatori ai set di dati delle serie temporali finanziarie, con la speranza che possano promuovere strategie di trading quantitative.

Trasformatori e Cripto

Ora che abbiamo un po' di contesto relativo ai trasformatori e a GPT-3, possiamo rivisitare la domanda originale. GPT-3 è davvero spaventoso per le Cripto ?

Certo, la prospettiva di modelli in grado di generare fake news che muovono i Mercati Cripto non è uno scherzo. Ma penso che, nella sua forma attuale, GPT-3 non rappresenti una minaccia per lo spazio Cripto . Ciò che è più interessante è l'impatto che le architetture dei trasformatori possono avere nella prossima generazione di soluzioni di Cripto intelligence. Ecco alcuni scenari reali da considerare:

Strategie di trading. Ovviamente, se i trasformatori si dimostrano applicabili ai set di dati finanziari, possono avere un impatto importante nelle strategie Quant per le Cripto . Le reti neurali profonde in generale stanno aprendo nuove frontiere nel trading quantitativo. Dai modelli di apprendimento automatico di base come la regressione lineare o gli alberi decisionali, i fondi Quant stanno ora esaminando sofisticate strategie di apprendimento profondo.

Essendo nativamente digitale, la Cripto è la classe di asset perfetta per le strategie Quant . Tecniche come le reti neurali ricorrenti (RNN) e le reti neurali convoluzionali (CNN) hanno guadagnato popolarità nello spazio Quant e sembrano funzionare bene nella Cripto. Proprio come nell'analisi del linguaggio, i trasformatori potrebbero avere un vantaggio sulle CNN e sulle RNN, in particolare quando si tratta di focalizzare "l'attenzione" su diversi segmenti di un set di dati (ad esempio, durante il marzo 2020 Bitcoincrash) e operano anche con volumi di dati estremamente grandi (ad esempio transazioni blockchain).

Ancora più interessante è l'impatto che le architetture dei trasformatori possono avere sulla prossima generazione di soluzioni di Cripto intelligence.

Analisi blockchain.I trasformatori possono essere adattati per rilevare pattern nelle blockchain in modi più efficienti dal punto di vista computazionale rispetto ai metodi attuali. Parte della magia dei trasformatori è la loro capacità di "focalizzare l'attenzione" su parti specifiche di un set di dati di input e dedurre potenziali output. Immagina uno scenario in cui stiamo analizzando transazioni di mining Bitcoin o flussi verso gli exchange e proviamo a estrapolare pattern nell'attività del libro degli ordini. I trasformatori sembrano particolarmente ben equipaggiati per affrontare questo compito.

Trasformatori decentralizzati.Sono in corso sforzi per adattare i modelli di trasformatori alle architetture AI decentralizzate comeSingularityNET. Questo tipo di caso d'uso potrebbe espandere l'uso dei trasformatori a scenari che T abbiamo ancora immaginato. Finora, modelli di trasformatori come GPT-3 sono stati un privilegio di grandi laboratori di intelligenza artificiale aziendali che hanno i dati e le risorse per costruire e gestire reti neurali così massicce. L'intelligenza artificiale decentralizzata offre un'alternativa, in cui la formazione, l'esecuzione e il monitoraggio dei trasformatori possono avvenire in reti decentralizzate che operano in base a meccanismi di incentivazione.

Proprio come altre architetture di reti neurali sono state in grado di operare in infrastrutture decentralizzate, non è assurdo pensare che presto vedremo modelli come GPT-3 funzionare in piattaforme di intelligenza artificiale decentralizzate come SingularityNET o Ocean Protocol.

GPT-3 e l'architettura del trasformatore rappresentano una svolta importante nella storia del deep learning. Nei prossimi anni, è probabile che i trasformatori influenzeranno ogni area importante del deep learning e che l'influenza si espanda nei Mercati finanziari. Le Cripto dovrebbero essere beneficiarie di queste innovazioni.

Sì, GPT-3 è impressionante, ma non c'è motivo di essere terrorizzati. Al contrario, dovremmo impegnarci per adattare questi importanti risultati dell'IA e rendere le Cripto la classe di asset più intelligente della storia.

Nota: As opiniões expressas nesta coluna são do autor e não refletem necessariamente as da CoinDesk, Inc. ou de seus proprietários e afiliados.

Jesus Rodriguez

Jesus Rodriguez è il CEO e co-fondatore di IntoTheBlock, una piattaforma focalizzata sull'abilitazione di soluzioni di market intelligence e DeFi istituzionali per i Mercati Cripto . È anche il co-fondatore e presidente di Faktory, una piattaforma di intelligenza artificiale generativa per app aziendali e consumer. Jesus ha anche fondato The Sequence, ONE delle Newsletter di intelligenza artificiale più popolari al mondo. Oltre al suo lavoro operativo, Jesus è docente ospite presso la Columbia University e la Wharton Business School ed è uno scrittore e oratore molto attivo.

Jesus Rodriguez