Compartir este artículo

Las Cripto no deben temerle a GPT-3. Deberían aceptarlo.

En lugar de temerle al procesador de lenguaje GPT-3, la comunidad Cripto debería aprovechar sus avances en aprendizaje profundo.

Jesús Rodríguez es el CEO de IntoTheBlock, una plataforma de inteligencia de mercado para Cripto . Ha ocupado puestos de liderazgo en importantes empresas Tecnología y fondos de cobertura. Es un inversor activo, orador, autor y profesor invitado en la Universidad de Columbia.

CONTINÚA MÁS ABAJO
No te pierdas otra historia.Suscríbete al boletín de The Protocol hoy. Ver Todos Los Boletines

Durante los últimos días, ha habido una explosión de comentarios en la comunidad Cripto sobre el nuevo modelo generador de lenguaje GPT-3 de OpenAI. Algunos comentarios expresan una curiosidad útil sobre GPT-3, mientras que otros son un BIT extremos, afirmando que la comunidad Cripto debería estar aterrorizada.

El interés es algo sorprendente porque los modelos GPT no son precisamente nuevos y han sido noticia en la comunidad de aprendizaje automático durante más de un año. La investigación detrásEl primer modelo GPT se publicó en junio de 2018, seguido deGPT-2 en febrero de 2019 y más recientemente GPT-3 hace dos meses.

Ver también:¿Qué es GPT-3 y deberíamos preocuparnos?

Creo que es improbable que GPT-3 por sí solo tenga un impacto significativo en el ecosistema Cripto . Sin embargo, las técnicas que lo sustentan representan el mayor avance en aprendizaje profundo de los últimos años y, en consecuencia, pueden resultar sumamente relevantes para el análisis de criptoactivos. En este artículo, me gustaría dedicar unos minutos a profundizar en algunos de los conceptos que sustentan GPT-3 y contextualizarlos en el mundo Cripto .

¿Qué es GPT-3?

GPT-3 es un modelo de comprensión del lenguaje natural (NLU) de gran tamaño que utiliza la asombrosa cantidad de 175 mil millones de parámetros para dominar diversas tareas lingüísticas. Su tamaño convierte a GPT-3 en el modelo de NLU más grande del mundo, superando a Turing-NLG de Microsoft y a su predecesor, GPT-2.

GPT-3 es capaz de realizar diversas tareas lingüísticas, como traducción automática, respuesta a preguntas, análisis lingüístico y, por supuesto, generación de texto. GPT-3 ha captado la atención de los medios por su capacidad para generar texto falso indistinguible del real.

¿Qué relevancia tiene esto para las Cripto? ¿Imaginan poder generar comunicados de prensa falsos con regularidad que impulsen el precio de los Cripto más pequeños? Parece una amenaza aterradora, pero no es lo más importante de GPT-3.

GPT-3 es un modelo basado en lenguaje y, por lo tanto, opera con conjuntos de datos textuales. Desde la perspectiva del mercado de Cripto , esta capacidad es atractiva, pero no tan interesante. Lo que realmente deberíamos considerar son las técnicas detrás de GPT3.

La magia detrás de GPT-3

GPT-3 se basa en una nueva arquitectura de aprendizaje profundo conocida como transformadores. El concepto de transformadores se describió originalmente en el artículo "La atención es todo lo que necesitas, publicado en 2017 por miembros del equipo de Google Brain.

La principal innovación de la arquitectura del transformador es el concepto de "atención" (de ahí el título del artículo). La atención se utiliza habitualmente en un tipo de problema conocido como Seq2Seq, en el que un modelo procesa una secuencia de elementos (palabras, letras, números) y genera una secuencia diferente. Este tipo de problema es muy común en escenarios de inteligencia lingüística como la generación de texto, la traducción automática, la respuesta a preguntas, etc.

Cada vez que vea un escenario Seq2Seq, debería asociarlo con las llamadas arquitecturas de codificador-decodificador. Los codificadores capturan el contexto de la secuencia de entrada y lo pasan al decodificador, que genera la secuencia de salida. Los mecanismos de atención abordan las limitaciones de las arquitecturas tradicionales de redes neuronales al identificar los aspectos clave de la entrada a los que se debe prestar atención.

Las arquitecturas tradicionales de aprendizaje profundo necesitan retroalimentación constante entre codificadores y decodificadores, lo que las hace altamente ineficientes.

Imagine un escenario de traducción automática del español al inglés. Normalmente, el decodificador traducirá el texto en español a una representación intermedia conocida como "lenguaje imaginario", que utilizará para traducirlo al inglés. Las arquitecturas de aprendizaje profundo más tradicionales requieren una retroalimentación constante entre codificadores y decodificadores, lo que las hace muy ineficientes.

Conceptualmente, los mecanismos de atención analizan una secuencia de entrada y deciden en cada paso qué otras partes de la secuencia son importantes. Por ejemplo, en un escenario de traducción automática, el mecanismo de atención resaltaría las palabras a las que el decodificador debería prestar atención para realizar la traducción.

La arquitectura del transformador que impulsó modelos como GPT-3 es una arquitectura tradicional de codificador-decodificador que inserta bloques de atención para mejorar la eficiencia. La función de este bloque es examinar la entrada y las salidas de corriente completas e inferir dependencias que ayudarán a optimizar la producción del resultado final.

La arquitectura del transformador ha producido modelos que pueden entrenarse en conjuntos de datos enormes y paralelizarse eficientemente. No es sorprendente que, tras el artículo original de Google, se haya desatado una carrera por construir modelos de gran tamaño que dominen diferentes tareas del lenguaje.BERT de Google,RoBERTa de Facebook,Turing-NLG de Microsoft y OpenAI GPT-3Son ejemplos más nuevos de estos modelos.

GPT-2 asombró al mundo al operar con 1.500 millones de parámetros. Ese récord fue destrozado por Turing-NLG de Microsoft, que utilizó 17.000 millones de parámetros, solo para que GPT-3 utilizara la ridícula cifra de 175.000 millones de parámetros. Todo eso ocurrió en un año. En resumen: cuando se trata de transformadores, cuanto más grande, mejor.

Véase también: Ben Goertzel -IA para todos: sistemas superinteligentes que recompensan a los creadores de datos

La primera generación de arquitecturas de transformadores se ha centrado en tareas de lenguaje. Pero empresas comoFacebook y OpenAIHan publicado investigaciones recientes que adaptan los modelos de transformadores a la clasificación de imágenes. Podría pensarse que se trata simplemente de un intento de generar imágenes falsas. Pero el impacto va mucho más allá.

La generación de imágenes falsas es fundamental para optimizar el entrenamiento de los modelos de clasificación de imágenes en ausencia de grandes conjuntos de datos etiquetados.Intentos de adaptar transformadores a conjuntos de datos de series temporales financieras, con la esperanza de que puedan avanzar en estrategias comerciales cuantitativas.

Transformadores y Cripto

Ahora que tenemos algo de contexto sobre los transformadores y GPT-3, podemos retomar la pregunta original. ¿Es GPT-3 realmente peligroso para los Cripto ?

Claro, la posibilidad de modelos que generen noticias falsas que impulsen los Mercados de Cripto no es para bromear. Pero creo que, en su forma actual, GPT-3 no representa una amenaza para el sector Cripto . Lo más interesante es el impacto que las arquitecturas de transformadores pueden tener en la próxima generación de soluciones de inteligencia Cripto . Aquí hay algunos escenarios reales para considerar:

Estrategias comerciales. Obviamente, si se demuestra la aplicabilidad de los transformadores a los conjuntos de datos financieros, podrían tener un impacto significativo en las estrategias Quant para Cripto . Las redes neuronales profundas, en general, están abriendo nuevas fronteras en el trading cuantitativo. Desde modelos básicos de aprendizaje automático como la regresión lineal o los árboles de decisión, los fondos Quant ahora están considerando estrategias sofisticadas de aprendizaje profundo.

Al ser nativamente digitales, las Cripto son la clase de activo perfecta para las estrategias Quant . Técnicas como las redes neuronales recurrentes (RNN) y las redes neuronales convolucionales (CNN) han ganado popularidad en el ámbito Quant y parecen funcionar bien en el Cripto. Al igual que en el análisis del lenguaje, los transformadores podrían tener una ventaja sobre las CNN y las RNN, especialmente al centrar la atención en varios segmentos de un conjunto de datos (por ejemplo, durante el análisis de marzo de 2020). Bitcoinaccidente) y también operan con volúmenes masivos de registros (por ejemplo, transacciones de blockchain).

Más interesante es el impacto que las arquitecturas de transformadores pueden tener en la próxima generación de soluciones de inteligencia Cripto .

Análisis de blockchain.Los transformadores pueden adaptarse para detectar patrones en cadenas de bloques con mayor eficiencia computacional que los métodos actuales. Parte de la magia de los transformadores reside en su capacidad de enfocar la atención en partes específicas de un conjunto de datos de entrada e inferir posibles resultados. Imaginemos un escenario en el que analizamos transacciones de minería de Bitcoin o flujos a exchanges e intentamos extrapolar patrones en la actividad del libro de órdenes. Los transformadores parecen estar especialmente bien equipados para abordar esta tarea.

Transformadores descentralizados.Hay esfuerzos en curso para adaptar los modelos de transformadores a arquitecturas de IA descentralizadas comoSingularityNETEste tipo de caso de uso podría expandir el uso de transformadores a escenarios que aún no hemos imaginado. Hasta ahora, los modelos de transformadores como GPT-3 han sido privilegio de grandes laboratorios de IA corporativos que cuentan con los datos y recursos para construir y operar redes neuronales tan masivas. La IA descentralizada ofrece una alternativa, en la que el entrenamiento, la ejecución y la monitorización de los transformadores pueden realizarse en redes descentralizadas que operan con mecanismos de incentivos.

Así como otras arquitecturas de redes neuronales han podido operar en infraestructuras descentralizadas, no es una locura pensar que pronto veremos modelos como GPT-3 ejecutándose en plataformas de IA descentralizadas como SingularityNET o el Ocean Protocol.

GPT-3 y la arquitectura de transformadores representan un gran avance en la historia del aprendizaje profundo. En los próximos años, es probable que los transformadores influyan en todas las áreas principales del aprendizaje profundo, y es probable que esta influencia se extienda a los Mercados financieros. Las Cripto deberían beneficiarse de estos avances.

Sí, GPT-3 es impresionante, pero no hay razón para alarmarse. Al contrario, deberíamos trabajar para adaptar estos importantes logros de la IA y convertir las Cripto en el activo más inteligente de la historia.

Nota: Las opiniones expresadas en esta columna son las del autor y no necesariamente reflejan las de CoinDesk, Inc. o sus propietarios y afiliados.

Jesus Rodriguez

Jesús Rodríguez es el CEO y cofundador de IntoTheBlock, una plataforma enfocada en facilitar inteligencia de mercado y soluciones DeFi institucionales para los Mercados de Cripto . También es cofundador y presidente de Faktory, una plataforma de IA generativa para aplicaciones empresariales y de consumo. Jesús también fundó The Sequence, ONE de los Newsletters sobre IA más populares del mundo. Además de su trabajo operativo, Jesús es profesor invitado en la Universidad de Columbia y la Wharton Business School, y es un escritor y orador muy activo.

Jesus Rodriguez