Tabla de contenidos
La Inteligencia Artificial está atravesando un cambio fundamental desde 2017. Luego de la presentación del paper "Attention is all you need", comenzó a gestarse un cambio de paradigma que continúa hasta el día de hoy.
En esta nueva serie de artículos, te contaremos todo lo que necesitas saber al respecto para entender la realidad que atraviesa la Inteligencia Artificial, y hacia dónde vamos.
El proceso de cambio llevó a la creación de una nueva generación de modelos (como lo son BERT, GPT-3, etc.) que tienen varias características en común (y otras que los diferencian entre sí). Todos son modelos entrenados en grandes cantidades de datos, generalmente usando un concepto llamado self-supervision a escala, y su principal ventaja es que pueden adaptarse a otras tareas y obtener cada vez mejores resultados en lo que respecta a problemas establecidos en el mundo académico para medir el estado del arte.
Estos modelos actualmente se conocen como "Foundation Models" y son los que están impulsando esta nueva etapa en NLP (Natural Language Processing).
Sin embargo, como todo nuevo comienzo, se presentan tanto oportunidades como riesgos. Es importante conocer sus capacidades, sus características técnicas, en qué sectores pueden aplicarse y qué impacto moral generan.
La generación de empresas alrededor de estos modelos y su presencia en el estado del arte en tantas tareas genera mucha tracción, pero a la vez requiere precaución. Todavía nos falta entender cómo funcionan, cuando fallan y que son capaces de hacer.
El objetivo de esta serie de artículos es poder explicar cómo llegamos a donde estamos, hacia dónde vamos, poder diferenciar la "moda y el marketing" de los avances reales en el campo.
Dicho esto, nada mejor que comenzar por el inicio:
¿Qué es Machine Learning?
Los comienzos del machine learning se remontan al año 1990. Su desarrollo significó un cambio en la forma de construir modelos de Inteligencia Artificial, ya que en vez de especificar cómo resolver una tarea, la idea fue introducir algoritmos capaces de aprender de los datos. Si bien estos algoritmos significaron un gran avance, no tenían la capacidad de generalizar. Es decir, eran capaces de "resolver" una tarea, pero no podían aplicarse a la resolución de otra. Esto era particularmente notable en NLP, dónde tareas de alta complejidad semántica seguían sin poder ser resueltas por este tipo de ML tradicional.
Artículo relacionado: Ventajas y desventajas de los chatbots
Los inicios del aprendizaje profundo
En los 2010, resurgieron las redes neuronales profundas, sobre todo porque obtenían mejores resultados en tareas que los algoritmos de ML tradicionales. Este cambio, denominado "Deep Learning", se caracterizó por el uso de redes neuronales, gran cantidad de datos, un aumento de uso computacional (uso de hardware especializado llamado GPUs) y la obtención de features jerárquicos a partir de datos crudos. Esto también significó un cambio hacia la "generalización", ya que en vez de tener un algoritmo para cada aplicación, la misma arquitectura podía usarse para varias tareas.
Modelos fundacionales de la IA
A finales de 2018 es cuando comienza esta nueva etapa. Al principio, su factor más importante fue el uso de "transfer learning a escala", es decir, la posibilidad de tomar el conocimiento aprendido en una tarea y trasladarlo hacia la resolución de otra tarea.
El uso de esa técnica es lo que hizo posible el entrenamiento del nuevo tipo de modelos, pero la clave también está en la escala: Esta es, precisamente, lo que los hace poderosos.
La escala requiere tres ingredientes:
- Hardware→GPUs
- Desarrollo de arquitectura Transformer, que permite usar el paralelismo de GPUs y entrenar modelos cada vez con mayor cantidad de parámetros.
- Disponibilidad de cantidades masivas de datos. Este punto es clave, ya que la disponibilidad de datos correctamente anotados para la resolución de tareas es un costo no trivial e impone límites en el aprendizaje. Sin embargo, al agregar self-supervision, la tarea de pre-training puede ser no supervisada. Por ejemplo, BERT está entrenado usando una tarea de masked language modeling, cuyo objetivo es predecir una palabra de una oración dado su contexto. Entonces, esta tarea puede realizarse con texto crudo (sin supervisión o labels).
El aprendizaje Self-Supervised tiene varios hitos temporales:
1) Incrustación de palabras (Mikolov et al 2013)
2) Modelado autorregresivo del lenguaje, predecir la siguiente palabra dadas las anteriores. (Dai y Le 2015).
3) Modelos lingüísticos contextuales como:
a) GPT (Radford 2018)
b) Elmo (Peters 2018)
c) ULMFiT (Howard y Ruder 2018)
4) BERT (Devlin et al 2019)
5) GPT-2 (Radford et al 2019)
6) RoBERTa (Liu et al 2019)
7) T5 (Raffel et al 2019)
8) BART (Lewis et al 2020)
Todos estos modelos incorporan los conceptos antes descritos, incorporan deep bidirectional encoders más potentes y escalan a arquitecturas cada vez más grandes y a sets de datos también mayores.
Como ya mencionamos, uno de los grandes objetivos es la generalización: el uso de un único modelo para varias tareas significó el inicio de la etapa de foundation models.
El riesgo de los modelos fundacionales de la IA
Si vemos el SoTA (State of the Art) para todas las tareas dentro de NLP, todos los modelos que se encuentran en los leaderboards provienen de alguno de estos modelos fundacionales. Pero esta alta capacidad de generalizar es un arma de doble filo. Cualquier mejora en los modelos fundacionales genera beneficios inmediatos en todas las tareas de NLP, pero también es un riesgo, ya que todos los sistemas que utilizan dichos modelos pueden heredar los defectos o bias que poseen.
La escala lleva al concepto de "emergence", por ejemplo GPT-3, con sus 175 billones de parámetros (comparado a 1,5 billones de GPT-2), permite algo que se llama in-context learning, en donde un language model puede adaptarse a otra tarea al proporcionar un prompt (descripción en lenguaje natural de una tarea).
La generalización y la capacidad de “emerger”, interactúan de formas que todavía no entendemos. La generalización puede conllevar grandes beneficios en dominios donde la disponibilidad de datos es muy limitada. Dado que la capacidad de estos modelos proviene de sus capacidades “emergentes”, esto nos pone ante una disyuntiva, ya que conocemos que también cometen serios errores.
Eliminar el riesgo es una de las claves en la construcción e implementación de este tipo de modelos, y es algo que todas las empresas que usen estos modelos en producción deben tener en cuenta. que en Aivo tenemos muy en cuenta, sobre todo debido al dominio en el cual nuestros bots responden.
Conoce más sobre la IA Conversacional de Aivo
En próximos artículos, describiremos en más detalle las características técnicas de estos modelos, los beneficios que aportan al campo, los riesgos que implican, hacia donde va el campo y cómo podemos hacer para mitigar los riesgos.
Mientras tanto, puedes conocer en profundidad cómo funciona la IA conversacional de Aivo aquí.