ChatGPT: Análisis e implicancias para la tecnología conversacional

Tabla de contenidos

Por Sergio Soage, Machine Learning Engineer en Aivo

Como vimos en la segunda entrega de nuestra serie de artículos sobre IA conversacional, ChatGPT logró y sigue logrando captar gran atención. No solo por parte del mundo de la inteligencia artificial, sino también prácticamente el resto del mundo.

Es por eso que, desde Aivo decidimos analizar (al igual que con los lanzamientos de GPT-3 y otros modelos fundacionales) de forma exhaustiva sus capacidades y sus limitaciones para poder determinar cuáles son los casos de uso posibles que mejoren nuestro pipeline conversacional.

Limitaciones de ChatGPT

A modo resumen, ChatGPT (para mayores detalles ver el artículo anterior) es un nuevo modelo basado en GPT-3 y creado por OpenAI. Este modelo fundacional fue fuertemente supervisado, entrenado y refinado vía diálogos usando reinforcement learning. Todo este entrenamiento logró resultados muy prometedores y ChatGPT impresiona a usuarios con su habilidad de generar texto a partir de un prompt otorgado por los usuarios. Sin embargo, en pruebas extensibles hemos visto que este modelo no es del todo preciso y hay mucho sobre lo que podemos y debemos aprender respecto a su funcionamiento.

El resultado de nuestras pruebas indica que, como tecnología conversacional, no es del todo confiable e incluso tiene el potencial de generar múltiples problemas a nuestro clientes.

Tomando este simple ejemplo:

‍

‍

- Dos niños, Chloe y Alexander, salieron a caminar. Ambos vieron un perro y un árbol. Alexander también vio un gato y se lo señaló a Chloe. Ella fue a acariciar el gato. ¿Quién vio el gato primero?

- Ambos, Chloe y Alexander, vieron el gato al mismo tiempo, ya que Alexander se lo señaló a Chloe. No está claro quién vio el gato primero, ya que ambos niños estaban viendo lo mismo, al mismo tiempo.

EXTRAÍDO DE CHATGPT

En este caso, está claro que no entiende el significado de lo que está leyendo y diciendo, brindando una respuesta ambigua. Estos y tantos otros ejemplos explican por qué ChatGPT no es una solución recomendable para aplicaciones donde la precisión y la consistencia son importantes.

Con el deploy actual, ChatGPT no sirve como un servicio core confiable para aplicaciones que además se especializan en un dominio. Incluso si tuviera un backend que pudiera validar la respuesta , tampoco quedaría claro si puede proveer información precisa o que pueda ser corregida sin un re entrenamiento. Como vimos en el post anterior, incluso OpenAI aclara que el sistema no es confiable. En síntesis, las desventajas de modelos como ChatGPT son:

No provee información fácticamente correcta: OpenAI mismo aclara “OpenAI confirms that ChatGPT sometimes writes plausible-sounding but incorrect or nonsensical answers."
Falta de dominio específico: No tiene el conocimiento para resolver consultas específicas de negocio.
Falta de capacidad transaccional e incluso conversacional: No tiene acceso a bases de datos de cliente, ni tampoco es capaz de mantener el estado de una conversación más allá de la longitud de los tokens que puede soportar el prompt.
Dependencia de un third party app para todo el procesamiento de los datos de los clientes.Privacidad de datos y seguridad es un gran problema en este caso.
OpenAI escribió un muy buen reporte respecto de los problemas y potenciales mitigaciones. Puedes leerlo aquí y ampliar la información en este paper.

Artículo relacionado: Introducción: el riesgo de los modelos fundacionales de la inteligencia artificial

Chat GPT: Casos de uso exitosos

¿Implica esto que modelos como GPT y otros no deben ser usados en tecnologías conversacionales? Claramente la respuesta es no. Estos modelos tienen una utilidad increíble para mejorar los nuestros y elevar la experiencia del usuario. En Aivo usamos GPT-3 y otros modelos de múltiples formas, entre ellas:

Generación de data

Data de entrenamiento: Existen varios papers que usan modelos fundacionales para generar datos, como por ejemplo:

GPT3MIX: https://arxiv.org/abs/2104.08826
HYDE: https://arxiv.org/abs/2212.10496

Generación de diálogos:

La generación sintética de diálogos permite mejorar nuestros modelos de Dialogue State Tracking, cambios en Intents o cualquier tipo de cambio en la conversación (sentiment, etc)

Generación de respuestas

Al poder influenciar la generación de respuestas, ya sea vía prompts o vía los parámetros del modelo (temperatura), podemos generar variaciones en las respuestas para mejorar la experiencia del usuario y ajustarla a las características de la conversación.

Acelerar los tiempos de desarrollo para mejorar nuestros modelos

ChatGPT no es, ni va a ser, el único modelo disponible. Podemos obtener datos de múltiples fuentes, controlando y eligiendo dónde y cómo usar dichos contenidos. Eso nos permite acortar muchísimo los tiempos para mejorar nuestros modelos al re utilizar de forma selectiva y controlada el conocimiento que adquieren los modelos fundacionales.

Estas son solo algunas de las formas en las que en Aivo usamos las últimas tecnologías, y más adelante profundizaremos en ellas.

Este es el tercer artículo de una serie sobre modelos fundacionales, ChatGPT y tecnologías conversacionales. Si aún no lo hiciste, te invitamos a leer los anteriores en nuestro blog. En la entrega del próximo mes profundizaremos y daremos ejemplos concretos de cómo usamos estos modelos en Aivo y qué mejoras obtenemos con datos del mundo real.

Mientras tanto, si quieres conocer más sobre la tecnología que utilizamos en Aivo, puedes comenzar por conocer nuestra Suite.

¡Hasta el próximo artículo!

Disclaimer: Este artículo NO fue generado por ChatGPT sino por un humano :)