Comparto en este artículo qué es ChatGPT y por qué puede ser la herramienta más importante desde la creación de los motores de búsqueda modernos. ¡Vamos a ello!.
OpenAI introdujo una Inteligencia Artificial (IA) de respuesta a preguntas de formato largo llamada ChatGPT que responde preguntas complejas de forma conversacional.
Es una tecnología revolucionaria. Porque está entrenada para aprender lo que los humanos quieren decir cuando hacen una pregunta.
Muchos usuarios están asombrados por su capacidad para proporcionar respuestas de calidad humana, lo que inspira la sensación de que eventualmente, puede tener el poder de interrumpir la forma en que los humanos interactúan con las computadoras y cambiar el modo en que se obtiene información.
¿Qué es ChatGPT?
ChatGPT es un chatbot de modelo de lenguaje largo desarrollado por OpenAI basado en GPT-3.5. Tiene una capacidad notable para interactuar en forma de diálogo conversacional y proporcionar respuestas que pueden parecer sorprendentemente humanas.
Los modelos de lenguaje largo (en inglés, Large Language Models) realizan la tarea de predecir la siguiente palabra en una serie de palabras.
El aprendizaje por refuerzo con retroalimentación humana (en inglés, Reinforcement Learning with Human Feedback o RLHF) es una capa adicional de capacitación que utiliza la retroalimentación humana para ayudar a ChatGPT a aprender la habilidad de seguir instrucciones y generar respuestas que sean satisfactorias para los seres humanos.
¿Quién creó ChatGPT?
ChatGPT fue creado por la empresa de inteligencia artificial OpenAI, con sede en San Francisco. OpenAI Inc. es la empresa matriz —sin fines de lucro— de OpenAI LP que sí tiene fines de lucro.
OpenAI es famoso por su conocido DALL·E, un modelo de aprendizaje profundo que genera imágenes a partir de instrucciones de texto llamadas «prompts».
El CEO es Sam Altman, quien anteriormente fue presidente de Y Combinator, una famosa aceleradora de Startups.
Microsoft es socio e inversionista por un monto de $1 billón de dólares. Desarrollaron conjuntamente Azure AI Platform.
Modelos de lenguaje largo
ChatGPT es un modelo de lenguaje largo (LLM). Los modelos de lenguaje largo (LLM) se entrenan con cantidades masivas de datos para predecir con precisión qué palabra viene a continuación en una oración.
Se descubrió que aumentar la cantidad de datos aumentaba la capacidad de los modelos de lenguaje para hacer más.
Según la universidad de Stanford:
«GPT-3 tiene 175 mil millones de parámetros y fue entrenado en 570 gigabytes de texto. A modo de comparación, su predecesor, GPT-2, era 100 veces más pequeño con 1500 millones de parámetros.
Este aumento en la escala cambia drásticamente el comportamiento del modelo: GPT-3 puede realizar tareas en las que no fue entrenado explícitamente, como traducir oraciones del inglés al francés, con pocos o ningún ejemplo de entrenamiento.
Este comportamiento estuvo mayormente ausente en GPT-2. Además, para algunas tareas, GPT-3 supera a los modelos que fueron entrenados explícitamente para resolver esas tareas, aunque en otras tareas se queda corto».
Los LLM predicen la siguiente palabra en una serie de palabras en una oración. Y las siguientes oraciones, algo así como el famoso auto completar, pero en una escala realmente alucinante.
Esta habilidad les permite escribir párrafos y páginas enteras de contenido.
Pero los LLM están limitados porque no siempre entienden exactamente lo que quiere un ser humano.
Y ahí es donde ChatGPT mejora el estado del arte, con el entrenamiento de aprendizaje reforzado con retroalimentación humana (RLHF) que mencionamos anteriormente.
¿Cómo se entrenó ChatGPT?
GPT-3.5 fue entrenado con cantidades masivas de datos sobre código e información de Internet. Incluidas fuentes como discusiones de Reddit, para ayudar a ChatGPT a aprender a dialogar y lograr un estilo humano de respuesta.
ChatGPT también fue entrenado usando retroalimentación humana (una técnica llamada Aprendizaje de refuerzo con retroalimentación humana) para que la Inteligencia Artificial aprendiera lo que los humanos esperaban cuando hacían una pregunta. Entrenar al LLM de esta manera es revolucionario porque va más allá de simplemente entrenar al LLM para predecir la siguiente palabra.
Un artículo de investigación de marzo de 2022 titulado: «Training Language Models to Follow Instructions with Human Feedback» explica por qué este es un enfoque innovador:
«Este trabajo está motivado por nuestro objetivo de aumentar el impacto positivo de los grandes modelos de lenguaje entrenándolos para que hagan lo que un grupo determinado de humanos quiere que hagan.
De forma predeterminada, los modelos de lenguaje optimizan el objetivo de predicción de la siguiente palabra, que es solo un indicador de lo que queremos que hagan estos modelos.
Nuestros resultados indican que nuestras técnicas son prometedoras para hacer que los modelos de lenguaje sean más útiles, veraces e inofensivos.
Hacer que los modelos de lenguaje sean más grandes no los hace inherentemente mejores para seguir la intención del usuario.
Por ejemplo, los modelos de lenguaje extenso pueden generar resultados falsos, tóxicos o simplemente no útiles para el usuario.
En otras palabras, estos modelos no están alineados con sus usuarios».
Los ingenieros que construyeron ChatGPT contrataron a personas (llamados etiquetadores) para calificar los resultados de los dos sistemas, GPT-3 y el nuevo InstructGPT (un «modelo hermano» de ChatGPT).
Con base en las calificaciones, los investigadores llegaron a las siguientes conclusiones:
«Los etiquetadores prefieren significativamente las salidas de InstructGPT a las salidas de GPT-3.
Los modelos InstructGPT muestran mejoras en la veracidad sobre GPT-3.
InstructGPT muestra pequeñas mejoras en la toxicidad sobre GPT-3, pero no sesgo».
El trabajo de investigación concluye que los resultados de InstructGPT fueron positivos. Aún así, también señaló que había margen de mejora.
«En general, nuestros resultados indican que el ajuste fino de los modelos de lenguaje largos que utilizan las preferencias humanas mejora significativamente su comportamiento en una amplia gama de tareas, aunque queda mucho trabajo por hacer para mejorar su seguridad y confiabilidad».
Lo que diferencia entre ChatGPT y un simple chatbot es que el primero fue entrenado específicamente para comprender la intención humana en una pregunta y proporcionar respuestas útiles, veraces e inofensivas.
Debido a ese entrenamiento, ChatGPT puede desafiar ciertas preguntas y descartar partes de la pregunta que no tienen sentido.
Otro trabajo de investigación relacionado con ChatGPT muestra cómo entrenaron a la IA para predecir lo que preferían los humanos.
Los investigadores notaron que las métricas utilizadas para calificar los resultados de la IA de procesamiento de lenguaje natural dieron como resultado máquinas que obtuvieron buenos puntajes en las métricas, pero no se alinearon con lo que los humanos esperaban.
Así es como los investigadores explicaron el problema:
«Muchas aplicaciones de aprendizaje automático optimizan métricas simples que son solo indicadores aproximados de lo que pretende el diseñador. Esto puede generar problemas, como las recomendaciones de YouTube que promueven el clickbait».
Entonces, la solución que diseñaron fue crear una Inteligencia Artificial que pudiera generar respuestas optimizadas, según las preferencias de los humanos.
Para hacer eso, entrenaron a la IA utilizando conjuntos de datos de comparaciones humanas entre diferentes respuestas para que la máquina fuera mejor en la predicción de lo que los humanos consideraban respuestas satisfactorias.
Un documento comparte que la capacitación se realizó resumiendo las publicaciones de Reddit y también probó resumiendo las noticias.
El trabajo de investigación de febrero de 2022 se llama Learning to Summarize from Human Feedback.
Los investigadores escriben:
«En este trabajo, mostramos que es posible mejorar significativamente la calidad del resumen entrenando un modelo para optimizar las preferencias humanas.
Recopilamos un gran conjunto de datos de alta calidad de comparaciones humanas entre resúmenes, entrenamos un modelo para predecir el resumen preferido por humanos y usamos ese modelo como una función de recompensa para ajustar una política de resumen utilizando el aprendizaje reforzado».
¿Cuáles son las limitaciones de ChatGPT?
Limitaciones en la respuesta tóxica
ChatGPT está específicamente programado para no proporcionar respuestas tóxicas o dañinas (esto es especialmente importante para el llamado «discurso de odio»). Por lo tanto, evitará responder ese tipo de preguntas.
La calidad de las respuestas depende de la calidad de las instrucciones
Una limitación importante de ChatGPT es que la calidad de la salida depende de la calidad de la entrada. En otras palabras, las indicaciones de expertos (prompts) generan mejores respuestas.
Las respuestas no siempre son correctas
Otra limitación de la herramienta, es que debido a que está entrenada para proporcionar respuestas que los humanos sienten bien, las respuestas pueden engañar a los humanos de que la salida es correcta.
Muchos usuarios descubrieron que ChatGPT puede proporcionar respuestas incorrectas, incluidas algunas que son tremendamente incorrectas.
Los moderadores del sitio web de preguntas y respuestas de codificación Stack Overflow pueden haber descubierto una consecuencia no deseada de las respuestas que parecen correctas para los humanos.
Stack Overflow se inundó con las respuestas de los usuarios generadas desde ChatGPT que parecían ser correctas, pero muchas eran respuestas incorrectas.
Las miles de respuestas abrumaron al equipo de moderadores voluntarios, lo que llevó a los administradores a promulgar una prohibición contra cualquier usuario que publique respuestas generadas desde ChatGPT.
La avalancha de respuestas de ChatGPT resultó en una publicación titulada: Política temporal: ChatGPT está prohibido:
«Esta es una política temporal destinada a ralentizar la afluencia de respuestas y otro contenido creado con ChatGPT.
…El problema principal es que, si bien las respuestas que produce ChatGPT tienen una alta tasa de ser incorrectas, por lo general “parecen” que “podrían” ser buenas…»
La experiencia de los moderadores de Stack Overflow con respuestas incorrectas de ChatGPT que parecen correctas es algo que OpenAI, los creadores de ChatGPT, conocen y advierten en su anuncio de la nueva tecnología.
OpenAI explica las limitaciones de ChatGPT
El anuncio de OpenAI ofreció esta advertencia:
«ChatGPT a veces escribe respuestas que suenan plausibles pero incorrectas o sin sentido.
Resolver este problema es un desafío, ya que:
(1) durante el entrenamiento de RL, actualmente no hay una fuente de verdad;
(2) entrenar al modelo para que sea más cauteloso hace que rechace preguntas que puede responder correctamente; y
(3) el entrenamiento supervisado engaña al modelo porque la respuesta ideal depende de lo que sabe el modelo, en lugar de lo que sabe el demostrador humano».
¿ChatGPT es de uso gratuito?
El uso de ChatGPT actualmente es gratuito durante el tiempo de «vista previa de investigación».
El chatbot está actualmente abierto para que los usuarios prueben y brinden comentarios sobre las respuestas para que la IA pueda mejorar al responder preguntas y aprender de sus errores.
El anuncio oficial establece que OpenAI está ansioso por recibir comentarios sobre los errores:
«Si bien nos hemos esforzado para que el modelo rechace solicitudes inapropiadas, a veces responderá a instrucciones dañinas o exhibirá un comportamiento sesgado.
Estamos utilizando la API de moderación para advertir o bloquear ciertos tipos de contenido no seguro, pero esperamos que tenga algunos falsos negativos y positivos por ahora.
Estamos ansiosos por recopilar comentarios de los usuarios para ayudar en nuestro trabajo continuo para mejorar este sistema».
Hasta el 31.12.2022 se realizó un concurso con un premio de US$500 en créditos de ChatGPT para alentar al público a calificar las respuestas.
«Se alienta a los usuarios a proporcionar comentarios sobre los resultados del modelo problemático a través de la interfaz de usuario, así como sobre los falsos positivos/negativos del filtro de contenido externo que también forma parte de la interfaz.
Estamos particularmente interesados en recibir comentarios sobre resultados dañinos que podrían ocurrir en condiciones no adversas del mundo real, así como comentarios que nos ayuden a descubrir y comprender riesgos novedosos y posibles mitigaciones.
Puede optar por participar en el Concurso de comentarios de ChatGPT3 para tener la oportunidad de ganar hasta $500 en créditos API.
Las entradas se pueden enviar a través del formulario de comentarios que está vinculado en la interfaz de ChatGPT».
¿Los modelos de lenguaje reemplazarán la búsqueda de Google?
Google mismo ya ha creado un chatbot de IA que se llama LaMDA. El rendimiento del chatbot de Google fue tan parecido a una conversación humana que un ingeniero de Google afirmó que LaMDA era sensible.
Dado que estos grandes modelos de lenguaje pueden responder tantas preguntas, ¿es descabellado que una empresa como OpenAI, Google o Microsoft algún día reemplacen la búsqueda tradicional con un chatbot de IA?
Algunos en Twitter ya están declarando que ChatGPT será el próximo Google.
El escenario de que un chatbot de preguntas y respuestas pueda algún día reemplazar a Google es aterrador para aquellos que se ganan la vida como profesionales del marketing de búsqueda.
Ha provocado discusiones en comunidades de marketing de búsqueda en línea, como el popular Facebook SEOSignals Lab, donde alguien preguntó si las búsquedas podrían alejarse de los motores de búsqueda y acercarse a los chatbots.
Habiendo probado ChatGPT, debo aceptar que el temor de que la búsqueda sea reemplazada por un chatbot no es del todo infundado.
La tecnología aún tiene un largo camino por recorrer, hay que decirlo. Pero es posible imaginar un futuro híbrido de búsqueda y chatbot para la búsqueda. Y en mi práctica de creación de contenido, esto ha sido lo que ha ocurrido. Por lo que ambas herramientas, son al menos hoy, altamente complementarias.
Hay que considerar, que la implementación actual de ChatGPT parece ser una herramienta que, en algún momento del futuro, requerirá la compra de créditos para usarla.
¿Cómo se puede utilizar ChatGPT?
ChatGPT puede escribir código, poemas, canciones e incluso cuentos al estilo de un autor específico.
La experiencia en el seguimiento de instrucciones (prompts) eleva a ChatGPT de una fuente de información a una herramienta a la que se le puede pedir que realice una tarea específica.
Esto lo hace útil para escribir un ensayo sobre prácticamente cualquier tema.
ChatGPT puede funcionar como una herramienta para generar esquemas para artículos o incluso novelas completas.
Proporcionará una respuesta para prácticamente… cualquier tarea que pueda responderse con texto escrito.
Ahora es tu turno.
Como mencioné anteriormente, ChatGPT se concibe como una herramienta que el público eventualmente tendrá que pagar para usar. Por lo que es un buen momento para explorar y experimentar.
Más de un millón de usuarios se han registrado para usar ChatGPT en los primeros cinco días desde que se abrió al público. Una nueva era ha comenzado.
Digital Marketing Manager en Orienteed. Consultor en Estrategias de Inbound Marketing y Comunicación Digital. Diseñador Web, especializado en Usabilidad y UXp. Coach Ontológico Profesional certificado. Ex Co-Fundador de Mauna Media.