Los agentes de IA no son nada nuevo en la atención al cliente: todos conocemos esa voz automatizada que nos saluda al llamar a un número 800. Normalmente, han gestionado consultas de nivel 1 (generales) y nivel 2 (técnicas de bajo nivel).
Ahora, sin embargo, al menos para la empresa de servicio al cliente basada en IA Zendesk , la IA agente puede manejar consultas de múltiples turnos más complejas e incluso ejecutar procesos de varios pasos como devoluciones.
El proveedor de software de seguimiento del flujo de trabajo e interacción del centro de soporte ha visto mayores ganancias en estas capacidades desde que implementó GPT-5 en su plataforma de resolución Zendesk .
La empresa ha descubierto que, para la mayoría de los clientes, los agentes con tecnología GPT-5 pueden resolver más del 50 % de los tickets, y en algunos casos, incluso entre el 80 % y el 90 %. Además, la última versión de OpenAI es más rápida, presenta menos fallos y comprende mejor la ambigüedad.
“Hablamos de dos tipos de IA: el agente autónomo y el agente copiloto”, declaró Shashi Upadhyay, presidente de producto, ingeniería e IA de Zendesk, a VentureBeat. “El agente autónomo toma la iniciativa y, si tiene que ceder el control, el agente copiloto ayuda al agente humano a resolver el problema”.
Resolver más problemas, más rápidamente y comprender la complejidad
Con Zendesk, la primera interacción de un cliente siempre es con un agente de IA autónomo; si no puede resolver el problema, lo delega en un agente humano. Incluso hace tan solo un año, las tareas sencillas que podía gestionar eran, por ejemplo, recuperar información de una base de datos o proporcionar un enlace para ayudar a un cliente a reinstalar el software de su iPhone.
Pero los agentes de hoy no se limitan a proporcionar esos enlaces; los resumen y ofrecen instrucciones paso a paso.
“Lo que hemos descubierto es que hay muchas tareas, muchos tickets, muchos problemas que la generación actual de IA es capaz de resolver bastante bien, y sigue mejorando”, dijo Upadhyay.
Su equipo ha estado trabajando con GPT-5 durante algunos meses (anteriormente la compañía usaba GPT-4o), probando varios escenarios e integraciones orientados a servicios y brindando comentarios a OpenAI antes del lanzamiento del modelo a principios de agosto .
Un hallazgo clave: GPT-5 permite un razonamiento medio con ventanas de contexto “significativamente más largas”, lo que puede ser útil en conversaciones de múltiples turnos (diálogos que se extienden más allá de una simple pregunta-respuesta), ejecución de procedimientos paso a paso y generación de resultados estructurados a partir de entradas redactadas de manera imprecisa.
El objetivo principal del equipo era mantener la estructura conversacional, la precisión y la eficiencia de la ventana de contexto, y Upadhyay señala que GPT-5 funciona de manera confiable incluso con cargas de tokens más altas, lo que permite interacciones de servicio automatizadas más fluidas con múltiples turnos y entradas.
Identificó los principales casos de uso para GPT-5 :
- Generación de respuestas de contexto largo;
- Aclaración y desambiguación de intenciones (identificar lo que quiere el usuario incluso si es vago);
- Generación de respuestas del agente en escenarios de asistencia automática (generación de borradores de respuestas para agentes humanos);
- Compilación y ejecución de procedimientos (traducir código de alto nivel en instrucciones de bajo nivel y luego actuar en consecuencia).
Los primeros resultados han sido impresionantes. Cabe destacar que GPT-5 mostró una alta fiabilidad de ejecución: más del 95 % en procedimientos estándar, con una reducción del 30 % en fallos en flujos grandes. «Esa mejora es fundamental en un entorno empresarial», explicó Upadhyay.
En esencia, la ejecución mide la eficacia con la que un modelo gestiona las instrucciones, explicó: cuando se le pide que haga algo, ¿lo hace directamente? ¿O hace otra cosa? ¿Le da seguimiento? ¿Simplemente se bloquea?
Upadhyay señaló que los agentes de IA gen han sido notoriamente malos a la hora de ejecutar órdenes. “Puedes decirles: ‘Sigue estos cinco pasos’, pero como alucinan y se esfuerzan por ser creativos, no siempre siguen los cinco pasos completos”, explicó. De hecho, cuantos más pasos se le dan a un modelo, más probable es que alucine.
Otras mejoras notables con GPT-5 incluyen:
- Menos escaladas de emergencia: Reducción de más del 20 %. “Lo que significa que pudo resolver un 20 % más de problemas que el modelo anterior”, afirmó Upadhyay. “Eso supone un gran avance en nuestro mundo”.
- Mayor velocidad: entre un 25 y un 30 % más rápida en general y compatible con entre 3 y 4 iteraciones más de indicaciones por minuto.
- Mejor capacidad para manejar la ambigüedad y aclarar las aportaciones de los clientes, lo que permite una mayor cobertura de los flujos automatizados en más del 65% de las conversaciones.
- Respuestas más completas con menos detalles omitidos, lo que reduce las transferencias de agentes.
- Mantener la estructura en flujos de trabajo largos y adaptarse a la “complejidad del servicio del mundo real” sin perder el contexto.
- Asistencia de mayor calidad: un aumento de 5 puntos en la precisión de las sugerencias del agente en cuatro idiomas, lo que proporciona respuestas más concisas y contextualmente relevantes alineadas con las pautas de tono.
Estas mejoras son fundamentales para Zendesk, señala Upadhyay, ya que la compañía ha introducido precios basados en resultados, lo que significa que solo se le paga cuando realmente resuelve un problema utilizando IA.
“Cuantos más flujos de trabajo de este tipo pueda gestionar un agente de IA por sí solo, más valioso será para nuestros clientes”, afirmó.
Un riguroso proceso de evaluación
Zendesk adopta un enfoque modular para la IA: GPT-5 gestiona la conversación entre el agente autónomo y el agente humano, operando en conjunto con un flujo de trabajo de clasificación y razonamiento de intenciones. Otros modelos en la combinación incluyen Claude de Anthropic, Gemini de Google y Llama de Meta.
“Siempre trabajamos con una colección de modelos”, dijo Upadhyay. “Los probamos y elegimos el que mejor se adapta a cada tarea, considerando la relación entre rendimiento y coste”.
Al evaluar nuevos modelos, su equipo no busca resultados de referencia, sino comprobar si el modelo ofrece resultados tangibles y precisos. Su proceso, perfeccionado al detalle, les permite implementar nuevos modelos en menos de 24 horas y se basa en un marco de evaluación de cinco factores:
- Precisión: ¿Puede el modelo devolver respuestas precisas y completas basadas en fuentes confiables, como artículos del centro de ayuda?
- Resolución automatizada: ¿Aumenta el porcentaje de problemas resueltos automáticamente sin intervención humana?
- Ejecución: ¿Puede seguir flujos de trabajo estructurados con alta fidelidad?
- Latencia: ¿Responde con la suficiente rapidez en entornos de soporte en vivo?
- Seguridad: ¿Evita las alucinaciones y sólo actúa cuando tiene confianza?
Como señaló Upadhyay: “Necesitan protección para no hacer estupideces”.
Las sólidas barreras operativas incluyen observabilidad en tiempo real con registro estructurado del comportamiento del agente; enrutamiento previo de la capa de intención (enrutamiento basado en la intención en lugar de simplemente reenviar información) para reducir el riesgo y mejorar la claridad; gobernanza activada para evitar respuestas fuera de la política; y protocolos que, de manera predeterminada, recurren a una escalada segura o a la participación del agente.
“Tratamos el modelo como una herramienta no determinista dentro de un sistema controlado, no como un sistema independiente para la toma de decisiones”, afirmó Upadhyay. “Eso nos permite implementarlo en entornos empresariales”.
Los agentes de IA y los agentes humanos deben recibir la misma formación
En última instancia, los agentes de IA deben ser tratados igual que los agentes humanos, enfatiza Upadhyay: deben ser entrenados y gestionados regularmente, y se les debe enseñar cómo actuar de una manera que se alinee con la misión de la empresa.
“Son inexpertos, son inteligentes, pero hay que enseñarles a desenvolverse en un entorno completamente nuevo, como un pasante o un ser humano que consigue un nuevo trabajo”, afirmó Upadhyay.
Esto se debe a que los modelos preconfigurados son de propósito general y se entrenan con un gran volumen de datos de internet. A menudo, nunca han visto datos dentro de una empresa en particular; no han visto cómo se ve un ticket de soporte ni una llamada de ventas.
El enfoque de Zendesk consiste en mapear la información vaga en acciones claras, sintetizar las respuestas y ejecutar flujos de trabajo de varios pasos. El equipo de Upadhyay utiliza un banco de pruebas interno, iterando ejemplos y utilizando gráficos de conocimiento y generadores de acciones para que los modelos puedan actuar.
“Restablecemos todos los datos que ya están disponibles, luego ejecutamos los modelos sobre ellos y continuamos modificando el proceso hasta que podamos hacerlo correctamente”, explicó.
En producción, las capas incluyen un agente de control de calidad (QA) que supervisa cada conversación y un agente de análisis. “Como un coach, realiza una evaluación: ‘¿Fue una buena interacción o no?’”, explicó Upadhyay. “Esa determinación se utiliza para mejorar el rendimiento de los agentes humanos y de IA”.
Como empresa de 18 años con 100.000 clientes y operaciones en casi 150 países, Zendesk tiene una increíble cantidad de datos a su disposición.
“Con el tiempo, hemos atendido todas las solicitudes de soporte posibles, en todos los sectores”, dijo Upadhyay. “Podemos optimizar al máximo los modelos preconfigurados según el sector o el lenguaje del que hablemos”.
Estos datos pueden ayudar a los modelos a comprender cómo se ve una buena resolución o qué podría haber hecho mejor un agente humano en una situación específica. La IA se prueba y se compara con circunstancias idénticas dirigidas por humanos; es un proceso continuo de entrenamiento, ajuste y refinamiento de las respuestas para reducir las tasas de alucinaciones y mejorar el seguimiento de instrucciones.
La precisión es fundamental en entornos empresariales, enfatizó Upadhyay. “Si aciertas el 90 % de las veces en un entorno de consumo, la gente queda muy impresionada”, dijo. “En un entorno empresarial, con el tiempo, hay que alcanzar una precisión del 99 %, o incluso mejor”.
De la recuperación de conocimientos al razonamiento y a los humanos con superpoderes.
Lo que diferencia a GPT-5 de otros modelos más nuevos es su capacidad de razonar y responder preguntas, no sólo recuperar datos y generar contenido, señaló Upadhyay.
“Los agentes de IA han superado una barrera que les permite resolver problemas más complejos con mucha facilidad gracias a su capacidad de razonamiento”, afirmó. “Pueden usar información, a menudo procedente de múltiples fuentes, y ofrecer una respuesta coherente”.
Por ejemplo, supongamos que un cliente compró un mueble en línea y desea devolverlo. El proceso puede requerir una serie de pasos complejos: el agente primero debe determinar que es el comprador original extrayendo datos del sistema de gestión de relaciones con el cliente (CRM); luego, debe realizar una validación cruzada con la plataforma de gestión de pedidos, consultar la documentación de la política de devoluciones, determinar si la devolución es válida, solicitar un crédito o reembolso y gestionar la devolución del artículo.
Los modelos de razonamiento pueden abordar ese proceso de varios pasos y han demostrado una mejora significativa en los casos en que pueden tomar medidas, afirmó Upadhyay. “El agente puede decidir que usted es elegible para una devolución, pero también tomar medidas para que pueda realizarla”, señaló. “Ese es el siguiente nivel, y en eso nos encontramos hoy”.
Zendesk cree firmemente en los agentes autónomos de IA, afirmó. Aun así, el futuro de la empresa será una combinación de IA con agentes y humanos con superpoderes, asistidos por agentes de IA copilotados. Además, los roles humanos evolucionarán no solo para resolver problemas, sino para ser excelentes supervisores de IA.
“Es una gran oportunidad, ya que creará una categoría de empleos completamente nueva, roles de alto valor, con un profundo conocimiento del producto y la resolución de problemas, pero también una excelente gestión”, dijo Upadhyay. “Eso supondrá una transformación radical del soporte técnico”.
Fuente.
VentureBeat (2025, 08 de septiembre). Zendesk informa una respuesta un 30% más rápida y un 95% de confiabilidad después de la integración de GPT-5. Recuperado el 09 de septiembre de 2025, de: https://venturebeat.com/ai/zendesk-reports-30-faster-response-95-reliability-after-gpt-5-integration

