Voice Agents IA · Varela Insights

Post-call analysis con IA: extrae 7 insights estructurados de cada llamada

Q: ¿Post-call analysis solo para voice agents o también humanos?

Aplica a ambos. Para llamadas humanas se usa mismo pipeline: audio → transcripción (STT) → LLM analysis → outputs estructurados. Casos comunes: supervisión calidad agentes humanos call center, training material para nuevos empleados, identificar best performers vs underperformers, compliance audit (verificar agente comunicó disclaimers obligatorios).

Q: ¿Cómo se valida calidad del agent_quality_score?

Calibración inicial: humano supervisor califica 50-100 llamadas manualmente. LLM califica las mismas. Compare scores, ajuste prompt LLM hasta correlación >0.85 con humano. Re-calibrar trimestralmente. Métrica: inter-rater agreement entre LLM scores y humano supervisor.

Post-call analysis con IA extrae 7 outputs estructurados de cada llamada terminada: (1) summary ejecutivo 50-100 palabras, (2) sentiment score -1 a +1, (3) intención principal del usuario, (4) resolution status, (5) topics mencionados, (6) agent quality score 0-10, (7) next best action recomendada con prioridad y deadline. Costo: $0.001 USD/llamada con Gemini Flash o $0.015 USD con Claude Sonnet. Integración directa a CRM vía webhook.

Autor: Irving VarelaPublicado: 2026-05-23Lectura: 6 minIdioma: Español (México)

El audio termina, el valor empieza

Una llamada cerrada con un voice agent genera 3-15 minutos de audio + transcripción. La mayoría de empresas archivan esto y nunca lo usan. Pero esa información es ORO operacional: sentiment del cliente, intención no resuelta, oportunidad de venta perdida, insights de producto, calidad del agent. Post-call analysis estructurado extrae estos signals automáticamente y los empuja al CRM, dashboards y workflows de mejora continua.

Los 7 outputs de un post-call analysis estructurado

1. Summary ejecutivo (1 párrafo)

Resumen de 50-100 palabras de lo que pasó en la llamada: motivo, resolución, próximos pasos. Generado por LLM (Claude Sonnet 4.5 o GPT-4o) sobre la transcripción completa.

2. Sentiment del cliente

Score -1 a +1 (negativo a positivo) + categoría (frustrado/neutral/satisfecho/encantado). Detecta tono, palabras emocionales, patrones de queja. Calibrado para español MX.

3. Intención principal del usuario

Clasificación: consulta info / agendamiento / queja / cancelación / compra / soporte técnico / otro. Permite analytics por tipo de llamada.

4. Resolución status

Categoría: resuelto en bot / escalado humano / cliente abandonó / NPS detrás. Permite calcular containment rate y oportunidades de mejora del bot.

5. Topics mencionados

Lista de productos, servicios, sucursales, nombres de competidores mencionados. Power para business intelligence: ¿qué producto más preguntan? ¿qué competidor surge en objeciones?

6. Quality score del agent

Score 0-10 evaluando: ¿entendió la pregunta? ¿respondió correctamente? ¿escaló cuando debía? ¿tonalidad apropiada? Permite mejorar prompts del agent iterativamente.

7. Next best action recomendada

Sugerencia accionable: callback en 24h, enviar oferta, programar visita técnica, agregar a campaña drip, cerrar oportunidad. Integrable directo en workflows automatizados.

Pipeline técnico

1. Llamada termina → audio.mp3 + transcript.json guardados (S3 o MinIO)
2. Trigger post-call worker (Celery o RQ)
3. Worker llama LLM con prompt estructurado (JSON schema output)
4. LLM retorna 7 fields estructurados
5. Insertar resultado en tabla call_analyses
6. Push a CRM (HubSpot, Salesforce, custom) via webhook
7. Si next_best_action requiere humano: notificar via Telegram/Slack
8. Si sentiment muy negativo: alertar supervisor inmediato

El prompt estructurado

analyze_call_prompt = (raw_string)
Analiza esta transcripción de llamada empresa-cliente y retorna JSON estricto:

{
  "summary": "resumen 50-100 palabras",
  "sentiment_score": -1.0 a 1.0,
  "sentiment_category": "frustrated|neutral|satisfied|delighted",
  "intent_primary": "info|booking|complaint|cancellation|purchase|tech_support|other",
  "resolution_status": "bot_resolved|escalated_human|abandoned|deferred",
  "topics_mentioned": ["product1", "service2", ...],
  "agent_quality_score": 0 a 10,
  "agent_quality_reasoning": "explicación breve",
  "next_best_action": {
    "action": "callback|send_offer|schedule_visit|drip_campaign|close_won|close_lost|none",
    "priority": "high|medium|low",
    "deadline_hours": 24,
    "notes": "contexto para el humano que ejecute"
  }
}

Transcripción: { transcript completo }

Costo del post-call analysis

Por llamada promedio 3-5 min (1500-3000 tokens transcript + 500 tokens output):

Claude Sonnet 4.5: ~$0.015 USD por llamada
GPT-4o: ~$0.012 USD por llamada
Gemini Flash 2.5: ~$0.001 USD por llamada (90% calidad de Sonnet)

Para volumen 5,000 llamadas/mes con Gemini Flash: ~$5 USD/mes. Costo trivial vs valor business intelligence generado.

Casos de uso reales

Caso 1 — Detectar producto mal posicionado

Topics mencionados aggregados por mes revelan: "competidor X" mencionado en 23% de llamadas de venta (vs 8% mes anterior). Investigación: X lanzó campaña con precio más bajo. Acción: ajustar pitch comercial.

Caso 2 — Agent prompt regression

Agent quality score promedio cae de 8.2 a 6.7 después de update de prompt. Reasoning analysis muestra: agent ahora "interrumpe demasiado". Rollback del prompt + ajuste de barge-in sensitivity.

Caso 3 — Identificar churn risk temprano

Sentiment_score <-0.5 + intent="cancellation" en última llamada de cliente activo = alert automático al account manager + workflow de retención con descuento. Reduce churn 15-25% vs detección post-cancelación.

Caso 4 — Upsell oportunidad

Topics mention "ahora tenemos más sucursales" + sentiment positivo + intent="info" = next_best_action="send_offer enterprise". Conversion rate 12% en clientes con esta combinación.

Preguntas frecuentes

¿Post-call analysis solo para voice agents o también humanos?

Aplica a ambos. Para llamadas humanas se usa mismo pipeline: audio → transcripción (STT) → LLM analysis → outputs estructurados. Casos comunes: supervisión calidad agentes humanos call center, training material para nuevos empleados, identificar best performers vs underperformers, compliance audit (verificar agente comunicó disclaimers obligatorios).

¿Cómo se valida calidad del agent_quality_score?

Calibración inicial: humano supervisor califica 50-100 llamadas manualmente. LLM califica las mismas. Compare scores, ajuste prompt LLM hasta correlación >0.85 con humano. Re-calibrar trimestralmente. Métrica: inter-rater agreement entre LLM scores y humano supervisor.

¿Privacidad de las transcripciones?

Crítico. Implementación correcta: (1) PII detection automática (números tarjeta, CURP, RFC) y redacción antes de almacenar transcripción, (2) cifrado en reposo (S3 con KMS o MinIO con encryption), (3) retención clara documentada (90 días típica), (4) acceso restringido a transcripciones por rol, (5) derecho ARCO operacional para cliente. Compliance LFPDPPP MX requiere disclosure en aviso de privacidad.

¿Integración con CRM cuál es la más común?

HubSpot lidera B2B mid-market MX. Patrón: webhook desde post-call worker → HubSpot API crea o actualiza activity en contact record, escribe sentiment + next_best_action en custom properties. También común: Salesforce, Pipedrive, Zoho, CRMs custom. Implementación: 4-8 horas dev por CRM.

Irving Varela — Ph.D, PMP, PMI-CPMAI, PSM I Fundador y Consultor Principal de IA, Varela Insights · Monterrey, México. Ver perfil completo →

¿Tu empresa necesita una solución de IA medible?

Atendemos de forma remota a empresas de habla hispana, desde Monterrey para toda Latinoamérica. Conversación de 30 min, sin compromiso. Cotizamos en menos de 24 horas.

Agenda conversación →

Post-call analysis con IA: extrae 7 insights estructurados de cada llamada

El audio termina, el valor empieza

Los 7 outputs de un post-call analysis estructurado

1. Summary ejecutivo (1 párrafo)

2. Sentiment del cliente

3. Intención principal del usuario

4. Resolución status

5. Topics mencionados

6. Quality score del agent

7. Next best action recomendada

Pipeline técnico

El prompt estructurado

Costo del post-call analysis

Casos de uso reales

Caso 1 — Detectar producto mal posicionado

Caso 2 — Agent prompt regression

Caso 3 — Identificar churn risk temprano

Caso 4 — Upsell oportunidad

Preguntas frecuentes

Lecturas relacionadas

¿Tu empresa necesita una solución de IA medible?