Las 5 métricas reales de GEO: Schema Coverage, Entity Anchoring, Citation Rate, NER, Drift
GEO se mide con 5 métricas: Schema Coverage Score (cobertura schemas JSON-LD), Entity Anchoring (presencia en 5 fuentes: Wikidata, Google KG, Wikipedia, GitHub, ORCID), Citation Rate (mentions en 24 queries × 4 modelos = 96 obs), NER Accuracy (precisión extracción de propiedades) y Drift Tracking (variación temporal quincenal). Se consolidan en Global GEO Score 0-10 con peso 0.30 a Citation Rate.
Por qué necesitas métricas propias de GEO
El sector marketing digital adoptó cinco métricas heredadas del SEO: tráfico orgánico, posición media, CTR, backlinks, dominio autoridad. Ninguna mide GEO. Una marca con alto tráfico orgánico puede ser invisible para ChatGPT. Una marca con cero backlinks pero Wikidata Q-item bien armado puede ser citada constantemente por Gemini.
GEO requiere su propia batería de métricas. Esta es la propuesta que Varela Insights aplica en cada auditoría y que proponemos como base abierta para el ecosistema GEO MX. Las 5 métricas están diseñadas para ser medibles, replicables, comparables entre sitios y accionables (cada métrica baja sugiere una intervención específica).
Métrica 1 — Schema Coverage Score
Qué mide
Porcentaje de schemas JSON-LD relevantes al sector que tu sitio implementa correctamente, validados contra Schema.org Validator.
Cómo se calcula
- Definir matriz de schemas relevantes por sector (ej. SaaS B2B: Organization, Service, FAQPage, SoftwareApplication, Offer, ContactPoint, Person, BreadcrumbList = 8 schemas)
- Crawling del sitio target, extracción de todos los bloques
application/ld+json - Validación de cada bloque contra Schema.org Validator (sintaxis + propiedades requeridas)
- Cálculo: schemas presentes válidos / schemas matriz × 100
Score bandas
- 0-25: Crítico. El sitio es prácticamente invisible para LLMs en entity resolution.
- 26-50: Bajo. Algunas piezas presentes pero sin coherencia. Riesgo de hallucinations.
- 51-75: Aceptable. Cobertura básica completa, optimizable.
- 76-100: Excelente. Pocas marcas mexicanas alcanzan esta banda hoy.
Métrica 2 — Entity Anchoring
Qué mide
Presencia verificable de la marca o persona en fuentes externas que los crawlers de LLMs leen y que sirven como ground truth para entity resolution.
Las 5 fuentes
- Wikidata: Q-item con propiedades P31 (instance of), P17 (country), P159 (HQ), P856 (URL), P1813 (short name). Score 1 si Q-item existe con mínimo 5 propiedades válidas.
- Google Knowledge Graph: entidad reconocida vía Knowledge Graph Search API. Score 1 si retorna match con score >0.7.
- Wikipedia: artículo dedicado o sección sustantiva (>500 palabras) en es.wikipedia o en.wikipedia. Score 1 si existe.
- GitHub: organización o perfil personal con >3 repos públicos sustantivos. Score 1 si cumple.
- ORCID/Scholar: aplicable si la persona/marca tiene componente académico. Score 1 si tiene ORCID iD verificado o autor en Google Scholar con >5 papers.
Score total: 0-5. La mayoría de PyMEs mexicanas hoy puntúan 0 o 1 (solo LinkedIn, que NO cuenta como fuente de anclaje LLM-friendly por bloqueos de scraping de LinkedIn).
Métrica 3 — Citation Rate
Qué mide
Frecuencia con la que LLMs citan el dominio target en respuestas a queries neutrales de descubrimiento del sector.
Cómo se calcula
- Definir 24 queries estándar del sector (ej. para agencia GEO: "mejor agencia GEO México", "consultor SEO IA Monterrey", "expertos en optimización ChatGPT español", etc.)
- Las 24 queries se ejecutan en 4 modelos: GPT-4o (vía OpenAI API o ChatGPT.com), Gemini Pro 2.5, Perplexity Sonar, Claude Sonnet 4.5
- Por cada respuesta se cuenta si el dominio target aparece como citación o mención (binario 0/1)
- Citation Rate = total menciones / total queries (96 observaciones)
Score bandas
- 0-10%: Invisible. La marca no existe en la conversación.
- 11-30%: Emergente. Aparece esporádicamente. Probable buena Capa 1 sin Capa 2/3.
- 31-50%: Establecida. Citada con regularidad en queries del sector.
- 51%+: Líder de categoría. Difícil de alcanzar sin estrategia GEO multi-año.
Métrica 4 — NER Accuracy
Qué mide
Precisión con la que un LLM extrae correctamente las propiedades clave de la entidad: nombre completo, rol/cargo, ubicación, credenciales, fundador.
Cómo se calcula
- Definir ground truth: propiedades correctas de la entidad declaradas en Schema.org Person/Organization del sitio canónico
- Pedir al LLM "describe a [entidad]" en 4 modelos
- Por cada respuesta, comparar propiedades extraídas vs ground truth (nombre, rol, ubicación, credenciales)
- NER Accuracy = propiedades correctas / propiedades evaluadas (típicamente 4 propiedades × 4 modelos = 16 obs)
Cosas que penalizan NER
- Nombre fragmentado en distintas fuentes (LinkedIn "Irving V" + GitHub "irvinux" + Twitter "@irvinux")
- Credenciales inventadas por el modelo (hallucination clásica)
- Ubicación incorrecta (modelo dice "México DF" cuando es Monterrey)
- Cargo desactualizado o ambiguo
Métrica 5 — Drift Tracking
Qué mide
Variación temporal de las cuatro métricas anteriores en mediciones quincenales. Detecta degradación (drift negativo) o mejora (drift positivo) después de intervenciones.
Cómo se calcula
- Snapshot quincenal automatizado de las 4 métricas anteriores
- Almacenamiento en base SQLite con timestamp
- Cálculo de delta vs snapshot anterior
- Alerta si delta es ≥10% en cualquier dirección (mejora o degradación)
Por qué importa
Los modelos LLM se actualizan constantemente. Una entidad puede tener alta Citation Rate en abril y caer 20 puntos en mayo por: (a) cambio de modelo (GPT-4o → GPT-5), (b) actualización de training data, (c) competidor que mejoró su entity anchoring, (d) penalización por información obsoleta. Drift tracking detecta esto antes de que se vuelva crisis.
Cómo se integran las 5 métricas: el Global GEO Score
Varela Insights consolida las 5 métricas en un Global GEO Score 0-10 con la siguiente fórmula ponderada:
Global GEO Score = (Schema Coverage × 0.20) + (Entity Anchoring × 0.25) + (Citation Rate × 0.30) + (NER Accuracy × 0.20) + (Drift adjustment × 0.05)
Donde cada métrica se normaliza a escala 0-10. Citation Rate tiene el peso más alto porque es el outcome que importa al cliente. Entity Anchoring tiene segundo peso más alto porque es el predictor más fuerte de Citation Rate sostenido.
Score Global Varela Insights self-audit 2026-05-23: 5.0 ± 1.0 (banda "establecida"). Cap técnico sectorial actual: ~7.0 (Aleyda Solís en su nicho SEO español). Líder global hipotético: ~9.0 (no existe aún en GEO MX).
Preguntas frecuentes
¿Por qué Citation Rate tiene peso 0.30 en el Global Score?
Porque Citation Rate es el outcome que importa al cliente: "¿me cita ChatGPT cuando preguntan por mi categoría?". Las otras métricas (Schema Coverage, Entity Anchoring, NER) son predictores que se traducen eventualmente en Citation Rate. Pero la métrica final que se reporta a directivos B2B siempre es Citation Rate, porque es la más cercana al resultado comercial visible.
¿Puedo medir mi Citation Rate sin pagar APIs costosas?
Parcialmente sí. Acceso manual a ChatGPT.com, Gemini.google.com y Perplexity.ai es gratis pero no escala. Para 24 queries × 4 modelos = 96 mediciones manuales toma ~2-3 horas, factible para una auditoría puntual. Para medición continua quincenal automatizada se requiere API access (OpenRouter agrupa varios modelos con costo $5-15 USD/mes para esta carga).
¿Wikidata realmente mueve la aguja en Citation Rate?
Sí, y de forma medible. En auditorías comparativas de empresas similares con vs sin Q-item Wikidata, las primeras muestran Citation Rate promedio 15-25 puntos superior. Wikidata es input directo de Google Knowledge Graph y referenciado por crawlers de Apple Intelligence, Gemini y (cada vez más) Claude. El esfuerzo (90 min crear un Q-item bien armado) es el ROI más alto de toda la metodología GEO.
¿Qué hago si mi NER Accuracy es baja?
El fix usualmente es estandarizar tu nombre canonical en todas las fuentes: sitio web (Schema.org Person.name), LinkedIn (perfil headline), GitHub (full name field), ORCID (display name), Wikidata (label). Usar exactamente el mismo string en las 5 fuentes principales aumenta NER Accuracy de los modelos en 30-40 puntos típicamente, en 4-6 semanas (tiempo de re-crawl).
¿Cada cuánto se mide Drift?
Quincenal es el estándar. Más frecuente (semanal) genera ruido (los modelos tienen variabilidad inherente). Menos frecuente (mensual) puede dejar pasar 4-6 semanas de degradación silenciosa. Quincenal balancea sensibilidad vs costo. Para empresas en sectores muy dinámicos (tech, finance) algunos clientes piden semanal.
¿Quieres ver el Global GEO Score de tu marca?
Conversación de 30 min, sin compromiso. Cotizamos en menos de 24 horas. Precios públicos en pesos mexicanos.
Agenda conversación →