Cómo construimos el IAI Score: la metodología detrás de la primera métrica de madurez algorítmica

Por David Hurtado
Chief Possibility Officer (CPO) Fundador — Integrity-Led Futures | Integridad Artificial
Maestrando en Diseño de Futuros | Especialista en IA, Ciencia de Datos y Arquitecto de Soluciones


Las métricas de gestión tienen una historia. Siempre emergen de una necesidad que los instrumentos existentes no podían satisfacer. El Net Promoter Score apareció porque las encuestas de satisfacción del cliente eran largas, impredecibles y difíciles de usar como palancas de gestión. El Índice de Desarrollo Humano apareció porque el PIB per cápita era un proxy insuficiente del bienestar real de los países. El EBITDA apareció porque la utilidad neta tenía demasiadas variables contables que oscurecían el desempeño operativo real.

El IAI Score — el Índice de Madurez en Integridad Artificial — apareció por la misma razón: porque la conversación sobre ética algorítmica en entornos laborales carecía de un instrumento que convirtiera los conceptos abstractos en números gestionables, comparables y accionables.

Este artículo explica cómo lo construimos, qué decisiones tomamos en el camino y por qué cada elemento del diseño responde a una necesidad real de gestión.

El problema que el IAI Score existe para resolver

Cuando empecé a hablar con CHROs, CLOs y CEOs sobre integridad algorítmica, el patrón de la conversación era siempre similar. Asintiendo ante el problema, reconociendo la urgencia, pero luego preguntando: "¿Y cómo medimos eso?"

La pregunta no era una evasión. Era completamente legítima. Las organizaciones modernas gestionan por indicadores. Un concepto que no puede convertirse en un número — con un valor actual, una tendencia y un benchmark de referencia — es un concepto que no entra en el tablero de gestión y, por lo tanto, no genera decisiones.

La gestión algorítmica ética necesitaba su número. Y ese número tenía que cumplir tres condiciones que tomé como requerimientos de diseño:

Primera condición: el número tenía que emerger de datos reales de la organización, no de la opinión de un consultor. La organización debía poder reconocerse en él, cuestionarlo con sus propios datos y rastrear cada componente hasta su fuente.

Segunda condición: el número tenía que ser multidimensional. La integridad algorítmica no es una sola cosa. Es la combinación de al menos cinco dimensiones que pueden moverse en direcciones diferentes: una empresa puede tener transparencia alta y sesgo no auditado, o supervisión humana robusta y cumplimiento normativo deficiente. Un número único que no capturara esa multidimensionalidad sería mentiroso.

Tercera condición: el número tenía que poder transformarse en acción. No solo en diagnóstico. No solo en "estás en 42 sobre 100". Sino en "estás en 42, las dimensiones que más te bajan son D2 y D3, las acciones de mayor impacto en los próximos noventa días son estas tres".

Las cinco dimensiones y por qué estas y no otras

La selección de las cinco dimensiones del IAI Score no fue arbitraria. Emergió de la revisión de la literatura científica sobre daño por gestión algorítmica, de la revisión de los marcos regulatorios existentes y emergentes y de la validación con profesionales de SST, RRHH y derecho laboral.

D1 — Transparencia Algorítmica (25%): la transparencia es el primer derecho del trabajador en su relación con los sistemas algorítmicos que lo gestionan. Sin transparencia, ninguna de las otras dimensiones puede verificarse genuinamente: si el trabajador no sabe qué se mide, no puede saber si las mediciones son justas, si el sistema tiene sesgos o si la supervisión humana es real. Es el fundamento epistemológico de toda la estructura.

El peso del 25% refleja que es la dimensión más transversal: problemas de transparencia generan problemas en todas las otras dimensiones, por lo que su déficit tiene el mayor efecto multiplicador sobre el daño total.

D2 — Impacto Psicosocial (25%): el daño documentado más directo de la gestión algorítmica es el daño a la salud mental. El ratio de 2.12 de angustia psicológica reportado por Vleugels et al. (2025) es el dato de mayor contundencia empírica en el campo. D2 captura ese daño a través de cuatro variables: tecnoestrés, ansiedad de evaluación, miedo al reemplazo y agotamiento mental, complementadas con datos objetivos de ausentismo y rotación.

El peso del 25% lo pone en paridad con D1 porque, aunque D1 es el fundamento, D2 es la consecuencia más urgente y la que tiene los costos más directamente cuantificables para la organización.

D3 — Equidad y Ausencia de Sesgo (20%): el sesgo algorítmico no intencional es la fuente de las demandas más costosas y del daño más difícil de justificar públicamente. La metodología de D3 usa análisis estadístico formal (Mann-Whitney, Kruskal-Wallis, d de Cohen) para objetivar la evaluación de sesgo.

El peso del 20% refleja que es una dimensión crítica pero más técnica y más puntual que D1 y D2: puede auditarse con mayor precisión y corregirse con intervenciones más específicas.

D4 — Human-in-the-Loop (20%): la supervisión humana real sobre las decisiones críticas del sistema es el mecanismo de control más directamente vinculado al cumplimiento del AI Act europeo. D4 mide si esa supervisión existe, si es comprensible (el supervisor entiende qué está revisando), si es efectiva (el supervisor tiene autoridad real de reversión) y si es ejercida (hay registros de uso real).

El peso del 20% refleja que es la dimensión más verificable externamente: hay o no hay protocolo documentado, hay o no hay registros de reversiones.

D5 — Cumplimiento Normativo (10%): la documentación regulatoria es el piso mínimo — fácilmente verificable y relativamente fácil de corregir. El peso del 10% no refleja poca importancia, sino que es la dimensión más binaria: tienes la política o no la tienes, tienes la cláusula en el contrato o no la tienes.

La arquitectura de datos: de dónde viene cada número

El IAI Score se construye desde tres fuentes de datos que se combinan en la estructura de indicadores:

Encuesta de empleados: 10 preguntas divididas en tres secciones (experiencia con IA, impacto en salud mental, transparencia y confianza) que alimentan principalmente D1 y D2. La escala de respuesta es convertida a valores 0-1 con pesos que reflejan la gravedad relativa de cada respuesta.

Encuesta de líderes: 8 preguntas divididas en tres secciones (uso de IA en gestión del equipo, riesgos identificados, capacidades actuales) que alimentan principalmente D4 y parte de D2. Los líderes aportan la perspectiva de quienes tienen responsabilidad de supervisión humana sobre el sistema.

Revisión documental y datos cuantitativos de RRHH: auditoría de políticas, cláusulas contractuales, datos de ausentismo, rotación e incapacidades, revisión del contrato con el proveedor. Alimenta principalmente D3, D4 y D5.

Las decisiones de diseño que no son obvias

Hay tres decisiones de diseño en el IAI Score que merecen explicación porque no son la primera intuición:

Por qué D4 (HITL) penaliza el exceso de intervenciones manuales cuando la capacidad de anulación es baja: podría parecer que más intervenciones manuales siempre es mejor. No lo es. Si el líder interviene frecuentemente pero no tiene capacidad real de anular al sistema (la organización no acepta reversiones sin aprobaciones múltiples), las intervenciones son señal de disfunción del sistema, no de supervisión genuina. El modelo distingue entre ambos escenarios mediante la combinación de la frecuencia de intervenciones con el indicador de capacidad de anulación real.

Por qué D5 tiene solo el 10% y no más: porque D5 es el único componente que puede ser "verde" con recursos mínimos: redactar una política toma días. El riesgo de darle más peso es incentivar que las organizaciones construyan documentación sin construir práctica real. El modelo premia la acción (D1, D2, D4) más que la documentación (D5).

Por qué el score de sesgo estadístico en D3 penaliza la "ausencia de datos" pero no con el mismo peso que el sesgo confirmado: una organización que no tiene datos suficientes para calcular el sesgo estadístico tiene un problema de gobernanza de datos, pero no tiene evidencia de sesgo activo. El modelo la penaliza moderadamente (score = 0.3 sobre 1.0) para crear el incentivo de recopilar los datos necesarios, pero no la equipara con una organización que tiene sesgo confirmado estadísticamente.

El IAI Score como herramienta de conversación, no de condena

El número que emerge del IAI Score no es una sentencia. Es el inicio de una conversación estructurada entre la organización y sus propios datos. El valor de mayor impacto no es el número en sí — es lo que ocurre en la sala cuando el informe se presenta al C-Level y los líderes ven, por primera vez, qué dicen sus propios empleados sobre los sistemas que los gestionan.

Esa conversación es el verdadero producto del Diagnóstico IAI Express. El IAI Score es el instrumento que la hace posible.


Referencias

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.

Kellogg, K. C., Valentine, M. A., & Christin, A. (2020). Algorithms at work: The new contested terrain of control. Academy of Management Annals, 14(1), 366–410. https://doi.org/10.5465/annals.2018.0174

Mann, H. B., & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. The Annals of Mathematical Statistics, 18(1), 50–60.

Reichheld, F. F. (2003). The one number you need to grow. Harvard Business Review, 81(12), 46–54.

Schmidt, F. A., Kirchner, S., & Niehaus, M. (2025). Algorithmic management: Psychological measurement and mental strain. BMC Psychology, 13(1). https://doi.org/10.1186/s40359-025-03680-2

UNDP. (1990). Human development report 1990: Concept and measurement of human development. Oxford University Press.

Vleugels, W., De Witte, H., & Forrier, A. (2025). Algorithmic management and psychological distress at work. International Archives of Occupational and Environmental Health, 98(2), 145–162. https://doi.org/10.1007/s00420-025-02180-5