El IAI Score: la primera métrica de madurez en Integridad Artificial
Por David Hurtado
Chief Possibility Officer (CPO) Fundador — Integrity-Led Futures | Integridad Artificial
Maestrando en Diseño de Futuros | Especialista en IA, Ciencia de Datos y Arquitecto de Soluciones
El problema más frecuente que encuentro en mis conversaciones con CHROs, CLOs y CEOs cuando hablo de gestión algorítmica ética no es la falta de buena intención. La buena intención abunda. El problema es la falta de un número.
"Queremos que nuestra IA trate bien a nuestros empleados." ¿Cómo sabes si lo está haciendo? "Queremos que nuestros algoritmos sean justos." ¿Qué es justo en términos medibles? "Queremos que haya supervisión humana en el proceso." ¿Cuánta? ¿Cómo se verifica?
Las organizaciones no pueden gestionar lo que no miden. Y el campo de la integridad algorítmica en la gestión laboral carecía, hasta ahora, de una métrica que convirtiera un concepto abstracto en un número gestionable con umbrales de alerta, benchmarks de industria y rutas de mejora documentadas.
El IAI Score es esa métrica.
Qué es el IAI Score
El Índice de Madurez en Integridad Artificial (IAI Score) es un indicador compuesto de 0 a 100 que mide cuán íntegramente opera la gestión algorítmica de una organización respecto a las personas que trabajan en ella. Se calcula a partir de cinco dimensiones que cubren los aspectos más críticos de la integridad algorítmica en entornos laborales, cada una con un peso específico determinado por su importancia relativa en el daño potencial al trabajador y en el riesgo legal para la organización.
El IAI Score no es una calificación subjetiva de un consultor. Es el resultado de un proceso metodológico que combina datos cuantitativos (encuestas a empleados y líderes, métricas operativas de RRHH) con evaluación cualitativa documentada (revisión de políticas, análisis estadístico de sesgos, validación de protocolos). El número emerge de la evidencia, no de la opinión.
Las cinco dimensiones y sus pesos
D1 — Transparencia Algorítmica (peso: 25%)
Mide en qué medida los trabajadores comprenden qué datos recopila el sistema sobre ellos, cómo esos datos influyen en su evaluación y qué criterios determinan las decisiones que los afectan. Es la dimensión de mayor peso porque es el fundamento de todas las demás: sin transparencia, ninguna otra dimensión puede verificarse genuinamente.
Los indicadores clave de D1 provienen de la encuesta de empleados (¿entiende los datos que recopila el sistema? ¿la empresa le explicó cómo funcionan los algoritmos?) y de la revisión documental (¿existe una política de uso de datos de empleados publicada, comunicada y vigente?).
Un D1 entre 0 y 19 indica violación activa del derecho a la información. Entre 80 y 100, el trabajador comprende el sistema y hay una política robusta de comunicación.
D2 — Impacto Psicosocial (peso: 25%)
Mide el efecto real de la gestión algorítmica sobre el bienestar mental de los trabajadores. Es la dimensión de mayor impacto directo en la salud y la de mayor consecuencia en los costos ocultos del cliente: ausentismo, rotación, productividad perdida por burnout, incapacidades.
Incluye el Índice de Tecnoestrés (ITE), que combina la frecuencia de estrés relacionado con el monitoreo algorítmico, la ansiedad por evaluación del sistema, el miedo al reemplazo y el nivel de agotamiento mental reportado. Un ITE por debajo de 55 activa alerta amarilla; por debajo de 40, alerta roja.
El fundamento científico de D2 descansa directamente en el ratio de 2.12 de angustia psicológica documentado por Vleugels et al. (2025): si el sistema de gestión algorítmica produce ese nivel de daño en el promedio de los trabajadores, el D2 de la organización es críticamente bajo.
D3 — Equidad y Ausencia de Sesgo (peso: 20%)
Mide si los algoritmos de gestión producen resultados diferenciados por variables protegidas (edad, género, raza, tipo de contrato, condición de salud). La metodología usa análisis estadístico formal: Test de Mann-Whitney para comparaciones entre dos grupos y Test de Kruskal-Wallis para tres o más grupos.
Un valor p < 0.05 en cualquiera de estas pruebas indica sesgo estadísticamente significativo: hay una diferencia en los resultados del sistema entre grupos que no puede atribuirse al azar. Con un d de Cohen ≥ 0.8, el sesgo es de magnitud grande y debe ser reportado como hallazgo crítico independientemente del tamaño de la muestra.
D3 entre 0 y 19 significa sesgo confirmado estadísticamente — el riesgo de demanda estimado supera los $500 millones COP para una organización de tamaño medio.
D4 — Human-in-the-Loop (peso: 20%)
Mide la existencia y efectividad real de la supervisión humana sobre las decisiones críticas del sistema. Combina la perspectiva del trabajador (¿puede cuestionar o apelar una decisión del sistema?) con la perspectiva del líder (¿puede ajustar o anular las recomendaciones del sistema?) y la revisión documental del protocolo de supervisión.
El componente más exigente de D4 es la distinción entre supervisión nominal y supervisión real: un protocolo escrito que no tiene evidencia de uso real puntúa 0.7 sobre 1.0 en este factor. La supervisión humana existe cuando se ejerce, no cuando se documenta.
D5 — Cumplimiento Normativo (peso: 10%)
Mide si la organización tiene los documentos mínimos de gobernanza algorítmica: política de uso de datos de empleados comunicada y vigente, cláusula en contratos laborales o reglamento interno sobre IA y monitoreo, contrato con proveedor que incluye cláusula de explicabilidad (XAI), capítulo de ética digital en el último reporte ESG y protocolo de comunicación ética documentado.
D5 tiene el menor peso porque es el más binario y el más fácil de corregir rápidamente. Pero un D5 en 0 es una bandera roja inmediata para el área jurídica, independientemente del puntaje en las otras dimensiones.
La tabla de interpretación del IAI Score
| Rango | Nivel | Diagnóstico | Acción recomendada |
|-------|-------|-------------|-------------------|
| 85–100 | Líder IAI | Empresa referente en integridad algorítmica | Certificación Gold |
| 70–84 | Avanzado | Buenas prácticas, brechas menores | Certificación Silver + Safe-AI Watch |
| 55–69 | En desarrollo | Esfuerzos visibles pero inconsistentes | Auditoría + Framework de Transición |
| 40–54 | Vulnerable | Riesgos reales sin gestión activa | Auditoría urgente |
| 25–39 | Crítico | Múltiples frentes de riesgo activos | Diagnóstico de Choque ILF |
| 0–24 | Emergencia | Crisis algorítmica — exposición legal y humana máxima | Intervención inmediata |
Por qué el número importa
El IAI Score resuelve el problema que identifiqué al inicio: la buena intención sin métrica no produce cambio. El número hace tres cosas que ningún informe cualitativo puede hacer por sí solo:
Convierte lo abstracto en gestionable: "La integridad algorítmica de nuestra organización pasó de 38 a 67 en seis meses" es un dato que el directorio puede entender, puede celebrar y puede presupuestar. "Mejoró nuestra transparencia hacia los empleados" no.
Crea urgencia con los datos propios del cliente: cuando el score emerge de las encuestas a sus propios empleados y de sus propios datos de RRHH, la organización no puede descartarlo como una apreciación externa. Es el espejo de su propia realidad, cuantificado y jerarquizado.
Genera el ciclo de mejora continua: el Safe-AI Watch calcula variaciones mensuales del IAI Score y sus componentes. Una organización que ve su D2 bajar de 68 a 54 en dos meses quiere saber por qué. Ese es el valor del monitoreo: no es un reporte estático de estado, es un sistema de alerta temprana que protege la inversión ya realizada.
El IAI Score no mide si una empresa es buena o mala. Mide cuán alineada está la gestión algorítmica de esa empresa con los valores que ya declaró tener. La brecha entre ambas — entre lo que dice y lo que mide — es donde ILF opera.
Referencias
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.
European Parliament. (2024). Regulation (EU) 2024/1689 on artificial intelligence (AI Act). Official Journal of the European Union.
Karasek, R., & Theorell, T. (1990). Healthy work: Stress, productivity, and the reconstruction of working life. Basic Books.
Mann, H. B., & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. The Annals of Mathematical Statistics, 18(1), 50–60. https://doi.org/10.1214/aoms/1177730491
Thibaut, J., & Walker, L. (1975). Procedural justice: A psychological analysis. Lawrence Erlbaum Associates.
Vleugels, W., De Witte, H., & Forrier, A. (2025). Algorithmic management and psychological distress at work. International Archives of Occupational and Environmental Health, 98(2), 145–162. https://doi.org/10.1007/s00420-025-02180-5
World Economic Forum. (2025). The future of jobs report 2025. World Economic Forum.