Sitio en desarrollo.Working paper en preparación · contenido sujeto a revisión y verificación adicional.
Ejercicio 03 · Investigación con LLMs múltiples
Futuro del Derecho: Global y Guatemala
David Jonathán Salazar García
UNV · PNUD — Centro de Innovación Jurídico-Tecnológico (CIJT)
Escuela de Estudios Judiciales · Organismo Judicial de Guatemala
Fundador de
Grupo Inteligencia ·
LegalTech Guatemala ·
AXIOMA —
normativa y jurisprudencia computables (protocolos de inteligencia normativa e inteligencia jurisprudencial).
Producir conocimiento jurídico-tecnológico operativo y verificable sobre el futuro del derecho global y en Guatemala, mediante el debate estructurado de tres modelos de IA con roles funcionales diferenciados, supervisado por un moderador humano con herramientas de fact-checking en tiempo real contra el corpus normativo guatemalteco y fuentes externas.
Objetivo general
Identificar predicciones consensuadas con métrica de falsación, disensos persistentes con argumentos explícitos, y una agenda de investigación para el CIJT, sobre la trayectoria probable de la práctica jurídica en horizonte 2027–2040.
Objetivos específicos
Diagnosticar el estado real de adopción de IA jurídica en EEUU, UE, China, OECD y América Latina, distinguiendo intención, piloto y producción auditada.
Caracterizar el estado de IA jurídica en Guatemala y Centroamérica, contrastado con jurisdicciones del Sur Global.
Evaluar capacidades reales de LLMs, RAG, agentes y verificación formal aplicados al dominio jurídico.
Mapear el marco normativo emergente —EU AI Act, regulación EEUU/China, vacío latinoamericano— y proyectar trayectorias para Guatemala.
Construir escenarios falsables para horizonte 2027–2032 y 2033–2040, distinguiendo global y GT.
Producir recomendaciones operativas para reguladores GT, OJ-EEJ-CIJT, firmas legales centroamericanas y formación jurídica.
Las 12 fases del experimento
Cada fase rota tres voces (OpenAI → Gemini → Claude × 4 ciclos) bajo una pregunta-eje vinculante, con apertura y cierre del moderador.
Sección 3
Metodología y stack
Arquitectura · 3 voces de IA + moderador con tools, orquestados por Python.
Roles funcionales
OpenAI · gpt-5.5
Escéptico Empírico
Cuestiona supuestos, exige condiciones de falsación y metodología en cada cita; pide al moderador verificación factual de afirmaciones previas.
Google · gemini-2.5-pro
Sintetizador Comparativo
Aporta jurisprudencia y casos del Sur Global, contrasta common-law / civil-law / Centroamérica, y traza mapas evolutivos intercontinentales.
Anthropic · claude-opus-4-7
Constructor de Marcos
Produce taxonomías, escalas operacionales, predicciones con horizonte/métrica/falsación/confianza y arquitecturas de gobernanza.
Moderador · claude-opus-4-7 (proceso separado)
Verificación factual y supervisión epistémica
Apertura y cierre por fase. Extrae afirmaciones empíricas (regex + heurísticas: años, citas, nombres de leyes), las rutea a AXIOMA / CC scraper / web, y devuelve al hilo etiquetas [VERIFICADO_MOD] · [DISPUTADO_MOD] · [SIN_VERIFICAR_MOD] · [CORPUS_GT].
Reglas epistémicas obligatorias
[HECHO] documentado y verificable.
[TENDENCIA] patrón con evidencia parcial.
[INFERENCIA] razonamiento desde premisas explícitas.
[ESPECULACIÓN] declarada como tal.
[NO_SE] admisión de límite.
[VERIFICADO_MOD] moderador con fuente.
[DISPUTADO_MOD] moderador contradice.
[SIN_VERIFICAR_MOD] sin coincidencia.
[CORPUS_GT] normativa GT inyectada.
Cada turno se abre identificando un punto de desacuerdo genuino con el turno anterior, o declarándolo explícitamente ausente —ambos son información—. Las predicciones obligan a horizonte temporal, métrica, condición de falsación y nivel de confianza.
10 predicciones consensuadas, 3 disensos, 8 líneas de investigación. Las propias IAs identificaron el problema del consenso engañoso entre modelos solapados.
Límite: dos voces solapadas, sin fact-check, sin foco granular sobre Guatemala.
Diagnóstico, predicción y consolidación verificada
Tres modelos con roles diferenciados; fact-check tiempo real contra AXIOMA + scraper CC + web; doble foco Global/Guatemala.
Aporte: reglas de falsación explícitas, antagonismo obligatorio, etiquetas epistémicas en cada turno.
Tabla comparativa
Ejercicio
# Turnos
# IAs
Moderador
Fact-checking
Foco geográfico
Output
01
22
2
—
—
Global
HTML papel envejecido
02
44
2
—
—
Global
HTML 10 predicciones
03
152
3
✓ con tools
✓ AXIOMA + CC + web
Global + Guatemala
Esta página
Sección 5
KPIs del experimento
Métricas extraídas de los logs (state.json, factcheck_log.json, conversation3.md). No se reportan valores estimados sin marcarlos.
Sección 6
Resultados
Síntesis de la fase 12 — Documento consolidado conjunto. Cada predicción cita su nivel de confianza, horizonte y condición de falsación tal como aparecen en el debate.
Predicciones consensuadas
Disensos persistentes
Agenda de investigación pendiente
Recomendaciones por destinatario
Sección 7
Estadísticas del debate
Diez vistas sobre los 152 turnos y las 295 verificaciones del moderador. Todos los datos vienen de los logs.
Distribución de turnos por voz
Etiquetas epistémicas usadas
Fact-checks por estado
Tipo de claim verificada por el moderador
Predicciones por horizonte temporal
Predicciones por nivel de confianza (apilado por horizonte)
Cobertura jurisdiccional · top 10
Inyecciones de corpus GT por fase
Tipo de fuente verificada
Distribución de palabras por turno · por IA
Densidad de antagonismo por fase
Sección 8
Conversación completa
152 turnos + 24 intervenciones del moderador. Filtros y búsqueda en vivo. La transcripción se monta perezosamente para que el primer paint sea fluido.
Voz
Etiqueta
Fase
Sección 9
Conclusiones y limitaciones
Conclusiones del método —no del contenido—; el contenido vive en la transcripción y los resultados. Lo que el ejercicio enseñó sobre cómo hacer este tipo de investigación.
Aportes del método
El antagonismo obligatorio funciona. Cada turno abre con un punto de desacuerdo genuino o lo declara ausente; eso impide la convergencia performativa que el Ejercicio 02 había detectado entre dos voces.
Tres voces con roles diferenciados produce más fricción que dos voces parejas. Las taxonomías de Claude, las comparaciones del Sur Global de Gemini y la disciplina factual de OpenAI cumplen funciones distintas y no se solapan.
Las etiquetas epistémicas estabilizan el discurso. Forzar [HECHO] / [TENDENCIA] / [INFERENCIA] / [ESPECULACIÓN] / [NO_SE] en cada afirmación impide la pirotecnia retórica y deja una traza auditable.
El moderador con tools cierra el ciclo. 295 claims extraídas en 152 turnos; 122 verificadas (41,4 %). Sin esto, el debate sería autoreferencial.
Las predicciones falsables sobreviven al fracaso. El consolidado de fase 12 declara explícitamente que el motor analítico sobrevive aun si las apuestas concretas fallan.
Pluralidad sin síntesis falsa. Cuatro disensos persistentes con falsadores explícitos —no errores editoriales: diseño deliberado de tres cortes analíticos no rivales.
Limitaciones reconocidas
173 de 295 claims quedaron [SIN_VERIFICAR_MOD] — 58,6 %. La cobertura del fact-check tiene un techo: muchas afirmaciones (referencias internacionales, estudios sin URL canónica, normativa GT no migrada a AXIOMA) no pueden anclarse a una fuente verificable en línea.
0 inyecciones de corpus formales: el moderador encontró respuestas vía AXIOMA en 28 ocasiones, pero el flujo de inyección explícita de norma o sentencia con etiqueta [CORPUS_GT] no se materializó; las verificaciones quedaron como anotaciones.
Sesgo de jurisdicción: Guatemala domina el corpus mencionado (419 hits), seguida de Brasil, India, Costa Rica, Unión Europea. La cobertura sub-sahariana, asiática del Este y centroamericana fuera del triángulo es escasa.
Confianza explícita en la minoría: solo ~118 predicciones traen un nivel de confianza explícito (alta/media/baja o numérico) sobre cientos de afirmaciones prospectivas. El resto es etiqueta epistémica genérica.
Métricas de tiempo y tokens parcialmente estimadas: 94 de 152 turnos usaron heurística de chars/4.2 para tokens; el costo total reportado es referencial.
Convergencia no eliminada: la fase 12 muestra D1 cerrada por décima vez con dos falsadores complementarios; la fricción persiste, pero también la dificultad de resolverla dentro del formato.
Lecciones para Ejercicio 04
Mover el flujo [CORPUS_GT] a una intervención obligatoria del moderador en al menos N% de turnos de fases GT, no opcional.
Forzar nivel de confianza explícito (alta/media/baja o numérico) en cada predicción falsable, validable por el orquestador antes de aceptar el turno.
Aumentar la diversidad jurisdiccional: cuota mínima de Sur Global no centroamericano por fase de Gemini.
Operacionalizar el cierre de disensos: si tras N turnos el desacuerdo persiste con los mismos argumentos, el moderador inyecta evidencia o cierra con disensus declarado.
Cronometrar todos los turnos desde el primero — no solo los últimos —, para que las métricas de latencia y costo sean comparables.
Iterar la propia metodología en sí misma como objeto de estudio: "¿qué ejercicio 04 necesitamos para que ejercicio 05 sea más útil que esto?"