Legaltech Guatemala

Ejercicio 03 · Investigación con LLMs múltiples

Futuro del Derecho
en Guatemala y el mundo

Doble foco · Global + Guatemala Fact-check tiempo real · AXIOMA + Web 3 IAs con roles diferenciados 295 fact-checks · 12 fases · 152 turnos Predicciones falsables · disensos con falsadores

David Jonathán Salazar García

UNV · PNUD · Centro de Innovación Jurídico-Tecnológico (CIJT)
Escuela de Estudios Judiciales · Organismo Judicial de Guatemala

Fundador de Grupo Inteligencia · LegalTech Guatemala · AXIOMA: normativa y jurisprudencia computables (protocolos de inteligencia normativa e inteligencia jurisprudencial).

david@legaltech.com.gt LinkedIn Publicado 2026-05-08

OpenAI · gpt-5.5 Google · gemini-2.5-pro Anthropic · claude-opus-4-7 Moderador con tools

Ir a la conversación completa Ver resultados

Descubre más

Sección 1

Resumen ejecutivo

Una vista de tres párrafos sobre el experimento, para quien no tenga tiempo de leer los 152 turnos. Aquí se condensan qué se preguntó, qué firmaron las tres IAs al final y qué quedó sin resolver. Funciona como puerta de entrada, no como sustituto de la transcripción completa.

Sección 2

Propósito y objetivos

Cuatro motivaciones llevaron al ejercicio: corregir limitaciones de las dos iteraciones previas, evaluar capacidades reales de los modelos en derecho, mapear el marco normativo emergente y construir escenarios falsables para Guatemala. Cada objetivo se traduce en una hipótesis verificable o en una agenda de investigación pendiente; ninguno se queda en intención declarativa.

Propósito

Producir conocimiento jurídico-tecnológico operativo y verificable sobre el futuro del derecho global y en Guatemala, mediante el debate estructurado de tres modelos de IA con roles funcionales diferenciados, supervisado por un moderador humano con herramientas de fact-checking en tiempo real contra el corpus normativo guatemalteco y fuentes externas.

Objetivo general

Identificar predicciones consensuadas con métrica de falsación, disensos persistentes con argumentos explícitos, y una agenda de investigación para el CIJT, sobre la trayectoria probable de la práctica jurídica en horizonte 2027–2040.

Objetivos específicos

Diagnosticar el estado real de adopción de IA jurídica en EEUU, UE, China, OECD y América Latina, distinguiendo intención, piloto y producción auditada.
Caracterizar el estado de IA jurídica en Guatemala y Centroamérica, contrastado con jurisdicciones del Sur Global.
Evaluar capacidades reales de LLMs, RAG, agentes y verificación formal aplicados al dominio jurídico.
Mapear el marco normativo emergente (EU AI Act, regulación EEUU/China, vacío latinoamericano) y proyectar trayectorias para Guatemala.
Construir escenarios falsables para horizonte 2027–2032 y 2033–2040, distinguiendo global y GT.
Producir recomendaciones operativas para reguladores GT, OJ-EEJ-CIJT, firmas legales centroamericanas y formación jurídica.

Las 12 fases del experimento

Cada fase rota tres voces (OpenAI → Gemini → Claude × 4 ciclos) bajo una pregunta-eje vinculante, con apertura y cierre del moderador.

Sección 3

Metodología y stack

Tres voces de IA con roles diferenciados (gpt-5.5, gemini-2.5-pro, claude-opus-4-7), un moderador humano-IA con herramientas de verificación, y una orquestación en Python que pasó turno a turno por 12 fases temáticas. Cada turno tenía que cumplir reglas explícitas: discrepar genuinamente del anterior o declarar ausencia de desacuerdo, etiquetar epistémicamente sus afirmaciones (HECHO, INFERENCIA, TENDENCIA, ESPECULACIÓN, NO_SE) y proponer predicciones con horizonte temporal y condición de falsación.

Arquitectura · 3 voces de IA + moderador con tools, orquestados por Python.

Roles funcionales

OpenAI · gpt-5.5

Escéptico Empírico

Cuestiona supuestos, exige condiciones de falsación y metodología en cada cita; pide al moderador verificación factual de afirmaciones previas.

Google · gemini-2.5-pro

Sintetizador Comparativo

Aporta jurisprudencia y casos del Sur Global, contrasta common-law / civil-law / Centroamérica, y traza mapas evolutivos intercontinentales.

Anthropic · claude-opus-4-7

Constructor de Marcos

Produce taxonomías, escalas operacionales, predicciones con horizonte/métrica/falsación/confianza y arquitecturas de gobernanza.

Moderador · claude-opus-4-7 (proceso separado)

Verificación factual y supervisión epistémica

Apertura y cierre por fase. Extrae afirmaciones empíricas (regex + heurísticas: años, citas, nombres de leyes), las rutea a AXIOMA / CC scraper / web, y devuelve al hilo etiquetas [VERIFICADO_MOD] · [DISPUTADO_MOD] · [SIN_VERIFICAR_MOD] · [CORPUS_GT].

Reglas epistémicas obligatorias

[HECHO] documentado y verificable.
[TENDENCIA] patrón con evidencia parcial.
[INFERENCIA] razonamiento desde premisas explícitas.
[ESPECULACIÓN] declarada como tal.
[NO_SE] admisión de límite.
[VERIFICADO_MOD] moderador con fuente.
[DISPUTADO_MOD] moderador contradice.
[SIN_VERIFICAR_MOD] sin coincidencia.
[CORPUS_GT] normativa GT inyectada.

Cada turno se abre identificando un punto de desacuerdo genuino con el turno anterior, o declarándolo explícitamente ausente (ambos son información). Las predicciones obligan a horizonte temporal, métrica, condición de falsación y nivel de confianza.

Stack técnico

Orquestación

Python 3.11+

asyncpg · httpx · stdlib

LLMs

3 modelos frontera

gpt-5.5 (API) · gemini-2.5-pro (API) · claude-opus-4-7 (CLI MAX)

BD jurídica

AXIOMA

PostgreSQL 16 · pgvector 3072D · Apache AGE

Búsqueda externa

DDG / Brave / Tavily

DuckDuckGo HTML por defecto

Scraping CC

httpx + ASP.NET parser

PDF directo + fallback ViewState

Despliegue

Apache + Let's Encrypt

vhost SSL · headers · cache rules

Las 12 fases · pregunta-eje y foco

#	Fase	Pregunta-eje	Foco

Sección 4

Trazabilidad · Programa de investigación

Tres entregas iterativas (Ejercicio 01, 02 y 03) que convergen progresivamente en una metodología de investigación con LLMs múltiples aplicada al derecho. El Ejercicio 03 fue el primero con tres voces, moderador con herramientas y fact-check estructurado contra AXIOMA y la web; cada iteración previa corrigió limitaciones documentadas de la anterior.

Ejercicio 01 · 22 turnos · 2 IAs · sin moderador

Conversación filosófica abierta

Estructura normativa computable; estética papel envejecido (Fraunces + Source Serif).

Límite: sin reglas de falsabilidad ni verificación; pirotécnico, conceptualmente fértil.
Ejercicio 02 · 44 turnos · 2 IAs · reglas epistémicas

Pronóstico operativo con etiquetas

10 predicciones consensuadas, 3 disensos, 8 líneas de investigación. Las propias IAs identificaron el problema del consenso engañoso entre modelos solapados.

Límite: dos voces solapadas, sin fact-check, sin foco granular sobre Guatemala.
Ejercicio 03 · 152 turnos · 3 IAs + moderador con tools

Diagnóstico, predicción y consolidación verificada

Tres modelos con roles diferenciados; fact-check tiempo real contra AXIOMA + scraper CC + web; doble foco Global/Guatemala.

Aporte: reglas de falsación explícitas, antagonismo obligatorio, etiquetas epistémicas en cada turno.

Tabla comparativa

Ejercicio	# Turnos	# IAs	Moderador	Fact-checking	Foco geográfico	Output
01	22	2	no	no	Global	HTML papel envejecido
02	44	2	no	no	Global	HTML 10 predicciones
03	152	3	✓ con tools	✓ AXIOMA + CC + web	Global + Guatemala	Esta página

Sección 5

KPIs del experimento

Doce métricas extraídas directamente de los logs del experimento (state.json, factcheck_log.json, conversation3.md), no inferidas. Cada número permite verificación: turnos totales, fases completadas, tokens consumidos, palabras por voz, fact-checks confirmados, predicciones consensuadas y disensos persistentes. Los valores estimados aparecen marcados como tales.

Sección 6

Resultados

Lo que las tres IAs firmaron en bloque al cerrar el debate en el TURNO 152: 7 predicciones consensuadas con horizonte 2027–2036, 4 disensos persistentes con falsadores explícitos donde fue posible construirlos, 9 líneas de agenda de investigación pendiente y 5 bloques de recomendaciones por destinatario. También se incluyen propuestas individuales que no llegaron a consenso pleno, para hacer visible el material que quedó fuera del consolidado.

Predicciones consensuadas

Las 7 que las tres voces firmaron sin reservas.

Propuestas individuales que no llegaron a consenso

Dos predicciones por voz con potencial analítico o apoyo parcial. Cada una indica autor, nivel de apoyo recibido y motivo por el que no escaló al consolidado.

Disensos persistentes

Los 4 desacuerdos sustantivos que sobrevivieron al debate completo.

Disensos resueltos o de baja persistencia

Desacuerdos puntuales que se resolvieron parcialmente durante el debate o quedaron sin escalar al consolidado por motivos metodológicos.

Agenda de investigación pendiente

Recomendaciones por destinatario

Sección 7

Estadísticas del debate

Diez vistas cuantitativas sobre los 152 turnos y las 295 verificaciones del moderador: distribución por voz, etiquetado epistémico (HECHO, INFERENCIA, TENDENCIA, ESPECULACIÓN, NO_SE), horizontes temporales de las predicciones, jurisdicciones mencionadas, anclajes a AXIOMA y tensión entre las voces a lo largo del debate. Cada gráfico se calcula directamente sobre los logs sin agregaciones intermedias.

Voces

Distribución de turnos por voz

Lenguaje

Etiquetas epistémicas usadas

Verificación

Fact-checks por estado

Tipos de claim

Tipo de claim verificada por el moderador

Predicciones

Por horizonte temporal

Confianza

Predicciones por nivel de confianza × horizonte

Jurisdicciones

Cobertura · top 10

AXIOMA

Inyecciones de corpus GT por fase

Fuentes

Tipo de fuente verificada

Volumen

Palabras por turno · por IA

Disenso

Densidad de antagonismo por fase

Sección 8

Conversación completa

Los 152 turnos del debate más las 24 intervenciones del moderador automático, con filtros por voz, fase, etiqueta epistémica y búsqueda en vivo sobre el cuerpo del texto. Cada turno conserva su etiquetado original y el fact-check del moderador al pie. La transcripción se monta perezosamente para que el primer render sea fluido en cualquier dispositivo.

Sección 9

Conclusiones y limitaciones

Lecciones del método, no del contenido: lo que el ejercicio enseñó sobre cómo hacer investigación con LLMs múltiples en el derecho. El contenido sustantivo vive en los resultados y en la transcripción; aquí se discuten los límites operacionales del fact-check (173 de 295 claims quedaron sin verificar), el techo de cobertura de AXIOMA para normativa centroamericana, y qué hacer distinto en un Ejercicio 04.

Aportes del método

El antagonismo obligatorio funciona. Cada turno abre con un punto de desacuerdo genuino o lo declara ausente; eso impide la convergencia performativa que el Ejercicio 02 había detectado entre dos voces.
Tres voces con roles diferenciados produce más fricción que dos voces parejas. Las taxonomías de Claude, las comparaciones del Sur Global de Gemini y la disciplina factual de OpenAI cumplen funciones distintas y no se solapan.
Las etiquetas epistémicas estabilizan el discurso. Forzar [HECHO] / [TENDENCIA] / [INFERENCIA] / [ESPECULACIÓN] / [NO_SE] en cada afirmación impide la pirotecnia retórica y deja una traza auditable.
El moderador con tools cierra el ciclo. 295 claims extraídas en 152 turnos; 122 verificadas (41,4 %). Sin esto, el debate sería autoreferencial.
Las predicciones falsables sobreviven al fracaso. El consolidado de fase 12 declara explícitamente que el motor analítico sobrevive aun si las apuestas concretas fallan.
Pluralidad sin síntesis falsa. Cuatro disensos persistentes con falsadores explícitos, no errores editoriales: diseño deliberado de tres cortes analíticos no rivales.

Limitaciones reconocidas

173 de 295 claims quedaron [SIN_VERIFICAR_MOD] (58,6 %). La cobertura del fact-check tiene un techo: muchas afirmaciones (referencias internacionales, estudios sin URL canónica, normativa GT no migrada a AXIOMA) no pueden anclarse a una fuente verificable en línea.
0 inyecciones de corpus formales: el moderador encontró respuestas vía AXIOMA en 28 ocasiones, pero el flujo de inyección explícita de norma o sentencia con etiqueta [CORPUS_GT] no se materializó; las verificaciones quedaron como anotaciones.
Sesgo de jurisdicción: Guatemala domina el corpus mencionado (419 hits), seguida de Brasil, India, Costa Rica, Unión Europea. La cobertura sub-sahariana, asiática del Este y centroamericana fuera del triángulo es escasa.
Confianza explícita en la minoría: solo ~118 predicciones traen un nivel de confianza explícito (alta/media/baja o numérico) sobre cientos de afirmaciones prospectivas. El resto es etiqueta epistémica genérica.
Métricas de tiempo y tokens parcialmente estimadas: 94 de 152 turnos usaron heurística de chars/4.2 para tokens; el costo total reportado es referencial.
Convergencia no eliminada: la fase 12 muestra D1 cerrada por décima vez con dos falsadores complementarios; la fricción persiste, pero también la dificultad de resolverla dentro del formato.

Lecciones para Ejercicio 04

Mover el flujo [CORPUS_GT] a una intervención obligatoria del moderador en al menos N% de turnos de fases GT, no opcional.
Forzar nivel de confianza explícito (alta/media/baja o numérico) en cada predicción falsable, validable por el orquestador antes de aceptar el turno.
Aumentar la diversidad jurisdiccional: cuota mínima de Sur Global no centroamericano por fase de Gemini.
Operacionalizar el cierre de disensos: si tras N turnos el desacuerdo persiste con los mismos argumentos, el moderador inyecta evidencia o cierra con disensus declarado.
Cronometrar todos los turnos desde el primero, no solo los últimos, para que las métricas de latencia y costo sean comparables.
Iterar la propia metodología en sí misma como objeto de estudio: "¿qué ejercicio 04 necesitamos para que ejercicio 05 sea más útil que esto?"