Saltar al contenido
Sitio en desarrollo. Working paper en preparación · contenido sujeto a revisión y verificación adicional.

Ejercicio 03 · Investigación con LLMs múltiples

Futuro del Derecho:
Global y Guatemala

David Jonathán Salazar García

UNV · PNUD — Centro de Innovación Jurídico-Tecnológico (CIJT)
Escuela de Estudios Judiciales · Organismo Judicial de Guatemala

Fundador de Grupo Inteligencia · LegalTech Guatemala · AXIOMA — normativa y jurisprudencia computables (protocolos de inteligencia normativa e inteligencia jurisprudencial).

david@legaltech.com.gt LinkedIn Publicado 2026-05-08
OpenAI · gpt-5.5 Google · gemini-2.5-pro Anthropic · claude-opus-4-7 Moderador con tools

Sección 1

Resumen ejecutivo

Sección 2

Propósito y objetivos

Propósito

Producir conocimiento jurídico-tecnológico operativo y verificable sobre el futuro del derecho global y en Guatemala, mediante el debate estructurado de tres modelos de IA con roles funcionales diferenciados, supervisado por un moderador humano con herramientas de fact-checking en tiempo real contra el corpus normativo guatemalteco y fuentes externas.

Objetivo general

Identificar predicciones consensuadas con métrica de falsación, disensos persistentes con argumentos explícitos, y una agenda de investigación para el CIJT, sobre la trayectoria probable de la práctica jurídica en horizonte 2027–2040.

Objetivos específicos

  • Diagnosticar el estado real de adopción de IA jurídica en EEUU, UE, China, OECD y América Latina, distinguiendo intención, piloto y producción auditada.
  • Caracterizar el estado de IA jurídica en Guatemala y Centroamérica, contrastado con jurisdicciones del Sur Global.
  • Evaluar capacidades reales de LLMs, RAG, agentes y verificación formal aplicados al dominio jurídico.
  • Mapear el marco normativo emergente —EU AI Act, regulación EEUU/China, vacío latinoamericano— y proyectar trayectorias para Guatemala.
  • Construir escenarios falsables para horizonte 2027–2032 y 2033–2040, distinguiendo global y GT.
  • Producir recomendaciones operativas para reguladores GT, OJ-EEJ-CIJT, firmas legales centroamericanas y formación jurídica.

Las 12 fases del experimento

Cada fase rota tres voces (OpenAI → Gemini → Claude × 4 ciclos) bajo una pregunta-eje vinculante, con apertura y cierre del moderador.

Sección 3

Metodología y stack

Investigador Principal David Salazar García · CIJT · EEJ · OJ Guatemala orchestrator.py · run_turn.py estado, fases, rotación, checkpointing OPENAI gpt-5.5 Escéptico Empírico API HTTPS GEMINI gemini-2.5-pro Sintetizador Comparativo API HTTPS CLAUDE claude-opus-4-7 Constructor de Marcos CLI Claude Code MAX MODERADOR claude-opus-4-7 tools: AXIOMA · CC scraper web search · factcheck proceso separado PostgreSQL · pgvector · AGE
Arquitectura · 3 voces de IA + moderador con tools, orquestados por Python.

Roles funcionales

OpenAI · gpt-5.5

Escéptico Empírico

Cuestiona supuestos, exige condiciones de falsación y metodología en cada cita; pide al moderador verificación factual de afirmaciones previas.

Google · gemini-2.5-pro

Sintetizador Comparativo

Aporta jurisprudencia y casos del Sur Global, contrasta common-law / civil-law / Centroamérica, y traza mapas evolutivos intercontinentales.

Anthropic · claude-opus-4-7

Constructor de Marcos

Produce taxonomías, escalas operacionales, predicciones con horizonte/métrica/falsación/confianza y arquitecturas de gobernanza.

Moderador · claude-opus-4-7 (proceso separado)

Verificación factual y supervisión epistémica

Apertura y cierre por fase. Extrae afirmaciones empíricas (regex + heurísticas: años, citas, nombres de leyes), las rutea a AXIOMA / CC scraper / web, y devuelve al hilo etiquetas [VERIFICADO_MOD] · [DISPUTADO_MOD] · [SIN_VERIFICAR_MOD] · [CORPUS_GT].

Reglas epistémicas obligatorias

  • [HECHO] documentado y verificable.
  • [TENDENCIA] patrón con evidencia parcial.
  • [INFERENCIA] razonamiento desde premisas explícitas.
  • [ESPECULACIÓN] declarada como tal.
  • [NO_SE] admisión de límite.
  • [VERIFICADO_MOD] moderador con fuente.
  • [DISPUTADO_MOD] moderador contradice.
  • [SIN_VERIFICAR_MOD] sin coincidencia.
  • [CORPUS_GT] normativa GT inyectada.

Cada turno se abre identificando un punto de desacuerdo genuino con el turno anterior, o declarándolo explícitamente ausente —ambos son información—. Las predicciones obligan a horizonte temporal, métrica, condición de falsación y nivel de confianza.

Stack técnico

Orquestación

Python 3.11+

asyncpg · httpx · stdlib

LLMs

3 modelos frontera

gpt-5.5 (API) · gemini-2.5-pro (API) · claude-opus-4-7 (CLI MAX)

BD jurídica

AXIOMA

PostgreSQL 16 · pgvector 3072D · Apache AGE

Búsqueda externa

DDG / Brave / Tavily

DuckDuckGo HTML por defecto

Scraping CC

httpx + ASP.NET parser

PDF directo + fallback ViewState

Despliegue

Apache + Let's Encrypt

vhost SSL · headers · cache rules

Las 12 fases · pregunta-eje y foco

# Fase Pregunta-eje Foco

Sección 4

Trazabilidad · Programa de investigación

Tres entregas iterativas que convergen en una metodología de investigación con LLMs múltiples para el derecho.

  1. Ejercicio 01 · 22 turnos · 2 IAs · sin moderador

    Conversación filosófica abierta

    Estructura normativa computable; estética papel envejecido (Fraunces + Source Serif).

    Límite: sin reglas de falsabilidad ni verificación; pirotécnico, conceptualmente fértil.

  2. Ejercicio 02 · 44 turnos · 2 IAs · reglas epistémicas

    Pronóstico operativo con etiquetas

    10 predicciones consensuadas, 3 disensos, 8 líneas de investigación. Las propias IAs identificaron el problema del consenso engañoso entre modelos solapados.

    Límite: dos voces solapadas, sin fact-check, sin foco granular sobre Guatemala.

  3. Ejercicio 03 · 152 turnos · 3 IAs + moderador con tools

    Diagnóstico, predicción y consolidación verificada

    Tres modelos con roles diferenciados; fact-check tiempo real contra AXIOMA + scraper CC + web; doble foco Global/Guatemala.

    Aporte: reglas de falsación explícitas, antagonismo obligatorio, etiquetas epistémicas en cada turno.

Tabla comparativa

Ejercicio # Turnos # IAs Moderador Fact-checking Foco geográfico Output
01 22 2 Global HTML papel envejecido
02 44 2 Global HTML 10 predicciones
03 152 3 ✓ con tools ✓ AXIOMA + CC + web Global + Guatemala Esta página

Sección 5

KPIs del experimento

Métricas extraídas de los logs (state.json, factcheck_log.json, conversation3.md). No se reportan valores estimados sin marcarlos.

Sección 6

Resultados

Síntesis de la fase 12 — Documento consolidado conjunto. Cada predicción cita su nivel de confianza, horizonte y condición de falsación tal como aparecen en el debate.

Predicciones consensuadas

Disensos persistentes

Agenda de investigación pendiente

Recomendaciones por destinatario

Sección 7

Estadísticas del debate

Diez vistas sobre los 152 turnos y las 295 verificaciones del moderador. Todos los datos vienen de los logs.

Distribución de turnos por voz

Etiquetas epistémicas usadas

Fact-checks por estado

Tipo de claim verificada por el moderador

Predicciones por horizonte temporal

Predicciones por nivel de confianza (apilado por horizonte)

Cobertura jurisdiccional · top 10

Inyecciones de corpus GT por fase

Tipo de fuente verificada

Distribución de palabras por turno · por IA

Densidad de antagonismo por fase

Sección 8

Conversación completa

152 turnos + 24 intervenciones del moderador. Filtros y búsqueda en vivo. La transcripción se monta perezosamente para que el primer paint sea fluido.

Voz
Etiqueta
Fase

Sección 9

Conclusiones y limitaciones

Conclusiones del método —no del contenido—; el contenido vive en la transcripción y los resultados. Lo que el ejercicio enseñó sobre cómo hacer este tipo de investigación.

Aportes del método

  • El antagonismo obligatorio funciona. Cada turno abre con un punto de desacuerdo genuino o lo declara ausente; eso impide la convergencia performativa que el Ejercicio 02 había detectado entre dos voces.
  • Tres voces con roles diferenciados produce más fricción que dos voces parejas. Las taxonomías de Claude, las comparaciones del Sur Global de Gemini y la disciplina factual de OpenAI cumplen funciones distintas y no se solapan.
  • Las etiquetas epistémicas estabilizan el discurso. Forzar [HECHO] / [TENDENCIA] / [INFERENCIA] / [ESPECULACIÓN] / [NO_SE] en cada afirmación impide la pirotecnia retórica y deja una traza auditable.
  • El moderador con tools cierra el ciclo. 295 claims extraídas en 152 turnos; 122 verificadas (41,4 %). Sin esto, el debate sería autoreferencial.
  • Las predicciones falsables sobreviven al fracaso. El consolidado de fase 12 declara explícitamente que el motor analítico sobrevive aun si las apuestas concretas fallan.
  • Pluralidad sin síntesis falsa. Cuatro disensos persistentes con falsadores explícitos —no errores editoriales: diseño deliberado de tres cortes analíticos no rivales.

Limitaciones reconocidas

  • 173 de 295 claims quedaron [SIN_VERIFICAR_MOD] — 58,6 %. La cobertura del fact-check tiene un techo: muchas afirmaciones (referencias internacionales, estudios sin URL canónica, normativa GT no migrada a AXIOMA) no pueden anclarse a una fuente verificable en línea.
  • 0 inyecciones de corpus formales: el moderador encontró respuestas vía AXIOMA en 28 ocasiones, pero el flujo de inyección explícita de norma o sentencia con etiqueta [CORPUS_GT] no se materializó; las verificaciones quedaron como anotaciones.
  • Sesgo de jurisdicción: Guatemala domina el corpus mencionado (419 hits), seguida de Brasil, India, Costa Rica, Unión Europea. La cobertura sub-sahariana, asiática del Este y centroamericana fuera del triángulo es escasa.
  • Confianza explícita en la minoría: solo ~118 predicciones traen un nivel de confianza explícito (alta/media/baja o numérico) sobre cientos de afirmaciones prospectivas. El resto es etiqueta epistémica genérica.
  • Métricas de tiempo y tokens parcialmente estimadas: 94 de 152 turnos usaron heurística de chars/4.2 para tokens; el costo total reportado es referencial.
  • Convergencia no eliminada: la fase 12 muestra D1 cerrada por décima vez con dos falsadores complementarios; la fricción persiste, pero también la dificultad de resolverla dentro del formato.

Lecciones para Ejercicio 04

  1. Mover el flujo [CORPUS_GT] a una intervención obligatoria del moderador en al menos N% de turnos de fases GT, no opcional.
  2. Forzar nivel de confianza explícito (alta/media/baja o numérico) en cada predicción falsable, validable por el orquestador antes de aceptar el turno.
  3. Aumentar la diversidad jurisdiccional: cuota mínima de Sur Global no centroamericano por fase de Gemini.
  4. Operacionalizar el cierre de disensos: si tras N turnos el desacuerdo persiste con los mismos argumentos, el moderador inyecta evidencia o cierra con disensus declarado.
  5. Cronometrar todos los turnos desde el primero — no solo los últimos —, para que las métricas de latencia y costo sean comparables.
  6. Iterar la propia metodología en sí misma como objeto de estudio: "¿qué ejercicio 04 necesitamos para que ejercicio 05 sea más útil que esto?"