Un nuevo estudio de investigadores de Stanford analizó el desempeño de grandes modelos de lenguaje (LLMs) en responder preguntas legales hipotéticas. Los resultados muestran que incluso los LLMs más avanzados aún cometen errores frecuentes de interpretación legal.
Los investigadores probaron cuatro LLMs populares – GPT-3, Jurassic-1, Codex y Constitutional AI de Anthropic. Les hicieron 50 preguntas basadas en casos legales hipotéticos para examinar la calidad de las respuestas.
Sorprendentemente, todos los modelos excepto Constitutional AI mostraron altas tasas de «alucinaciones legales». Es decir, ofrecieron respuestas erradas o engañosas con gran confianza, como citar leyes inexistentes, tergiversar precedentes o hacer analogías legales inválidas.
Por ejemplo, ante un caso sobre libertad religiosa, GPT-3 citó falsamente un «Acta de Libre Profesión de Fe de 2017» en apoyo a su argumento. Este tipo de alucinaciones muestran que los LLMs aún no comprenden realmente conceptos legales complejos.
Entre los modelos evaluados, Constitutional AI de Anthropic, específicamente entrenado en jurisprudencia, obtuvo el mejor desempeño. Pero incluso así, uno de cada cinco de sus respuestas contenía errores o imprecisiones legales.
Estos resultados enfrían algunas expectativas de utilizar LLMs para tareas sensibles como asesoría legal. Los investigadores concluyen que se requiere un mejor entrenamiento enfocado en razonamiento basado en precedentes y en limitar las respuestas a lo que se puede apoyar con fuentes.
Es un área en rápida evolución, pero por ahora, los abogados humanos no serán reemplazados. Los LLMs aún alucinan demasiado en materia legal. Con el entrenamiento adecuado podrán aprender a citar fuentes confiablemente, pero les falta desarrollar un verdadero razonamiento legal causal. ¡Aún queda mucho trabajo por hacer!