En la universidad se sigue corrigiendo como hace décadas: cada profesor, su criterio, su estado de ánimo y su prisa. Un experimento con estudiantes de Derecho en Alemania muestra que, cuando entra la inteligencia artificial acompañada de una guía clara de corrección, buena parte de esa lotería desaparece.
La inteligencia artificial ha entrado en la universidad por la puerta de atrás: primero como amenaza de copia, luego como asistente de escritura, y ahora como candidata a corregir trabajos y exámenes. En todo el mundo se están probando sistemas capaces de puntuar redacciones en inglés, respuestas abiertas en ciencias o trabajos de fin de curso con una regularidad que a veces supera a la de los evaluadores humanos. El objetivo es atacar la falta de coherencia y transparencia en cómo se decide una nota.
Una nueva investigación alemana sobre exámenes de Derecho aporta algo relevante en esa dirección. En Alemania, la carrera jurídica depende casi por completo de unos pocos exámenes escritos de larga duración. Unas cuantas pruebas determinan la trayectoria profesional. Sin embargo, más del 80% de quienes estudian Derecho consideran que la corrección no es objetiva, que la escala de 0 a 18 puntos casi nunca se usa de forma coherente y que la suerte influye demasiado. Un estudio previo, citado en esta investigación, mostró que, cuando 23 juristas corrigieron los mismos quince exámenes, la diferencia entre la peor y la mejor nota para un mismo texto fue de media 6,47 puntos.
Datos clave de la investigación
- Problema de fondo. El mismo examen de Derecho puede recibir notas muy distintas según quién lo corrija.
- Solución. Exámenes escritos en ordenador y corregidos de tres formas: solo por personas, por personas con una guía muy detallada, y por inteligencia artificial usando esa misma guía.
- Sistema de calificación. Se trocea la solución ideal en pequeños pasos y se asigna un número de puntos a cada paso. La suma de esos puntos da la nota final.
- Resultado principal. Sin guía, la nota de un mismo examen puede variar mucho de un corrector a otro; con esa guía de puntos, esa variación se reduce casi a la mitad.
- Dónde entra la IA. La IA se desajusta si corrige “a su manera”, pero funciona bien cuando sigue la misma guía que las personas y se le dan criterios claros.
Referencia
KI-Unterstützung und Rohpunkteschemata: Die Zukunft der juristischen Klausurkorrektur? Michael B. Strecker et al. OdW 2026, 1‑14.
IA y puntuación
Para profundizar en este problema, se ha creado en Alemania el llamado DigitalProjekt, un grupo informal de profesorado, personal investigador y estudiantes que decide experimentar con dos piezas a la vez: la inteligencia artificial y algo mucho más prosaico, pero crucial, los esquemas de “puntos brutos”.
En varias universidades, el estudiantado escribe exámenes jurídicos en ordenador; esos textos se limpian de datos personales y se comparan con una solución modelo. A partir de ahí, se corrige de tres formas: corrección humana tradicional, corrección humana guiada por un esquema detallado de puntos y corrección asistida por IA con modelos de lenguaje avanzados (GPT‑4o y Gemini 2.5 Pro).
El esquema de puntos brutos funciona de manera sencilla de explicar y difícil de diseñar bien: se descompone la solución ideal en pasos concretos, se asignan puntos a cada uno y el total se convierte luego en la nota final. En lugar de decidir de golpe si un examen “merece” un 7 u 8, la persona correctora va sumando pequeñas decisiones parciales. Ese mismo esquema se puede entregar también al sistema de IA para que puntúe siguiendo las mismas reglas.
Esta lógica de puntuación se parece a lo que muestran estudios recientes en cursos de ciencias y escritura científica: cuando se dota a los modelos de IA de un baremo explícito y de respuestas tipo, su capacidad de calificar se acerca mucho a la del profesorado, tanto en consistencia como en la utilidad del feedback para quienes aprenden.
Puntuación mejorada
El resultado más llamativo del experimento jurídico alemán tiene que ver principalmente con esos baremos, no tanto con la IA. Cuando varias personas corrigen los mismos exámenes solo con una solución modelo general, la diferencia de notas para un mismo texto ronda los cinco puntos y llega en casos extremos hasta once. Cuando se les da un esquema de puntos brutos detallado, esa diferencia media baja a unos tres puntos, una reducción de la dispersión de alrededor del 44%. Para quien se juega la carrera en un examen, es una diferencia enorme.
La IA se inserta sobre este andamiaje y realiza su propia evaluación. Sin esquema, sus notas divergen bastante de las humanas y tienden a aplanar la distribución: menos sobresalientes y menos suspensos extremos. Pero, con esquema, las puntuaciones se acercan más al promedio humano y, sobre todo, muestran menos excentricidades que algunos correctores individuales.
Donde la IA destaca espacialmente es en el volumen y el tono de la retroalimentación: produce comentarios largos, estructurados, centrados en lo que falta mejorar, y lo hace con un lenguaje que el estudiantado percibe como más claro y respetuoso que muchas anotaciones al margen tradicionales hechas por un profesor.
Otros contextos
En otros contextos se observa una dinámica similar. En la evaluación de redacciones en inglés como lengua extranjera, varios estudios indican que ChatGPT genera comentarios más detallados y alentadores que muchos docentes, aunque su severidad y su alineación con las notas humanas dependen del diseño de la rúbrica y del tipo de texto, como destaca un estudio reciente en tareas de escritura IELTS.
En asignaturas universitarias de ciencias, como cursos masivos de astronomía, modelos como GPT‑4, alimentados con respuestas tipo y criterios explícitos, han mostrado una fiabilidad de calificación comparable a la del profesorado y claramente superior a la evaluación entre pares. Y otros trabajos sobre corrección automatizada de tareas técnicas en bioinformática apuntan en la misma dirección: los modelos pierden pie cuando improvisan su propio criterio, pero mejoran de forma notable cuando se les obliga a seguir un esquema claro preparado por docentes.
Cambios profundos
Visto así, el estudio alemán es un síntoma de algo más amplio. La introducción de IA en la corrección académica no consiste en “sustituir” a quienes corrigen, sino en obligar a las instituciones a explicitar qué entienden por justicia evaluadora, más si se trata de facultades de derecho, donde el modo de corregir también forma parte de la credibilidad de la justicia que se enseña.
Sin criterios compartidos, ni las personas ni las máquinas pueden ser objetivas. Con criterios claros, los modelos de lenguaje pueden ayudar a reducir el ruido, acelerar la calificación de notas y ofrecer una interacción que el profesorado, saturado, rara vez tiene tiempo de redactar.
Lo que se está perfilando con todos estos procesos es una IA que actúa como catalizador para replantear de raíz el sistema de evaluación académica, dotarlo de herramientas más coherentes y transparentes y, a medio plazo, reforzar la evaluación humana con sistemas de IA robustos como posible futuro para la corrección de exámenes universitarios.















