La Universidad de Valladolid, pionera en el uso de IA para la transcripción de manuscritos
De la mano de José Manuel Fradejas, Valentín Cardeñoso y Francisco Javier Muñoz, la UVA usa de forma experimental una herramienta para el reconocimiento óptico de textos que facilitará el trabajo de los investigadores

Los profesores Cardeñoso, Fradejas y Muñoz.
Si hace dos años era Germán Vega, catedrático de Literatura Española de la Universidad de Valladolid, quien daba cuenta de las bondades que puede tener la Inteligencia Artificial debidamente utilizada, empleándola para identificar en el fondo de manuscritos de la Biblioteca Nacional de España (BNE) una nueva comedia de Lope de Vega, La francesa Laura, escrita pocos años antes de su muerte, ahora otro equipo de la UVa ha dado un nuevo paso en el uso de las nuevas tecnologías, aplicadas, en este caso, a la conservación y recuperación de archivos documentales, entre otras utilidades.
La institución académica se ha dispuesto a trabajar de forma experimental con la plataforma de Inteligencia Artificial eScriptorium, diseñada para la transcripción automatizada de libros antiguos y de todo tipo de manuscritos digitalizados, siendo la única universidad española que emplea, hasta la fecha, una herramienta que requiere de servidores de alta potencia y que ya es utilizada en universidades de EE.UU, Alemania y Francia.
Su implementación ha sido fruto del trabajo interdisciplinar de diversas áreas, impulsado por los catedráticos de Lengua Española José Manuel Fradejas y de Informática Valentín Cardeñoso, y por el profesor titular de Filología Alemana Francisco Javier Muñoz Acebes. Todo ello, con el respaldo del Centro de Inteligencia Artificial de la Universidad de Valladolid.
Una herramienta, explican desde la UVa, que permite el reconocimiento óptico de imágenes textuales de distinta índole, con un mínimo margen de error y a alta velocidad. Así, por ejemplo, eScriptorium es capaz de convertir a texto editable un manuscrito de 200 páginas del siglo XV en apenas dos horas. De las actas del Sínodo de Ávila convocado por el obispo Alonso Fernández de Madrigal, en 1481, conservadas en la BNE, a la correspondencia mecanografiada que se intercambiaban Francisco Umbral y Miguel Delibes, pasando por el Libro complido de los judizios de las estrellas traducido bajo el reinado de Alfonso X el Sabio, copiado en el siglo XIV, y conservado en la Biblioteca Histórica de Santa Cruz.
«Se habla mucho de que tenemos ediciones digitalizadas, pero lo que tenemos son fotografías digitales de documentos que, como seres humanos, podemos leer como si tuviésemos delante el original. Pero las máquinas no se enteran de lo que hay», explica en declaraciones a este diario Fradejas, que comenzó hace unos años a familiarizarse con una herramienta de reconocimiento de texto como Transkribus. «Lo que hace eScriptorium es tomar ese documento y convertirlo en un texto que puede ser reeditado y modificado, que permite extraer datos», abunda el investigador, que, por ejemplo, creó un modelo para transcribir impresos incunables con letra gótica con una tasa de acierto del 99,3%.
He aquí una de las claves: la plataforma ha de ser ‘entrenada’, es necesario un trabajo previo de volcado de información para corregir errores, para perfeccionar el modelo. Baste decir que el catedrático tuvo que ‘alimentar’ con 180.000 palabras el citado modelo dedicado a los incunables.
«Es trabajo colaborativo. La ventaja que hay con eScriptorium es que es open source (software libre). Es decir: hay unos cuantos locos que han creado el programa y lo ponen en disposición de cualquiera que quiera ayudar a mejorarlo, alimentando su base de datos», apunta Fradejas.
Las posibilidades de uso que puede brindar son muchas, advierte. «Imaginemos, por ejemplo, los expedientes de los sindicatos de la época de la Transición, mecanografiados a máquina. Si un historiador quiere consultarlos en un busca de una información concreta no le queda otra que sentarse a leer, durante horas, hasta que aparezca. Con esta herramienta, si esa documentación estuviera en un servidor, el texto sería legible para un ordenador que ya solo tendría que buscar lo que le pida el investigador a través de unas palabras claves», apunta el catedrático de Lengua Española.
Los responsables del proyecto confían que con el apoyo del Centro de Supercomputación SCAYLE, ubicado en León, puedan disponer de un único servidor para toda Castilla y León.

Detalle de la 'Crónica del Cid'.
Crónica del Cid

Detalle del 'Libro de los judizios'
Libro de los judizios

Un ejemplo con las actas del Sínodo de Ávila.
Actas del sínodo de Ávila

Ejemplo con una carta mecanografiada de Umbral a Delibes