Extraer preguntas de exámenes, automáticamente.
Cambridge Assessment planea digitalizar el material de más de 100 años de evaluaciones con la API de Adobe PDF Extract.
90%
Tasa de precisión sin modificar el formato complejo
Objetivos
Satisfacer las crecientes necesidades de educación digital
Permitir que educadores de todo el mundo aprovechen el valor de 160 años de contenido de evaluaciones
Automatizar los procesos de recopilación y almacenamiento de contenido sin comprometer la precisión
Resultados
Conserva los elementos visuales y la estructura de las preguntas de examen
Logra una tasa de precisión del 90% sin modificar el formato complejo
Puede procesar un examen de 40 preguntas en tan solo 40 segundos
Ahorra 2,000 días de trabajo por cada 50,000 preguntas que recopila, y elimina los costos del ingreso manual de datos
Cada año, más de 8 millones de alumnos de más de 170 países demuestran sus conocimientos en las evaluaciones y los exámenes que diseña y distribuye Cambridge Assessment. La organización ofrece una gran variedad de titulaciones, como los niveles AS & A, de educación secundaria y más exámenes destinados a alumnos de entre 5 y 19 años, o las certificaciones de dominio del inglés, que son reconocidas por universidades, empleadores y entidades estatales en 130 países.
Los sistemas educativos han cambiado drásticamente desde los primeros exámenes de Cambridge Assessment en 1858. Sin embargo, muchos alumnos todavía toman los exámenes igual que hace 160 años: con lápiz y papel.
“Los resultados de los exámenes de Cambridge Assessment pueden ayudar a determinar el ingreso a una universidad o a un puesto de trabajo”, explica Terry Child, Director Principal de Producto de Cambridge Assessment. “La seguridad es nuestra prioridad número uno. En muchos sentidos, la evaluación en papel sigue siendo uno de los métodos más seguros que existen”.
Sin embargo, Cambridge Assessment reconoce que este modelo tradicional de evaluación en papel está cambiando gradualmente a medida que la educación se digitaliza. Cada vez más instituciones y docentes imparten clases, asignan tareas y evalúan a los estudiantes digitalmente.
Cambridge Assessment está logrando avances importantes en la educación digital gracias a su gran experiencia y conocimiento en lo que se refiere a exámenes. A través de la recopilación de preguntas de exámenes anteriores, la compañía está creando un banco de contenido educativo de dimensiones inigualables. Con esta base de datos digital, Cambridge Assessment planea crear contenido para clases e incluso usar la inteligencia artificial (IA) para analizar y comprender los resultados de los exámenes. Cuantos más datos históricos de exámenes incorpore Cambridge Assessment a su base de datos digital, más valor tendrá su servicio para los clientes de todo el mundo.
Aunque muchos exámenes están archivados en formato PDF, el proceso de extraer las preguntas de los exámenes una a la vez y luego importarlas al banco de contenido se realizaba completamente de forma manual. “Hay muchas herramientas en el mercado que pueden convertir los datos de un archivo PDF en una cadena de texto, pero no encontrábamos un método que pudiera identificar el formato, las figuras, las tablas y la estructura de las preguntas para poder crear nuestra base de datos”, señala Child. “La API de Adobe PDF Extract lo cambió todo. Es la única herramienta que encontramos que nos permite mantener la estructura de las preguntas y empezar a automatizar la recopilación”.
“La API de Adobe PDF Extract nos permite extraer el contexto de las preguntas. Este es el primer paso para automatizar la recopilación de preguntas de examen en nuestro banco de contenido”.
Terry Child
Director Principal de Producto, Cambridge Assessment
Extraer con precisión el formato y la estructura de archivos PDF
El equipo de Cambridge Assessment usa el SDK de Java para analizar los exámenes y procesarlos en formato PDF usando la API de Adobe PDF Extract. La API convierte los exámenes en formato JSON; luego, Cambridge Assessment los procesa usando un código Java personalizado y los convierte en formato QTI XML, la especificación estándar para los sistemas de evaluación electrónica. Una vez que se almacenan en este formato estándar, las preguntas y las respuestas pueden reutilizarse en cualquier sistema compatible.
Child evaluó otras herramientas de extracción y probó con varias bibliotecas de Python, pero solo la API de Adobe PDF Extract conserva el formato visual y la estructura además del texto. Puede distinguir entre texto, imágenes, figuras y tablas. Identifica si el texto está en negrita o cursiva, y detecta los subíndices, los superíndices y los símbolos que generalmente aparecen en las preguntas de matemáticas más avanzadas.
“Si no podemos distinguir un signo cuadrado en una fórmula matemática, muchas de nuestras preguntas de matemáticas y ciencias no sirven”, afirma Child. “Incluso un formato tan simple como el grosor de la fuente es fundamental. Nuestras preguntas pasan por incontables procesos de revisión. Si una palabra está en negrita, es porque el equipo consideró que esto era fundamental para la comprensión de la pregunta. Todo ese formato es parte esencial de la pregunta”.
Cambridge Assessment obtuvo una precisión y una velocidad impresionantes al utilizar la API de Adobe PDF Extract. “Después del posprocesamiento del código Java de Cambridge, las tasas de acierto son superiores al 90% en las preguntas de opción múltiple gracias a la API de Adobe PDF Extract”, afirma Child. “Podemos extraer todas las preguntas de un examen de 40 preguntas en tan solo 40 o 90 segundos”.
Si bien la capacidad de extraer el formato de un archivo PDF es fundamental, poder convertir las evaluaciones en preguntas individuales es igual de importante. La API de Adobe PDF Extract proporciona la información que Cambridge Assessment necesita para identificar dónde empieza y dónde termina cada pregunta. Child utilizó esta información para crear un proceso automatizado que separa cada evaluación en un conjunto de preguntas.
“La API de Adobe PDF Extract nos permite extraer el contexto de las preguntas”, menciona Child. “Este es el primer paso para automatizar la recopilación de preguntas de examen en nuestro banco de contenido”.
“Al utilizar la API de Adobe PDF Extract para automatizar la extracción de preguntas y su importación al banco de contenido, nos ahorraremos más de 2,000 días de trabajo por cada 50,000 preguntas, y eliminaremos los costos de contratación de personal temporal para el ingreso de datos”.
Terry Child
Director Principal de Producto, Cambridge Assessment
Recopilar preguntas de opción múltiple rápidamente
Cambridge Assessment empezó a probar la API de Adobe PDF Extract en el tipo de pregunta más estandarizado: las preguntas de opción múltiple. Cada pregunta de opción múltiple empieza con el contexto de la pregunta, que puede incluir varias afirmaciones, figuras o tablas. A esto le sigue la pregunta y cuatro respuestas posibles.
La API de Adobe PDF Extract extrae toda la información del archivo PDF en formato JSON, a la vez que proporciona los datos asociados en formato png y csv para las imágenes y las tablas. Cambridge Assessment creó un pipeline de posprocesamiento que aplica un conjunto de reglas lógicas al archivo de salida JSON para separar el contexto, la pregunta y las respuestas.
Una vez que la pregunta está en formato QTI XML, un experto verifica que no haya errores y agrega los metadatos para categorizar la pregunta en función de lo que está evaluando, el nivel de dificultad y otros factores similares. Por último, la pregunta se almacena en un banco de contenido para que pueda usarse en productos y servicios dirigidos al cliente.
Antes de utilizar la API de Adobe PDF Extract, las preguntas se ingresaban al banco de contenido de forma manual, lo cual era un proceso muy tedioso. Cambridge Assessment contrataba a trabajadores temporales que transcribían las preguntas o copiaban y pegaban el contenido de los archivos PDF en archivos con formato QTI XML. Era una tarea lenta y propensa a errores.
“Al utilizar la API de Adobe PDF Extract para automatizar la extracción de preguntas y su importación al banco de contenido, nos ahorraremos más de 2,000 días de trabajo por cada 50,000 preguntas recopiladas, y eliminaremos los costos de contratación de personal temporal para el ingreso de datos”, señala Child. “Con el tiempo que ahorramos, podremos recopilar más preguntas y crear un banco de contenido mucho más valioso”.
“Tenemos un enorme banco de propiedad intelectual en nuestros archivos de exámenes. Si podemos digitalizar todo, podremos crear un recurso invaluable tanto para docentes como para alumnos”.
Terry Child
Director Principal de Producto, Cambridge Assessment
Sacar provecho a 160 años de recursos de evaluación
Cambridge Assessment empezará por recopilar las preguntas de opción múltiple, pero Child planea crear conjuntos de reglas para importar otros tipos de preguntas (por ejemplo, las preguntas de respuesta corta o de desarrollo) lo antes posible. Child también espera poder agregar más contenido de los 160 años de evaluaciones de la organización. Lo hará escaneando exámenes históricos, convirtiéndolos en formato QTI y luego agregando las preguntas al banco de contenido.
Actualmente, los empleados deben agregar los metadatos a cada pregunta de forma manual. Pero quizás eso también se automatice en el futuro. Una vez que se agreguen más preguntas al banco de contenido, Cambridge Assessment quiere comenzar a entrenar la IA para que entienda las preguntas y agregue los metadatos correspondientes. Si esto funciona, la IA agregará otra capa de automatización para agilizar todavía más la recopilación de preguntas.
El abundante banco de contenido será ideal para diversas ofertas de contenido como servicio en el futuro. Cambridge University Press podría tomar información del banco de contenido y utilizarla en libros de texto o materiales de preparación para exámenes. Incluso podría desarrollar un sistema de autoservicio para que los docentes creen sus propios exámenes al instante y los adapten al sistema educativo de cualquier parte del mundo. De esta forma, podrían ofrecer opciones de aprendizaje personalizadas y adaptadas a las necesidades de cada institución y salón de clase, o incluso de cada alumno.
“Tenemos un enorme banco de propiedad intelectual en nuestros archivos de exámenes”, afirma Child. “Si podemos digitalizar todo, podremos crear un recurso invaluable tanto para docentes como para alumnos. La API de Adobe PDF Extract ofrece la funcionalidad que necesitamos para automatizar los procesos y brindar acceso a una mayor variedad de preguntas de examen más rápidamente”.