Extracción automática de preguntas de examen
Cambridge Assessment planea digitalizar más de 100 años de material de exámenes con la API de extracción de Adobe PDF.
90 %
de tasa de precisión manteniendo un formato complejo
Objetivos
Responder a las crecientes necesidades de educación digital
Aprovechar el valor de 160 años de contenido de exámenes para docentes de todo el mundo
Automatizar los procesos de recopilación y almacenamiento de contenido manteniendo la precisión
Resultados
Preserva los elementos visuales y la estructura de las preguntas de examen
Tasa de precisión del 90 % manteniendo un formato complejo
Procesa un examen de 40 preguntas en tan solo 40 segundos
Ahorra 2000 días de trabajo por cada 50 000 preguntas recopiladas y elimina costes de introducción manual de datos
Cada año, más de 8 millones de estudiantes en más de 170 países demuestran lo que han aprendido a través de pruebas y exámenes diseñados y administrados por Cambridge Assessment. La organización ofrece una amplia gama de cualificaciones, desde niveles AS/A, GCSE y otros exámenes dirigidos a estudiantes de 5 a 19 años, hasta certificaciones de competencia en inglés reconocidas por universidades, empresas y organismos gubernamentales en 130 países.
Los sistemas educativos han cambiado drásticamente desde que Cambridge Assessment realizara sus primeros exámenes en 1858, pero muchas personas aún realizan los exámenes de la misma manera que hace 160 años: con lápiz y papel.
“Los resultados de los exámenes de Cambridge Assessment pueden ayudar a determinar admisiones universitarias o cualificaciones profesionales”, dice Terry Child, responsable principal de Producto en Cambridge Assessment. “La seguridad es la máxima prioridad. En muchos aspectos, las pruebas en papel siguen siendo uno de los métodos más seguros que existen”.
Sin embargo, Cambridge Assessment reconoce que este modelo tradicional de exámenes en papel está cambiando lentamente a medida que la educación se vuelve más digital. Más escuelas y personal docente están impartiendo lecciones, tareas y exámenes parciales de forma digital.
Cambridge Assessment está dando grandes pasos en la educación digital aprovechando su extensa experiencia y conocimientos de exámenes. La empresa está recopilando preguntas de exámenes pasados y creando un banco de contenido con niveles incomparables de contenido educativo. Cambridge Assessment tiene grandes planes para su base de datos digital, desde suministrar contenidos didácticos hasta usar inteligencia artificial (IA) para analizar y entender el rendimiento de los exámenes. Cuantos más datos históricos de exámenes añada Cambridge Assessment a su base de datos digital, más valioso se volverá su servicio para la clientela de todo el mundo.
Aunque muchos exámenes se archivan en PDF, el proceso de extraer preguntas individuales de un examen e introducirlas en el banco de contenido era muy manual. “Aunque hay muchas herramientas en el mercado que convierten datos de PDF en texto, fue difícil encontrar un método que identificara el formato, figuras, tablas y estructura de preguntas que necesitábamos para crear nuestra base de datos”, dice Terry Child. “La API de extracción de Adobe PDF cambia las cosas. Es la única herramienta que hemos encontrado que nos permitirá mantener la estructura de las preguntas y empezar a automatizar la recopilación de las mismas”.
“La API de extracción de Adobe PDF nos permite extraer el contexto de nuestras preguntas. Este es el primer paso hacia la automatización de la forma de recopilar preguntas de exámenes para nuestro banco de contenido”.
Terry Child
Responsable principal de Producto, Cambridge Assessment
Extracción precisa de formato y estructura de PDF
El equipo de Cambridge Assessment usa el SDK de Java para analizar documentos de pruebas en PDF usando la API de extracción de Adobe PDF. La API convierte los documentos de pruebas en archivos JSON, que Cambridge Assessment posprocesa usando código Java personalizado y luego transforma a formato XML QTI (la especificación estándar para sistemas de evaluación electrónica). Una vez almacenadas en este formato estándar, las preguntas y respuestas pueden reutilizarse en cualquier sistema compatible.
Si bien Terry Child evaluó otras herramientas de extracción de texto y experimentó con varias bibliotecas de Python, solo la API de extracción de Adobe PDF preserva el formato visual y la estructura además del texto. Distingue entre texto, imágenes, figuras y tablas. Identifica negritas, cursivas, subíndices, superíndices y símbolos que aparecen frecuentemente en preguntas avanzadas de matemáticas.
“Si no podemos distinguir algo como un signo al cuadrado en una fórmula matemática, entonces muchas de nuestras preguntas de ciencias y matemáticas son inútiles”, dice Terry Child. “Incluso elementos simples del formato como el grosor de fuente es fundamental. Nuestras preguntas han pasado por innumerables procesos de revisión. Si una palabra en una pregunta está en negrita, es porque un equipo acordó que era esencial para su comprensión. Capturar cada detalle del formato es parte de la pregunta misma”.
Cambridge Assessment ha visto una precisión y velocidad impresionantes en sus pruebas de la API de extracción de Adobe PDF. “Tras posprocesar el código Java de Cambridge, estamos viendo tasas de acierto superiores al 90 % en preguntas de opción múltiple con la API de extracción de Adobe PDF”, dice Terry Child. “Podemos extraer todas las preguntas de un examen de 40 preguntas en solo 40 a 90 segundos”.
Aunque la capacidad de extraer correctamente el formato de un archivo PDF es fundamental, la capacidad de separar con precisión las pruebas en preguntas individuales es igualmente importante. La API de extracción de Adobe PDF proporciona la información que Cambridge Assessment necesita para identificar dónde empieza y termina cada pregunta. Terry Child usó esta información para crear un proceso automatizado que separa un solo examen en una serie de preguntas.
“La API de extracción de Adobe PDF nos permite extraer el contexto de nuestras preguntas”, dice Terry Child. “Este es el primer paso hacia automatizar cómo recopilamos preguntas de exámenes para nuestro banco de contenido”.
“Al usar la API de extracción de Adobe PDF para automatizar cómo extraemos preguntas al banco de contenido, ahorraremos más de 2000 días de trabajo por cada 50 000 preguntas recopiladas y eliminaremos los costes de contratar personal temporal para la introducción de datos”.
Terry Child
Responsable principal de Producto, Cambridge Assessment
Recopilación ágil de preguntas de opción múltiple
Cambridge Assessment empezó probando la API de extracción de Adobe PDF con el tipo más estandarizado de pregunta de examen: la de opción múltiple. Cada pregunta de opción múltiple empieza con el contexto de la pregunta, que puede incluir varias declaraciones, figuras o tablas. Esto va seguido por la indicación de la pregunta y cuatro posibles respuestas.
La API de extracción de Adobe PDF extrae toda la información de PDF en formato JSON a la vez que proporciona datos de png y csv asociados para imágenes y tablas, respectivamente. Cambridge Assessment creó un proceso de posprocesamiento que aplica un conjunto de reglas lógicas al resultado JSON para separar cada pregunta en contexto, indicación y respuestas.
Una vez entregada en formato XML QTI, una persona experta en la materia revisa la pregunta para detectar errores y agrega metadatos para ayudar a categorizar cada pregunta según lo que está evaluando, el nivel de dificultad y otra información similar. Finalmente, las preguntas se almacenan en un banco de contenido para usarse en productos y servicios dirigidos a la clientela.
Antes de trabajar con la API de extracción de Adobe PDF, introducir preguntas en el banco de contenido era un proceso tedioso y manual. Cambridge Assessment contrataba personal temporal para reescribir preguntas o copiar y pegar contenido de archivos PDF en archivos de formato XML QTI. Este proceso manual era propenso a errores y lento.
“Al usar la API de extracción de Adobe PDF para automatizar cómo extraemos preguntas al banco de contenido, ahorraremos más de 2000 días de trabajo por cada 50 000 preguntas recopiladas y eliminaremos los costes de contratar personal temporal para la introducción de datos”, dice Terry Child. “Con el tiempo ahorrado, podremos recopilar más preguntas y crear un banco de contenido mucho más sofisticado”.
“Tenemos un enorme banco de propiedad intelectual en nuestros archivos de pruebas que podemos aprovechar. Si logramos digitalizarlo todo, podemos crear un recurso incomparable para docentes y estudiantes”.
Terry Child
Responsable principal de Producto, Cambridge Assessment
Aprovechando 160 años de recursos de exámenes
Cambridge Assessment empezará recopilando preguntas de opción múltiple, pero Terry Child piensa crear conjuntos de reglas para importar otros tipos de preguntas, como preguntas de respuesta corta y ensayo, tan pronto como sea posible. Terry Child también espera poder añadir más contenido de los 160 años de experiencia de la organización escaneando documentos de exámenes históricos, convirtiéndolos a QTI y añadiendo las preguntas al banco de contenido.
Actualmente, la plantilla debe añadir metadatos a cada pregunta manualmente, pero eso también podría automatizarse en el futuro. Una vez que el banco de contenido contenga más preguntas, Cambridge Assessment quiere empezar a entrenar a la IA para entenderlas y añadir metadatos apropiados. Si tiene éxito, la IA añadirá otra capa de automatización para una recopilación de preguntas aún más rápida.
El banco de contenido enriquecido estará preparado para una amplia variedad de ofertas de contenido como servicio en el futuro. Cambridge University Press podría tomar información del banco de contenido para usarlo en libros de texto o materiales de preparación de pruebas. Incluso podría crear un sistema de autoservicio donde el personal docente podría crear instantáneamente sus propias pruebas para cualquier sistema de aprendizaje en cualquier lugar del mundo. Esto podría ayudar al personal docente a lograr opciones de aprendizaje personalizado adaptadas a las necesidades de escuelas, aulas o incluso estudiantes individuales específicos de forma más fácil.
“Tenemos un enorme banco de propiedad intelectual en nuestros archivos de exámenes que podemos aprovechar”, dice Terry Child. “Si logramos digitalizarlo todo, podemos crear un recurso incomparable para docentes y estudiantes. La API de extracción de Adobe PDF nos ofrece la herramienta que necesitamos para automatizar procesos y proporcionar acceso a una mayor variedad de preguntas de examen con rapidez”.