Estrazione automatica delle domande degli esami
Cambridge Assessment intende digitalizzare oltre 100 anni di materiale d’esame con Adobe PDF Extract API.
90%
Tasso di precisione con una formattazione complessa
Obiettivi
Sostenere le esigenze sempre in crescita legate all’istruzione digitale
Sfruttare il valore di 160 anni di contenuti di esami da condividere con i docenti di tutto il mondo
Automatizzare la raccolta dei contenuti e i processi di archiviazione mantenendo l’accuratezza
Risultati
Preserva gli elementi visivi e la struttura delle domande degli esami
Tasso di precisione del 90% con una formattazione complessa
Elabora un esame di 40 domande in soli 40 secondi
Risparmia 2.000 giorni di lavoro per ogni 50.000 domande raccolte ed elimina i costi relativi all’inserimento manuale dei dati.
Ogni anno, più di 8 milioni di studenti in oltre 170 Paesi dimostrano ciò che hanno imparato attraverso test ed esami ideati e svolti da Cambridge Assessment. L’organizzazione offre un’ampia gamma di qualifiche, da AS/A Level, GCSE e altri esami rivolti a studenti di età compresa tra i 5 e i 19 anni, alle certificazioni di conoscenza dell’inglese riconosciute da università, datori di lavoro ed enti governativi in 130 Paesi.
I sistemi educativi sono cambiati radicalmente da quando Cambridge Assessment ha tenuto i suoi primi esami nel 1858. Ma molti studenti sostengono ancora gli esami come si faceva 160 anni fa: con carta e penna.
“I risultati degli esami Cambridge Assessment possono contribuire a determinare le posizioni universitarie o le qualifiche lavorative”, afferma Terry Child, Principal Product Manager di Cambridge Assessment. “La sicurezza è una priorità assoluta. Per molti versi, l’esame cartaceo è ancora uno dei metodi più sicuri disponibili”.
Tuttavia, Cambridge Assessment riconosce che questo modello di test tradizionale, basato sulla carta, sta lentamente cambiando a causa della crescente digitalizzazione dell’istruzione. Un numero sempre maggiore di scuole e di docenti consegna le lezioni, i compiti e gli esami di metà corso in formato digitale.
Cambridge Assessment sta facendo passi da gigante nella formazione digitale sfruttando il suo patrimonio di storia e di conoscenze sugli esami. Raccogliendo le domande degli esami passati, l’azienda sta creando un archivio con un livello ineguagliabile di contenuti educativi. Cambridge Assessment ha grandi progetti per il suo database digitale, dalla creazione dei contenuti in classe all’utilizzo dell’intelligenza artificiale (AI) per analizzare e comprendere le prestazioni dei test. Più dati storici sugli esami vengono aggiunti al database digitale di Cambridge Assessment, più il servizio diventa prezioso per i clienti di tutto il mondo.
Sebbene molti esami vengano archiviati in PDF, il processo di estrazione delle singole domande da un esame e il loro inserimento nell’archivio dei contenuti era in precedenza prettamente manuale. “Mentre esistono molti strumenti sul mercato che trasformano i dati PDF in una stringa di testo, abbiamo avuto difficoltà a trovare un metodo che identificasse la formattazione, le figure, le tabelle e la struttura delle domande di cui avevamo bisogno per creare il nostro database”, spiega Child. “Adobe PDF Extract API cambia le carte in tavola. È l’unico strumento che abbiamo trovato che ci permette di mantenere la struttura delle domande e di iniziare ad automatizzare la raccolta delle domande”.
“Adobe PDF Extract API ci consente di estrarre il contesto delle nostre domande. Questo è il primo passo verso l’automazione del modo in cui raccogliamo le domande dagli esami per il nostro archivio di contenuti”.
Terry Child
Principal Product Manager, Cambridge Assessment
Estrazione accurata della formattazione e della struttura dei PDF
Il team di Cambridge Assessment impiega SDK Java per analizzare i test in PDF utilizzando Adobe PDF Extract API. L’API trasforma le prove d’esame cartacee in un output JSON, che Cambridge Assessment elabora utilizzando un codice Java personalizzato e poi trasforma nel formato XML QTI, la specifica standard per i sistemi di valutazione elettronica. Una volta memorizzate in questo formato standard, le domande e le risposte possono essere riutilizzate in qualsiasi sistema compatibile.
Child ha esaminato altri strumenti di estrazione del testo e ha sperimentato varie librerie Python, ma solo Adobe PDF Extract API conserva la formattazione visiva e la struttura insieme al testo. È in grado di distinguere tra testo, immagini, figure e tabelle. Identifica i grassetti, i corsivi, i pedici, gli apici e i simboli che compaiono frequentemente nelle domande di matematica avanzata.
“Se non riusciamo a distinguere qualcosa come un segno al quadrato in una formula matematica, allora molte delle nostre domande di scienza e matematica sono inutili”, afferma Child. “Anche la semplice formattazione, come il peso dei caratteri, è fondamentale. Le nostre domande sono state sottoposte a innumerevoli processi di revisione. Se una parola in una domanda è in grassetto, è perché un team ha deciso che era essenziale per la comprensione della domanda. Acquisire la formattazione giusta fa parte della domanda stessa”.
Cambridge Assessment ha riscontrato un’accuratezza e una velocità impressionanti nei test di Adobe PDF Extract API. “Stiamo riscontrando percentuali di risposta superiori al 90%, dopo la post-elaborazione del codice Java di Cambridge, sulle domande a scelta multipla con Adobe PDF Extract API”, afferma Child. “Siamo in grado di estrarre tutte le domande da un esame di 40 domande in soli 40-90 secondi”.
Se la capacità di estrarre correttamente la formattazione da un file PDF è fondamentale, altrettanto importante è la capacità di analizzare accuratamente i test in singole domande. Adobe PDF Extract API fornisce le informazioni di cui Cambridge Assessment ha bisogno per identificare l’inizio e la fine di ogni domanda. Child ha utilizzato queste informazioni per creare un processo automatizzato che separa un singolo test in una serie di domande.
“Adobe PDF Extract API ci consente di estrarre il contesto delle nostre domande”, afferma Child. “Questo è il primo passo verso l’automazione del modo in cui raccogliamo le domande dagli esami per il nostro archivio di contenuti”.
“Utilizzando Adobe PDF Extract API per automatizzare il processo di inserimento delle domande nell’archivio dei contenuti, risparmieremo oltre 2.000 giorni di lavoro per ogni 50.000 domande raccolte ed elimineremo i costi di assunzione di lavoratori temporanei per l’inserimento dei dati”.
Terry Child
Principal Product Manager, Cambridge Assessment
Raccolta rapida delle domande a scelta multipla
Cambridge Assessment ha iniziato a testare Adobe PDF Extract API sul tipo di domanda d’esame più standardizzato: la scelta multipla. Ogni domanda a scelta multipla inizia con il contesto della domanda, che può includere diverse affermazioni, figure o tabelle. Seguono la domanda e le quattro risposte.
Adobe PDF Extract API estrae tutte le informazioni dei PDF in formato JSON e fornisce anche i dati png e csv associati per le immagini e la tabella rispettivamente. Cambridge Assessment ha creato una pipeline di post-elaborazione che applica una serie di regole logiche all’output JSON per separare ogni domanda nel contesto, nel prompt e nelle risposte.
Una volta consegnate nel formato XML di QTI, un esperto controlla le domande per verificare la presenza di errori e aggiunge metadati per aiutare a classificare ogni domanda in base all’oggetto del test, al livello di difficoltà e ad altre informazioni simili. Infine, le domande vengono archiviate in una banca di contenuti da utilizzare per i prodotti e i servizi rivolti ai clienti.
Prima di lavorare con Adobe PDF Extract API, l’inserimento delle domande nella banca dei contenuti era un processo tedioso e manuale. Cambridge Assessment ha assunto lavoratori temporanei per riscrivere le domande o copiare e incollare il contenuto dei file PDF nei file in formato XML di QTI. Questo processo manuale, oltre a essere lento, era soggetto a errori.
“Utilizzando Adobe PDF Extract API per automatizzare il processo di inserimento delle domande nell’archivio dei contenuti, risparmieremo oltre 2.000 giorni di lavoro per ogni 50.000 domande raccolte ed elimineremo i costi di assunzione di lavoratori temporanei per l’inserimento dei dati”, afferma Child. “Con il tempo risparmiato, saremo in grado di raccogliere un maggior numero di domande e di costruire una banca di contenuti molto più ricca”.
“Nei nostri archivi dei test abbiamo un’enorme banca di proprietà intellettuale che possiamo sfruttare. Se riusciamo a digitalizzare tutto, possiamo creare una risorsa impareggiabile per docenti e studenti”.
Terry Child
Principal Product Manager, Cambridge Assessment
Sfruttare 160 anni di risorse per gli esami
Cambridge Assessment inizierà con la raccolta di domande a scelta multipla, ma Child prevede di creare al più presto set di regole per importare altri tipi di domande, come quelle a risposta breve e i saggi. Child spera anche di poter aggiungere altri contenuti dai 160 anni di storia dell’organizzazione, scannerizzando i documenti d’esame storici, convertendoli in QTI e aggiungendo le domande alla banca dei contenuti.
Attualmente, i dipendenti devono aggiungere a mano i metadati a ogni domanda. Ma anche questo potrebbe essere automatizzato in futuro. Una volta che la banca dei contenuti avrà aggiunto altre domande, Cambridge Assessment intende iniziare ad addestrare l’intelligenza artificiale per comprendere le domande e aggiungere i metadati appropriati. In caso di successo, l’intelligenza artificiale aggiungerà un ulteriore livello di automazione per una raccolta ancora più rapida delle domande.
La banca di contenuti arricchita sarà pronta per ospitare un’ampia varietà di offerte content-as-a-service in futuro. Cambridge University Press potrebbe prelevare informazioni dalla banca dei contenuti per utilizzarle nei libri di testo o nei materiali di preparazione agli esami. Si potrebbe anche creare un sistema self-service in cui i docenti potrebbero creare istantaneamente i propri test per qualsiasi sistema di apprendimento in qualsiasi parte del mondo. Questo potrebbe aiutare i docenti a realizzare più facilmente opzioni di apprendimento personalizzate, adattate alle esigenze di scuole, classi o anche singoli studenti.
“Nei nostri archivi dei test abbiamo un’enorme banca di proprietà intellettuale che possiamo sfruttare”, afferma Child. “Se riusciamo a digitalizzare tutto, possiamo creare una risorsa impareggiabile per docenti e studenti. Adobe PDF Extract API ci offre le funzionalità di cui abbiamo bisogno per automatizzare i processi e fornire rapidamente l’accesso a una maggiore varietà di domande di esami”.