Automatische Extraktion von Prüfungsfragen.

Cambridge Assessment plant, mehr als 160 Jahre Prüfungsmaterial mit dem Adobe PDF Extract API zu digitalisieren.

Logo

Gegründet:

1858

Beschäftigte: 3.000

Cambridge, Großbritannien

www.cambridgeassessment.org.uk

90 %

Genauigkeitsrate unter Beibehaltung komplexer Formatierung

Produkte:

Adobe Acrobat Services ›

Adobe PDF Extract API ›

Kontrollkästchensymbol

Ziele.

Unterstützung der steigenden Anforderungen an digitale Bildung

Verwertung von Prüfungsinhalten aus 160 Jahren für Pädagoginnen und Pädagogen weltweit

Automatisierung der Content-Erfassung und -Archivierung bei gleichbleibender Genauigkeit

Diagrammsymbol

Ergebnisse.

Bewahrt die visuellen Aspekte und die Struktur von Prüfungsfragen

90 % Genauigkeitsrate unter gleichzeitiger Beibehaltung komplexer Formatierungen

Verarbeitet eine 40-Fragen-Prüfung in nur 40 Sekunden

Spart 2.000 Arbeitstage bei jeder Erfassung von 50.000 Fragen und vermeidet die Kosten für die manuelle Dateneingabe

Jedes Jahr zeigen mehr als 8 Millionen Lernende in über 170 Ländern ihren Lernerfolg in Tests und Prüfungen, die von Cambridge Assessment entwickelt und durchgeführt werden. Das britische Unternehmen bietet eine breite Palette von Qualifikationen an. Diese reichen von AS/A Levels, GCSEs und anderen Prüfungen für Schülerinnen und Schüler im Alter von 5 bis 19 Jahren bis zu Englisch-Zertifikaten. Diese Zertifikate werden von Hochschulen, Arbeitgebern sowie Regierungsbehörden in 130 Ländern anerkannt.

In der Zeit seit 1858, als Cambridge Assessment seine ersten Prüfungen abhielt, haben sich Bildungssysteme grundlegend verändert. Doch nach wie vor legen viele ihre Prüfungen immer noch so ab wie vor 160 Jahren: mit Stift und Papier.

„Die Ergebnisse der Cambridge Assessment-Prüfungen können dabei helfen, Studienplätze oder berufliche Qualifikationen zu bestimmen“, sagt Terry Child, Principal Product Manager at Cambridge Assessment. „Da steht Sicherheit an erster Stelle, und in vieler Hinsicht sind Prüfungen auf Papier immer noch eine der sichersten verfügbaren Methoden.“

Cambridge Assessment erkennt jedoch an, dass sich dieses traditionelle, papierbasierte Modell mit der zunehmenden Digitalisierung der Bildung verändert. Immer mehr Schulen sowie Lehrerinnen und Lehrer gehen dazu über, Unterricht, Hausaufgaben und Zwischenprüfungen digital durchzuführen.

Cambridge Assessment treibt die digitale Bildung mit großen Schritten voran. Dabei greift das Unternehmen auf seinen reichhaltigen Schatz an Prüfungserfahrung und Fachwissen zurück. Fragen aus früheren Prüfungen werden in einer Content-Bank zusammengestellt und bilden damit eine riesige Sammlung an Bildungsinhalten, wie sie wohl sonst nirgends zu finden ist. Cambridge Assessment hat große Pläne für seine digitale Datenbank. Diese reichen von der Bereitstellung von Unterrichtsinhalten bis zum Einsatz künstlicher Intelligenz (KI) zur Analyse und zum besseren Verständnis der vorgelegten Leistungen. Je mehr historische Prüfungsdaten Cambridge Assessment seiner digitalen Datenbank hinzufügt, desto wertvoller wird der Service für Kundschaft in der ganzen Welt.

Auch wenn viele Prüfungen als PDF archiviert waren, mussten die einzelnen Fragen aus einer Prüfung bisher manuell extrahiert und in die Content-Bank eingegeben werden. „Obwohl es viele Tools auf dem Markt gibt, die PDF-Daten in Text umwandeln, hatten wir Schwierigkeiten, eine Methode zu finden, die die Formatierung, Abbildungen, Tabellen und Fragenstruktur erkennt, die wir für unsere Datenbank benötigten „Das Adobe PDF Extract API ändert dies. Es ist das einzige Tool, das wir gefunden haben, mit dem wir die Fragenstruktur beibehalten und die Automatisierung der Fragensammlung starten können.“

„Das Adobe PDF Extract API ermöglicht es uns, den Kontext unserer Fragen zu extrahieren. Das ist der erste Schritt zur Automatisierung des Prozesses, wie wir Fragen aus Prüfungen für unsere Content-Bank erfassen.“

Terry Child

Principal Product Manager, Cambridge Assessment

Präzise Extraktion von PDF-Formatierung und -Struktur.

Das Cambridge Assessment-Team nutzt das Java SDK, um Prüfungsunterlagen im PDF-Format mithilfe des Adobe PDF Extract API zu analysieren. Das API wandelt Prüfungsbögen in JSON-Output um. Cambridge Assessment bearbeitet diese dann mit individuellem Java-Code und transformiert sie in das QTI XML-Format – die Standardspezifikation für elektronische Assessment-Systeme. Sobald sie in diesem Standardformat gespeichert sind, können die Fragen und Antworten in jedem kompatiblen System wiederverwendet werden.

Zwar fasste Child auch andere Tools für Textextraktion ins Auge und experimentierte mit verschiedenen Python-Bibliotheken. Er stellte jedoch fest, dass nur das Adobe PDF Extract API die visuelle Formatierung und Struktur zusammen mit dem Text intakt hält. Es unterscheidet zwischen Text, Bildern, Grafiken und Tabellen. Es erkennt Fettdruck, Kursivschrift, tief- und hochgestellte Zeichen und Symbole, wie sie häufig in Mathematik-Aufgaben vorkommen.

„Wenn wir etwas wie ein Quadrat-Symbol in einer mathematischen Formel nicht unterscheiden können, dann sind viele unserer naturwissenschaftlichen und mathematischen Fragen nutzlos“, sagt Child. „Sogar einfache Formatierungen wie die Schriftstärke sind entscheidend. Unsere Fragen werden zahlreichen Kontrollprozessen unterzogen. Wenn ein Wort in einer Frage fett gedruckt ist, liegt das daran, dass ein Team zu dem Schluss gekommen ist, dass dies für das Verständnis der Frage wesentlich ist. Die gesamte Formatierung zu erfassen, ist Teil der Frage selbst.“

Cambridge Assessment war beim Testen von der Genauigkeit und Geschwindigkeit des Adobe PDF Extract API beeindruckt. „Wir sehen Trefferquoten von über 90 % bei Multiple-Choice-Fragen mit dem Adobe PDF Extract API nach der Bearbeitung durch den Cambridge Java-Code“, so Child. „Wir können alle Fragen aus einer 40-Fragen-Prüfung in nur 40 bis 90 Sekunden extrahieren.“

Die Fähigkeit, Formatierungen korrekt aus einer PDF-Datei zu extrahieren, ist ein ganz entscheidender Punkt. Genauso wichtig ist jedoch die Möglichkeit, Prüfungen präzise in einzelne Fragen zu unterteilen. Das Adobe PDF Extract API liefert Cambridge Assessment die Informationen, die benötigt werden, um zu identifizieren, wo jede Frage beginnt und endet. Child nutzte diese Informationen zur Entwicklung eines automatischen Prozesses, der ein einzelnes Prüfungsdokument in eine Reihe von Fragen aufteilt.

„Das Adobe PDF Extract API ermöglicht es uns, den Kontext unserer Fragen zu extrahieren“, erklärt Child. „Das ist der erste Schritt zur Automatisierung des Prozesses, wie wir Fragen aus Prüfungen für unsere Content-Bank erfassen.“

„Durch die Nutzung des Adobe PDF Extract API zur Automatisierung der Fragenextraktion in unsere Content-Bank sparen wir über 2.000 Arbeitstage pro 50.000 erfasste Fragen. Gleichzeitig entfallen die Kosten für temporäre Mitarbeiterinnen und Mitarbeiter bei der Dateneingabe.“

Terry Child

Principal Product Manager, Cambridge Assessment

Multiple-Choice-Fragen schnell erfassen.

Cambridge Assessment begann mit dem Testen des Adobe PDF Extract API an der häufigsten Form von Prüfungsfragen: Multiple Choice. Jede Multiple-Choice-Frage beginnt mit dem Kontext der Frage. Dieser kann aus mehreren Aussagen, Abbildungen oder Tabellen bestehen. Im Anschluss folgen die Frage und vier mögliche Antworten.

Das Adobe PDF Extract API extrahiert alle PDF-Informationen in das JSON-Format und stellt gleichzeitig zugehörige PNG- und CSV-Daten für Bilder und Tabellen bereit. Cambridge Assessment hat eine Nachbearbeitungs-Pipeline entwickelt, die eine Reihe von Logikregeln auf die JSON-Ausgabe anwendet. So wird jede Frage in Kontext, Fragestellung und Antworten unterteilt.

Sobald die Fragen in das QTI-XML-Format übertragen wurden, überprüft eine Fachkraft die Frage auf Fehler und fügt Metadaten ein, um jede Frage zu kategorisieren. Kriterien sind beispielsweise geprüfte Fähigkeit, Schwierigkeitsgrad und andere wichtige Informationen. Schließlich werden die Fragen in einer Content-Bank gespeichert und zur Nutzung für kundenorientierte Produkte und Services freigegeben.

Vor Einsatz des Adobe PDF Extract API war die Eingabe von Fragen in die Content-Bank ein mühsamer, manueller Prozess. Cambridge Assessment stellte temporäre Mitarbeiterinnen und Mitarbeiter ein, um Fragen entweder neu einzutippen oder Inhalte aus PDF-Dateien zu kopieren und in QTI-XML-Dateien einzufügen. Dieser manuelle Prozess war fehleranfällig und zeitaufwendig.

„Durch die Nutzung des Adobe PDF Extract API zur Automatisierung der Fragenextraktion in unsere Content-Bank sparen wir über 2.000 Arbeitstage pro 50.000 Fragen. Gleichzeitig entfallen die Kosten für temporäres Datenerfassungspersonal“, so Child. „In der gesparten Zeit können wir mehr Fragen erfassen und eine viel reichhaltigere Content-Bank aufbauen.“

„Wir haben eine riesige Wissensbank an geistigem Eigentum in unseren Prüfungsarchiven, die wir nutzen können. Wenn wir alles digitalisieren, schaffen wir eine unvergleichliche Ressource für Lehrerinnen und Lehrer sowie Lernende.“

Terry Child

Principal Product Manager, Cambridge Assessment

160 Jahre Prüfungsressourcen verwerten.

Für den Anfang will Cambridge Assessment Multiple-Choice-Fragen erfassen. Child plant jedoch, Regel-Sets zu erstellen, um auch andere Fragetypen zu importieren. Dazu gehören Kurz-Antwort- und Essay-Fragen. Dies soll so schnell wie möglich umgesetzt werden. Child hofft außerdem, möglicherweise weitere Inhalte aus der 160-jährigen Prüfungsgeschichte des Unternehmens hinzuzufügen. Dazu sollen historische Prüfungsbögen gescannt, in QTI konvertiert und die Fragen der Content-Bank hinzugefügt werden.

Derzeit müssen Mitarbeiterinnen und Mitarbeiter die Metadaten für jede Frage manuell hinzufügen. Aber auch das könnte in Zukunft automatisiert werden. Sobald die Content-Bank um weitere Fragen erweitert wurde, möchte Cambridge Assessment mit dem Training von KI beginnen. Die KI soll Fragen verstehen und passende Metadaten hinzufügen. Bei Erfolg wird KI eine weitere Automatisierungsebene hinzufügen, um Fragen noch schneller zu erfassen.

Die angereicherte Content-Bank wird in Zukunft für eine Vielzahl von Content-as-a-Service-Angeboten verfügbar sein. Cambridge University Press könnte Informationen aus der Content-Bank für die Verwendung in Lehrbüchern oder Materialien zur Prüfungsvorbereitung nutzen. Es könnte sogar ein Self-Service-System entstehen, bei dem Lehrerinnen und Lehrer weltweit sofort ihre eigenen Prüfungen für jedes Lernsystem erstellen könnten. Das würde Pädagoginnen und Pädagogen dabei helfen, individuell personalisierte Lernoptionen, zugeschnitten auf die Bedürfnisse spezifischer Schulen, Klassen oder sogar einzelner Lernender, schnell und mühelos zu entwickeln.

„Wir haben eine riesige Bank an geistigem Eigentum in unseren Prüfungsarchiven, die wir nutzen können“, so Child. „Wenn wir das alles digitalisieren, schaffen wir eine unvergleichliche Ressource nicht nur für Lehrerinnen und Lehrer, sondern auch für Lernende. Das Adobe PDF Extract API bietet uns die Funktionalität, die wir brauchen, um Prozesse zu automatisieren und schnell Zugang zu einer größeren Vielfalt von Prüfungsfragen zu ermöglichen.“

Unsere Empfehlungen für euch.

https://main--bacom--adobecom.hlx.live/fragments/resources/cards/thank-you-collections/acrobat