Automatiser l’extraction des questions d’examen
Le projet Cambridge Assessment prévoit de numériser plus de 100 ans de contenus d’examens grâce à l’API Adobe PDF Extract.
90 %
Taux de précision avec maintien des mises en page complexes
Objectifs
Répondre à la demande croissante en matière de ressources pédagogiques digitales
Exploiter la valeur de 160 ans de contenu d’examens pour l’éducation dans le monde entier
Automatiser les processus de collecte et de stockage des contenus sans compromettre leur exactitude
Résultats
Préservation des éléments visuels et de la structure des questions d’examen
Taux de précision de 90 %, tout en conservant les mises en page complexes
Traitement d’un examen de 40 questions en seulement 40 secondes
Gain de 2 000 journées de travail pour chaque lot de 50 000 questions traitées avec suppression des coûts liés à la saisie manuelle des données
Chaque année, plus de 8 millions d’élèves dans plus de 170 pays font la démonstration de leurs acquis grâce à des tests et examens conçus et mis en place par Cambridge Assessment. Cette organisation propose une large gamme de qualifications, allant des AS/A Levels, GCSE et autres examens pour les jeunes de 5 à 19 ans jusqu’aux certifications de compétence en langue anglaise reconnues par les universités, les entreprises et les administrations dans 130 pays.
Depuis 1858, date de ses premiers examens, le monde de l’éducation a profondément évolué. Pourtant, dans de nombreux cas, les élèves passent encore leurs examens comme il y a 160 ans : avec papier et crayon.
« Les résultats des examens Cambridge Assessment peuvent influencer des choix d’orientation majeurs, comme les admissions en université ou les qualifications professionnelles, explique Terry Child, Principal Product Manager chez Cambridge Assessment. La sécurité est notre priorité absolue, à bien des égards, les examens sur papier restent l’une des méthodes les plus sûres qui existent. »
Cependant, Cambridge Assessment reconnaît que ce modèle traditionnel d’examen sur papier évolue progressivement à mesure que l’éducation se digitalise. De plus en plus d’écoles et de membres du corps enseignant proposent des leçons, des devoirs et des examens partiels au format digital.
Cambridge Assessment mise sur ses décennies d’expertise pour accompagner cette transition. En valorisant l’immense richesse de ses archives d’examens, l’organisation construit une base de contenus unique au monde. L’ambition est claire : alimenter de nouveaux supports pédagogiques et tirer parti de l’intelligence artificielle (IA) pour analyser et optimiser les performances des élèves. Plus la base s’enrichit de données historiques, plus elle gagne en valeur pour les établissements et le personnel enseignant à travers le monde.
Jusqu’ici, l’extraction des questions archivées en PDF et leur saisie dans la base de contenus se faisait manuellement. « Beaucoup d’outils convertissent des PDF en texte brut, mais aucun ne nous permettait de conserver la mise en forme, les figures, les tableaux et la structure des questions dont nous avions besoin pour créer notre base de données, explique Terry Child. L’API Adobe PDF Extract change la donne. C’est le seul outil que nous ayons trouvé qui préserve le format des questions et automatiser leur extraction. »
« Adobe PDF Extract API nous permet d’extraire le contexte de nos questions. C’est la première étape vers l’automatisation de leur intégration dans notre base de contenus. »
Terry Child
Principal Product Manager, Cambridge Assessment
Extraire avec précision le format et la structure des PDF
L’équipe de Cambridge Assessment utilise le SDK Java pour analyser les épreuves au format PDF à l’aide de l’API Adobe PDF Extract. Cette dernière convertit les documents en JSON, qui sont ensuite traités par un code Java interne pour être transformés en QTI XML, soit la spécification standard pour les systèmes d’évaluation électronique. Une fois stockées dans ce format, les questions et les réponses peuvent être réutilisées dans n’importe quelle plateforme compatible.
Après avoir testé d’autres outils et bibliothèques Python, l’équipe a confirmé que l’API Adobe PDF Extract était la seule solution capable de préserver non seulement le texte mais aussi les éléments visuels (images, schémas, tableaux) ou encore le style typographique (gras, italique, indices, exposants et symboles) essentiel dans les exercices de mathématiques avancées.
« Si nous ne pouvons pas distinguer, par exemple, un exposant dans une formule mathématique, alors un grand nombre de nos questions de sciences et de mathématiques perdent leur sens, déclare Terry Child. Même une mise en forme simple comme l’épaisseur de la police est essentielle. Nos questions ont été soumises à d’innombrables processus de révision. Si un mot dans une question est en gras, c’est parce qu’une équipe a convenu que cela était essentiel à la compréhension de la question. La mise en forme fait partie intégrante du sujet ».
Cambridge Assessment a constaté une précision et une rapidité impressionnantes lors de ses tests de l’API Adobe PDF Extract. « Nous observons des taux de réussite supérieurs à 90 %, après le post-traitement réalisé par notre code Java, sur les questions à choix multiples avec l’API Adobe PDF Extract, explique Terry Child. Nous pouvons extraire les 40 questions d’un examen en seulement 40 à 90 secondes. »
La capacité à extraire correctement la mise en forme d’un fichier PDF est essentielle, mais la faculté de découper avec précision un examen en questions distinctes l’est tout autant. L’API Adobe PDF Extract fournit les informations dont Cambridge Assessment a besoin pour identifier le début et la fin de chaque question. Terry Child a ainsi créé un processus automatisé qui divise un examen en une série de questions à partir de ces données.
« L’API Adobe PDF Extract nous permet d’extraire le contexte de nos questions, explique-t-il. C’est la première étape vers l’automatisation de leur intégration dans notre base de contenus. »
« Utiliser l’API Adobe PDF Extract pour automatiser l’intégration des questions dans notre banque de contenu nous fait économiser plus de 2 000 jours de travail pour chaque lot de 50 000 questions et supprime les coûts liés à l’embauche de personnel temporaire pour la saisie de données. »
Terry Child
Principal Product Manager, Cambridge Assessment
Accélérer l’extraction des QCM
Cambridge Assessment a commencé par tester l’API Adobe PDF Extract sur le type de question le plus standardisé : les QCM. Chaque question à choix multiples commence par un contexte, qui peut inclure des énoncés, des figures ou des tableaux, suivi de l’énoncé et de quatre réponses possibles.
L’API Adobe PDF Extract extrait toutes les informations du PDF au format JSON, tout en fournissant également des fichiers PNG et CSV associés, respectivement pour les images et les tableaux. L’équipe a mis en place un pipeline de post-traitement qui applique un ensemble de règles logiques pour séparer chaque question en trois parties : contexte, énoncé et réponses.
Une fois la question convertie au format QTI XML, un expert ou une experte du sujet vérifie la présence d’éventuelles erreurs et ajoute des métadonnées pour aider à catégoriser chaque question selon ce qu’elle teste, son niveau de difficulté et d’autres informations de ce type. Les questions sont ensuite stockées dans une banque de contenu, prêtes à être utilisées dans les produits et services destinés à la clientèle.
Avant de reposer sur l’API Adobe PDF Extract, ce travail était long, fastidieux et coûteux, nécessitant le recrutement de personnes chargées de retranscrire les questions ou de copier-coller manuellement le contenu des fichiers PDF dans des fichiers QTI XML. Cela pouvait également entraîner des erreurs.
« Utiliser l’API Adobe PDF Extract pour automatiser l’intégration des questions dans notre banque de contenu nous fait économiser plus de 2 000 jours de travail pour chaque lot de 50 000 questions et supprime les coûts liés à l’embauche de personnel temporaire pour la saisie de données, explique Terry Child. Avec ce gain de temps, nous pouvons extraire davantage de questions et enrichir considérablement notre base de contenus. »
« Nos archives d’examens constituent un immense capital intellectuel que nous pouvons exploiter. Si nous parvenons à tout numériser, nous offrirons une ressource inégalée au personnel enseignant comme aux élèves. »
Terry Child
Principal Product Manager, Cambridge Assessment
Tirer parti de 160 ans de contenus pédagogiques
Cambridge Assessment a commencé par les QCM, mais l’objectif est d’automatiser également l’extraction d’autres formats de questions, comme les réponses courtes ou les dissertations. L’équipe envisage aussi de numériser ses archives historiques, de les convertir en QTI et d’ajouter ces contenus à la base.
Pour l’instant, les métadonnées sont ajoutées manuellement, mais cette étape pourrait elle aussi être automatisée. Une fois que davantage de questions auront été ajoutées à la banque de contenu, Cambridge Assessment souhaite entraîner des modèles d’IA pour analyser les questions et générer des métadonnées pertinentes. Si cette approche réussit, l’IA ajoutera un niveau supplémentaire d’automatisation pour une collecte de questions encore plus rapide.
Cette base de données deviendra un atout majeur pour des offres de contenu CaaS. Par exemple, Cambridge University Press pourra utiliser les informations de la banque de contenu pour des manuels scolaires ou des supports de préparation aux examens. Il sera également possible de créer un système en libre-service où les membres du corps enseignant pourront instantanément créer leurs propres évaluations pour n’importe quel système de formation partout dans le monde, facilitant ainsi un apprentissage personnalisé, adapté aux besoins de certaines écoles, certaines classes ou même certains élèves.
« Nos archives d’examens constituent un immense capital intellectuel que nous pouvons exploiter, explique Terry Child. Si nous parvenons à tout numériser, nous offrirons une ressource inégalée au personnel enseignant comme aux élèves. L’API Adobe PDF Extract nous fournit les fonctionnalités dont nous avons besoin pour automatiser les processus et offrir un accès rapide et fiable à une plus grande variété de questions d’examen. »