試験問題を自動的に抽出
ケンブリッジアセスメントは、Adobe PDF Extract APIを活用し、100年以上にわたるテスト素材のデジタル化を目指しています。
90%
複雑なフォーマットを維持しながらの正確性
目標
拡大するデジタル教育ニーズに対応
世界中の教育者が160年にわたる試験コンテンツを活用可能に
正確性を維持しながら、コンテンツの取り込みとバンキング処理を自動化
成果
試験問題の 視覚的な要素や構造を保存
複雑なフォーマットを維持しながら 90%の正確性 も維持
40問の試験をわずか 40秒 で処理
50,000問の取り込みごとに 2,000日分の労力を節約 し、手作業によるデータ入力のコストを削減
毎年、170カ国以上で800万人以上の学習者が、ケンブリッジアセスメントが企画および実施するテストや試験を通じて、学習成果を証明しています。AS/Aレベル、GCSEなど、5歳から19歳の学生を対象とした試験から、130カ国の大学、雇用主、政府機関が認める英語能力認定まで、幅広い資格を提供しています。
1858年にケンブリッジアセスメントが最初の試験を実施して以来、教育制度は劇的に変化してきています。しかし、多くの学生はいまだに160年前と同じように、鉛筆と紙を使って試験を受けています。
「ケンブリッジアセスメントの試験結果は、大学進学や就職における判断材料になります」と、ケンブリッジアセスメントでプリンシパルプロダクトマネージャーを務める、Terry Child氏は語ります。「セキュリティの確保は最優先事項です。多くの点で、ペーパーテストはいまだに最も安全な方法のひとつであり続けています。」
しかし、ケンブリッジアセスメントは、教育のデジタル化が進むにつれ、この伝統的な紙ベースのテストモデルが徐々に変化していることを認識しています。授業や宿題、中間テストをデジタル上で実施する学校や教育者が増えているのです。
ケンブリッジアセスメントは、その豊富な試験の履歴と知識を活用することで、デジタル教育において大きな進歩を生み出しています。同社は、過去の試験問題を取り込むことで、他にはない規模の教育コンテンツに満ちたコンテンツバンクを構築しているのです。ケンブリッジアセスメントは、授業用コンテンツへの活用から、試験のパフォーマンスを分析および理解するための人工知能(AI)の活用まで、デジタルデータベースに関して大きな展望を持っています。ケンブリッジアセスメントが歴史的な試験データをデジタルデータベースに追加すればするほど、世界中の顧客にとってケンブリッジアセスメントのサービスの価値は高まります。
多くの試験はPDFでアーカイブされています。試験から個々の問題を抽出してコンテンツバンクに入力するプロセスは、以前は手作業で行われ、非常に手間がかかっていました。「PDFデータを文字列に変換するツールは数多くマーケットに出回っていますが、データベースの作成に必要な書式、図、表、問題構造を特定できる方法を見つけるのは困難でした」とChild氏は言います。「Adobe PDF Extract API が状況を一変させました。私たちが見つけた、問題構造を維持しながら問題抽出を自動化できる唯一のツールです。」
「Adobe PDF Extract APIは、問題の文脈を抽出することができます。これは、私たちのコンテンツバンクのために試験から問題を取り込む方法を自動化するための第一歩です。」
Terry Child氏
ケンブリッジアセスメント、プリンシパルプロダクトマネージャー
PDFのフォーマットと構造を正確に抽出
ケンブリッジアセスメントチームは、Adobe PDF Extract APIを使用してPDF内のテストペーパーを解析するためにJava SDKを使用しています。このAPIは試験用紙をJSON出力に変換し、ケンブリッジアセスメントがカスタムJavaコードを使用して後処理し、電子評価システムの標準仕様であるQTI XMLフォーマットに変換します。この標準フォーマットに保存された問題と解答は、互換性のあるあらゆるシステムで再利用することができます。
Child氏が他のテキスト抽出ツールを調べ、様々なPythonライブラリで実験したところ、Adobe PDF Extract APIだけが、テキストと共に視覚的なフォーマットと構造を保持できました。このAPIは、テキスト、画像、図、表を区別します。太字、斜体、下付き文字、上付き文字、高度な数学の問題に頻繁に登場する記号を識別します。
「数式中の二乗記号のようなものを区別できなければ、科学や数学の問題の大半には役に立ちません」とChild氏は語ります。「フォントの太さのような単純な書式設定でさえも重要です。私たちの問題は、数え切れないほどのレビュー過程を経ています。問題文中の単語が太字になっている場合は、それが問題の理解に不可欠であるとチームが合意したためです。その書式をすべて把握すること自体も、問題の一部なのです。」
ケンブリッジアセスメントは、Adobe PDF Extract APIを使ってテストした結果、素晴らしい精度とスピードを確認しました。「Adobe PDF Extract APIを使った多肢選択式の問題で、ケンブリッジ大学のJavaコードが後処理をした際の成功率は90%を超えています。」とChild氏は語ります。「わずか40秒から90秒で、40問の試験から全問題を抽出することができます。」
PDFファイルから書式を適切に抽出する能力は非常に重要ですが、試験を個々の問題に正確に分けて解析する能力も同じように重要です。Adobe PDF Extract APIは、ケンブリッジアセスメントが、各問題がどこで始まりとどこで終わるかを特定するために必要な情報を提供します。Child氏はこの情報を使って、1枚のテスト用紙を複数の問題群に分ける自動化プロセスを作成しました。
「Adobe PDF Extract APIは、問題の文脈を抽出することができます。」とChild氏は言います。「これは、試験からコンテンツバンクへ、問題を取り込む方法を自動化するための第一歩です。」
「Adobe PDF Extract APIを使用して、コンテンツバンクへの問題の取り込みを自動化することで、5万問の問題を取り込むごとに2,000日以上の労力を節約し、データ入力のために臨時職員を雇うコストを削減することができます。」
Terry Child氏
ケンブリッジアセスメント、プリンシパルプロダクトマネージャー
多肢選択式問題をスピーディに取り込み
ケンブリッジアセスメントは、最も標準な試験問題タイプである多肢選択問題で、Adobe PDF Extract APIのテストを開始しました。それぞれの多肢選択問題は、いくつかの文、図、表を含む問題のコンテキストから始まります。その後、質問内容と4つの解答選択肢が続きます。
Adobe PDF Extract APIは、すべてのPDF情報をJSON形式で取り込むと同時に、関連するpngおよびcsvデータをそれぞれ画像と表に提供します。ケンブリッジアセスメントは、JSON出力に一連のロジックルールを適用し、各問題をコンテキスト、プロンプト、およびレスポンスに分離する後処理パイプラインを作成しました。
QTI XMLフォーマットに変換されると、科目ごとの専門家が問題にエラーがないかチェックし、メタデータを追加して、テスト内容や難易度などの情報に従って各問題を分類します。最終的に、顧客向けの製品やサービスで使用するために、質問はコンテンツバンクに保存されます。
Adobe PDF Extract APIを使用する前は、コンテンツバンクへの問題入力は面倒な手作業でした。ケンブリッジアセスメントは、問題の再入力や、PDFファイルからQTI XMLフォーマットのファイルに内容をコピー&ペーストするために、臨時職員を雇っていました。この手作業はエラーが起こりやすく、時間もかかります。
「Adobe PDF Extract APIを使用して、コンテンツバンクへの問題の取り込みを自動化することで、5万問の問題を取り込むごとに2,000日以上の労力を節約し、データ入力のために臨時職員を雇うコストをなくすことができます。」とChild氏は語ります。「節約した時間で、より多くの質問を取り込み、より豊富なコンテンツバンクを作成することができます。」
「私たちは試験アーカイブに膨大な知的財産を持っており、それを活用することができるのです。すべてをデジタル化することができれば、教育者や学習者のための比類ないリソースを作成することができるでしょう。」
Terry Child氏
ケンブリッジアセスメント、プリンシパルプロダクトマネージャー
160年にわたる試験リソースの活用
ケンブリッジアセスメントはまず多肢選択式問題の取り込みから開始しますが、Child氏は、他のタイプの問題(記述問題や小論文問題など)を取り込むためのルールセットをできるだけ早く作成するよう計画しています。Child氏はまた、歴史的な試験問題をスキャンしてQTIに変換し、コンテンツバンクに問題を追加することで、160年にわたる試験の履歴からさらに多くのコンテンツを追加したいと考えています。
現状では、従業員が手作業で各質問にメタデータを追加しなければいけません。しかし、それも将来的には自動化されるかもしれません。コンテンツバンクに問題が追加された段階で、ケンブリッジアセスメントは問題を理解し、適切なメタデータを追加するためのAIのトレーニングを開始することを検討しています。もし成功すれば、AIはさらに自動化のレイヤーを増やし、より迅速な問題の取り込みが可能になります。
充実したコンテンツバンクは、将来、さまざまなサービスコンテンツを提供するために最適となるでしょう。ケンブリッジ大学出版は、教科書や試験対策教材に使用するため、コンテンツバンクから情報を取得することがあります。世界中のどの学習システムでも、教育者がすぐに独自の試験を作成できるセルフサービスシステムを構築することさえ可能になるかもしれません。これによって教育者は、特定の学校や教室、あるいは学習者個人のニーズに合わせたパーソナライズされた学習オプションを、より簡単に実現できるようになります。
「私たちは試験アーカイブに膨大な知的財産を持っており、それを活用することができるのです。」とChild氏は述べます。「すべてをデジタル化することができれば、教育者や学習者のための比類ないリソースを作成することができるでしょう。」Adobe PDF Extract APIは、プロセスを自動化し、より多様な試験問題へ迅速にアクセスできるようにするために必要な機能を提供してくれます。