PDF 파일에서 시험 문제 자동 추출

Cambridge Assessment는 Adobe PDF Extract API를 사용하여 100년 이상 축적된 테스트 및 시험 자료를 디지털화하고 있습니다.

설립 연도

1858

직원 수: 3,000명

영국 캠브리지

www.cambridgeassessment.org.uk

90%

복잡한 서식을 유지하면서 높은 정확도로 변환

제품:

Adobe Acrobat Services ›

Adobe PDF Extract API ›

목표

증가하는 디지털 교육 수요 지원

160년간 축적된 테스트 콘텐츠의 가치를 전 세계 교육자가 활용

정확도를 유지하면서 콘텐츠 수집 및 보관 프로세스 자동화

성과

시험 문제의 시각적 요소 및 구조 유지

복잡한 서식을 유지하면서 90% 정확도 로 변환

40문항의 시험을 40초 만에 추출

문제 50,000개 수집당 수작업 2,000일 절약 및 데이터 수동 입력 비용 절감

style

white-columns, icon-headings

background

매년 170여 개국에서 800만 명 이상의 학습자가 Cambridge Assessment가 설계 및 제공하는 테스트와 시험을 통해 학습 성과를 인증합니다. 이 기관은 5세~19세 학생 대상의 AS/A 레벨, GCSE 등의 시험은 물론, 130개 국가의 대학, 기업, 정부 기관이 인정하는 영어 능력 인증 등 폭넓은 자격 증명을 제공합니다.

Cambridge Assessment가 첫 시험을 실시한 1858년 이래, 교육 시스템은 크게 변화했습니다. 하지만 많은 학생이 여전히 160년 전과 마찬가지로 연필과 종이로 시험을 치르고 있습니다.

Cambridge Assessment의 수석 제품 관리자인 Terry Child는 "Cambridge Assessment 시험 결과는 대학 진학이나 취업 자격을 결정하는 데 도움이 될 수 있습니다. 그런 만큼 보안은 무엇보다 중요하고 여러 면에서 종이 시험은 가장 안전한 방법 중 하나로 인식되고 있습니다."라고 말합니다.

style

center

하지만 교육 디지털화가 빠르게 진행 중인 지금의 상황에서 전통적인 종이 기반 테스트 모델은 한계가 있습니다. 이미 많은 학교와 교육자가 수업, 숙제, 중간고사를 디지털 방식으로 진행하고 있습니다.

Cambridge Assessment는 이러한 변화에 발맞추며 시험과 관련한 풍부한 경험과 지식을 기반으로 디지털 교육 분야에서 큰 발전을 이루고 있습니다. 과거 시험에 출제된 문제를 수집하여 독보적인 수준의 교육 콘텐츠로 가득 찬 ‘콘텐츠 뱅크’를 만들고 있는 것입니다. Cambridge Assessment는 디지털 데이터베이스를 통해 강의실 콘텐츠 강화부터 AI(인공 지능)를 활용한 테스트 성과 분석 및 파악에 이르는 야심 찬 계획을 세웠습니다. 디지털 데이터베이스에 과거 시험 데이터를 더 많이 추가할수록 전 세계 고객에게 더 가치 있는 서비스를 제공할 수 있을 것입니다.

그러나 많은 시험 자료가 PDF로 보관되어 있는 만큼, 이들 시험에서 개별 문제를 추출하여 콘텐츠 뱅크에 입력하는 일은 상당한 인력과 시간이 소요되는 수동 작업이 되기 쉽습니다. Child는 "시중에 PDF 데이터를 텍스트 문자열로 바꿔주는 수많은 툴이 있지만, 데이터베이스 구축에 필요한 서식, 그림, 표, 질문 구조를 식별하는 방법을 찾기가 어려웠습니다. 그런데 Adobe PDF Extract API 가 등장하면서 상황이 달라졌습니다. 질문 구조를 유지하면서 문제 수집을 자동화할 수 있는 유일한 툴이거든요."라고 말합니다.

"Adobe PDF Extract API를 사용하면 질문의 맥락을 추출할 수 있습니다. 이는 시험에서 문제를 수집하여 콘텐츠 뱅크에 저장하는 방법을 자동화하는 첫 번째 단계입니다."

Terry Child

Cambridge Assessment 수석 제품 관리자

PDF 서식 및 구조의 정확한 추출

Cambridge Assessment 팀은 Adobe PDF Extract API를 사용하여 Java SDK를 통해 PDF로 된 시험지를 분석합니다. Extract API가 시험지를 JSON 출력으로 변환하면, Cambridge Assessment는 맞춤형 Java 코드를 사용하여 이를 후처리한 다음, 전자 평가 시스템의 표준 사양인 QTI XML 형식으로 변환합니다. 이렇게 표준 형식으로 저장된 질문과 답변은 호환되는 모든 시스템에서 재사용할 수 있습니다.

Child가 Adobe 외 다른 텍스트 추출 툴을 살펴보고 다양한 Python 라이브러리로 실험해본 결과, Adobe PDF Extract API만 텍스트와 함께 시각적 서식 및 구조를 그대로 유지하는 것으로 나타났습니다. Adobe PDF Extract API는 텍스트, 이미지, 그림, 표를 구분하고 고급 수학 문제에 자주 등장하는 볼드체, 이탤릭체, 아래 첨자, 위 첨자, 기호를 모두 식별합니다.

Child는 "수학 공식에서 제곱 부호 같은 요소를 구분할 수 없다면 축적된 많은 과학, 수학 문제는 무용지물입니다."라며 다음과 같이 덧붙입니다. "글꼴의 두께 같은 간단한 서식도 중요합니다. 문제를 출제할 때는 수도 없이 많은 검토 과정을 거치죠. 한 단어가 굵게 표시되어 있다는 것은 해당 단어가 문제를 이해하는 데 필수적이라는 의미입니다. 이러한 서식을 모두 반영해야 비로소 문제가 온전하게 완성됩니다."

style

center

Cambridge Assessment는 테스트를 통해 Adobe PDF Extract API가 정확도와 속도 면에서 탁월하다는 것을 확인했습니다. Child는 "Adobe PDF Extract API를 사용한 객관식 문제는 Cambridge Java 코드가 후처리된 후 90% 이상의 정확도를 보입니다. 40문항으로 구성된 시험의 경우 단 40~90초 만에 모든 문제를 추출할 수 있습니다."라고 말합니다.

PDF 파일에서 서식을 올바르게 추출하는 능력도 중요하지만, 테스트를 개별 문제로 정확하게 구문 분석하는 능력 또한 중요합니다. Adobe PDF Extract API는 각 문제가 시작되고 끝나는 위치를 식별하는 데 필요한 정보를 제공합니다. Child는 이 정보를 사용하여 하나의 시험지를 문항 시리즈로 분리하는 자동 프로세스를 만들었습니다.

Child는 "Adobe PDF Extract API를 사용하면 질문의 맥락을 추출할 수 있습니다. 이는 시험에서 문제를 수집하여 콘텐츠 뱅크에 저장하는 방법을 자동화하는 첫 번째 단계입니다."라고 말합니다.

"Adobe PDF Extract API를 사용하여 질문을 콘텐츠 뱅크로 가져오는 방법을 자동화하면 많은 시간과 비용을 아낄 수 있습니다. 질문을 50,000개 수집할 때마다 2,000일 이상의 수작업 시간을 절약하고, 데이터 입력에 필요한 임시직 근로자의 고용 비용을 지출하지 않아도 됩니다."

Terry Child

Cambridge Assessment 수석 제품 관리자

빠른 속도로 객관식 문제 수집

Cambridge Assessment는 가장 표준화된 시험 문제 유형인 객관식 문제를 대상으로 Adobe PDF Extract API를 테스트했습니다. 각 객관식 문제는 맥락을 가진 질문으로 시작되며, 여기에는 여러 문장, 그림, 표 등이 포함될 수 있습니다. 그 다음에는 질문 프롬프트와 네 가지 가능한 답변이 표시됩니다.

Adobe PDF Extract API는 모든 PDF 정보를 JSON 형식으로 가져오는 동시에, 이미지와 표에 대해 각각 관련 png 및 csv 데이터를 제공합니다. Cambridge Assessment는 JSON 출력에 논리 규칙을 적용하여 각 문제를 맥락, 프롬프트, 응답으로 분리하는 후처리 파이프라인을 만들었습니다.

QTI XML 형식으로 전달하면 주제 전문가가 문제의 오류를 확인하고 메타데이터를 추가하여 테스트 대상, 난이도, 기타 정보에 따라 각 문제를 분류합니다. 마지막으로, 문제는 콘텐츠 뱅크에 저장되어 고객 대면 제품 및 서비스에 사용됩니다.

Adobe PDF Extract API로 작업하기 전에는 지루한 수작업을 통해 콘텐츠 뱅크에 문제를 입력해야 했습니다. 임시직 근로자를 고용하여 문제를 다시 입력하거나 PDF 파일에서 QTI XML 형식 파일로 콘텐츠를 복사하여 붙여넣었습니다. 이러한 프로세스는 오류가 발생하기 쉽고 속도가 느렸습니다.

Child는 "Adobe PDF Extract API를 사용하여 질문을 콘텐츠 뱅크로 가져오는 방법을 자동화하면 많은 시간과 비용을 아낄 수 있습니다. 질문 50,000개를 수집할 때마다 수작업 시간을 2,000일 이상 절약하고, 데이터 입력에 필요한 임시직 근로자의 고용 비용을 지출하지 않아도 되죠. 이렇게 절약한 시간으로 더 많은 문제를 수집해 훨씬 더 풍부한 콘텐츠 뱅크를 구축할 수 있습니다."라고 말합니다.

"우리의 테스트 아카이브에는 활용할 수 있는 방대한 지적 자산이 있습니다. 이 모든 것을 디지털화할 수 있다면 교육자와 학습자를 위한 최고의 리소스를 만들 수 있습니다."

Terry Child

Cambridge Assessment 수석 제품 관리자

160년간 축적된 시험 리소스 활용

Cambridge Assessment는 객관식 문제를 수집하는 것으로 프로젝트를 본격화할 계획입니다. 그러나 Child는 최대한 빨리 단답형이나 주관식 같은 다른 유형의 문제를 가져올 수 있는 규칙 세트를 만들고자 합니다. 또한 과거 시험지를 스캔하여 QTI로 변환하고 콘텐츠 뱅크에 문제를 추가함으로써 160년간 축적된 시험 리소스로부터 더 많은 콘텐츠를 추가하길 원합니다.

현재는 각 문제에 메타데이터를 수작업으로 추가해야 합니다. 하지만 이 역시 향후에는 자동화될 수 있습니다. 콘텐츠 뱅크에 더 많은 문제가 추가되면 Cambridge Assessment는 AI를 학습시켜 문제를 이해하고 적절한 메타데이터를 추가하도록 할 계획입니다. 이 일에 성공하면 AI는 또 다른 자동화 계층을 추가하여 질문 수집에 속도를 더 높일 것입니다.

style

center

풍부한 콘텐츠 뱅크는 향후 폭넓은 CaaS(서비스형 콘텐츠) 제품을 제공하는 견고한 기반이 될 것입니다. 캠브리지 대학 출판사는 교과서나 테스트 및 시험 준비 자료에 사용하기 위해 콘텐츠 뱅크에서 정보를 가져올 수 있습니다. 그뿐만 아니라, 교육자가 전 세계 어디서나 모든 학습 시스템에서 즉시 테스트 및 시험을 생성할 수 있는 셀프서비스 시스템을 만들 수도 있습니다. 이를 통해 교육자는 특정 학교, 교실, 개별 학습자의 니즈에 맞는 개인화된 학습 옵션을 더 쉽게 구현할 수 있습니다.

Child는 "우리의 테스트 아카이브에는 활용할 수 있는 방대한 지적 자산이 있습니다. 이 모든 것을 디지털화할 수 있다면 교육자와 학습자를 위한 최고의 리소스를 만들 수 있습니다. Adobe PDF Extract API는 이러한 프로세스를 자동화하고 더 다양한 테스트 문제에 빠르게 액세스하는 데 필요한 기능을 제공합니다."라고 말합니다.

PDF 파일에서 시험 문제 자동 추출

1858

90%

목표

성과

PDF 서식 및 구조의 정확한 추출

빠른 속도로 객관식 문제 수집

160년간 축적된 시험 리소스 활용

추천 리소스