Extração automática de questões de prova
A Cambridge Assessment pretende digitalizar mais de 100 anos de provas com a API Adobe PDF Extract.
90%
de precisão, preservando até mesmo formatações complexas
Objetivos
Fornecer suporte às crescentes necessidades da educação digital
Aproveitar o valor de 160 anos de conteúdo de provas para educadores no mundo inteiro
Automatizar processos de coleta e armazenamento de conteúdo sem perder a precisão
Resultados
Preserva os elementos visuais e a estrutura das questões de prova
90% de precisão, preservando até mesmo formatações complexas
Processa uma prova com 40 questões em apenas 40 segundos
Economiza 2 mil dias de trabalho a cada 50 mil questões processadas, eliminando custos de digitação manual dos dados
Todos os anos, mais de 8 milhões de estudantes em mais de 170 países demonstram o que aprenderam por meio de testes e provas criados e aplicados pela Cambridge Assessment. A organização oferece uma ampla variedade de qualificações, desde AS/A Levels, GCSEs e outros exames voltados para alunos de 5 a 19 anos, até certificações de proficiência em inglês reconhecidas por universidades, empregadores e órgãos governamentais em 130 países.
Os sistemas educacionais mudaram muito desde que a Cambridge Assessment aplicou suas primeiras avaliações em 1858. Mas a forma com que muitos estudantes fazem as provas é a mesma há 160 anos: com papel e lápis.
“Os resultados dos exames da Cambridge Assessment podem ajudar a determinar a entrada em universidades e a qualificação para empregos”, afirma Terry Child, gerente principal de produtos da Cambridge Assessment. “A segurança é nossa maior prioridade. Em muitos aspectos, as provas em papel ainda são um dos métodos mais seguros disponíveis.”
No entanto, a Cambridge Assessment reconhece que esse modelo tradicional de provas em papel está mudando à medida que a educação se torna cada vez mais digital. Hoje, mais escolas e educadores disponibilizam aulas, tarefas e provas em formato digital.
A Cambridge Assessment tem feito um avanço significativo na educação digital ao aproveitar seu vasto histórico e conhecimento em exames. Ao coletar questões de provas anteriores, a empresa está criando um banco de conteúdo com um nível inigualável de material educacional. E os planos para essa base de dados digital são ambiciosos: desde enriquecer o conteúdo de sala de aula até aplicar inteligência artificial (IA) para analisar e compreender o desempenho em provas. Quanto mais dados históricos de provas a Cambridge Assessment adiciona à base de dados digital, mais valioso o serviço se torna para clientes no mundo inteiro.
Embora muitas provas estejam arquivadas em PDF, o processo de extrair questões individuais e inseri-las no banco de conteúdo era, até pouco tempo, muito manual. “Apesar de existirem várias ferramentas no mercado que convertem dados de PDF em strings de texto, tivemos dificuldade em encontrar um método que identificasse a formatação, figuras, tabelas e a estrutura das questões de que precisávamos para criar nossa base de dados”, explica Child. “A API Adobe PDF Extract mudou esse cenário. É a única ferramenta que encontramos capaz de preservar a estrutura das questões e, assim, começar a automatizar a coleta de perguntas.”
“A API Adobe PDF Extract nos permite extrair o contexto de nossas questões. Esse é o primeiro passo rumo à automação da coleta de perguntas das provas para nosso banco de conteúdo.”
Terry Child
Gerente principal de produtos, Cambridge Assessment
Extração precisa da formatação e da estrutura de PDFs
A equipe da Cambridge Assessment utiliza o Java SDK para processar provas em PDF com a API Adobe PDF Extract. A API converte as provas em saída JSON, que depois é pós-processada com código Java personalizado e transformada em QTI XML, o padrão de especificação para sistemas de avaliação eletrônica. Armazenadas nesse formato, as perguntas e respostas podem ser reutilizadas em qualquer sistema compatível.
Embora Child tenha testado outras ferramentas de extração de texto e experimentado diferentes bibliotecas em Python, apenas a API Adobe PDF Extract consegue preservar a formatação visual e a estrutura junto com o texto. Ela distingue entre texto, imagens, figuras e tabelas. Identifica negrito, itálico, subscrito, sobrescrito e símbolos que aparecem com frequência em questões avançadas de matemática.
“Se não conseguimos distinguir algo como o símbolo de potência em uma fórmula matemática, muitas das nossas questões de ciências e matemática se tornam inúteis”, explica Child. “Mesmo uma formatação simples, como o peso da fonte, é crítica. Nossas questões passaram por inúmeros processos de revisão. Se uma palavra está em negrito, é porque uma equipe decidiu que ela era essencial para a compreensão da questão. Captar toda essa formatação faz parte do próprio conteúdo da pergunta.”
A Cambridge Assessment tem observado resultados impressionantes em termos de precisão e velocidade com os testes da API Adobe PDF Extract. “Estamos alcançando taxas de acerto acima de 90% após o pós-processamento com nosso código Java em questões de múltipla escolha usando a API Adobe PDF Extract”, afirma Child. “Conseguimos extrair todas as questões de uma prova com 40 perguntas em apenas 40 a 90 segundos.”
Embora a capacidade de extrair corretamente a formatação de um arquivo PDF seja importantíssima, também é essencial conseguir separar as provas em questões individuais com precisão. A API Adobe PDF Extract fornece as informações necessárias para a Cambridge Assessment identificar onde cada pergunta começa e termina. Com isso, Child desenvolveu um processo automatizado que transforma uma única prova em uma série de questões.
“A API Adobe PDF Extract nos permite extrair o contexto de nossas questões”, diz Child. “Esse é o primeiro passo rumo à automação da coleta de perguntas de provas para nosso banco de conteúdo.”
“Ao usar a API Adobe PDF Extract para automatizar a coleta de questões para nosso banco de conteúdo, vamos poupar mais de 2 mil dias de trabalho a cada 50 mil questões coletadas e eliminar os custos com a contratação de trabalhadores temporários para a digitação de dados.”
Terry Child
Gerente principal de produtos, Cambridge Assessment
Coleta rápida das questões de múltipla escolha
A Cambridge Assessment começou a testar a API Adobe PDF Extract no tipo mais padronizado de questão de prova: a múltipla escolha. Cada questão desse tipo começa com o contexto, que pode incluir afirmações, figuras ou tabelas, seguido pelo enunciado e quatro possíveis respostas.
A API Adobe PDF Extract converte todas as informações do PDF em formato JSON, enquanto fornece os dados associados em .png e .csv para imagens e tabelas, respectivamente. A Cambridge Assessment desenvolveu então um fluxo de pós-processamento que aplica um conjunto de regras lógicas à saída em JSON para separar cada questão em contexto, enunciado e respostas.
Depois de convertidas para o formato QTI XML, especialistas no assunto revisam as questões em busca de erros e adicionam metadados para categorizá-las de acordo com o conteúdo avaliado, o nível de dificuldade e outras informações. Por fim, as questões são armazenadas em um banco de conteúdo, disponível para produtos e serviços voltados a clientes.
Antes de trabalhar com a API Adobe PDF Extract, inserir questões nesse banco era um processo manual e tedioso. A Cambridge Assessment contratava trabalhadores temporários para reescrever as perguntas ou copiar e colar trechos dos PDFs para arquivos em QTI XML. Esse processo manual era lento e sujeito a erros.
“Ao usar a API Adobe PDF Extract para automatizar a coleta de questões para nosso banco de conteúdo, vamos poupar mais de 2 mil dias de trabalho a cada 50 mil questões coletadas e eliminar os custos com a contratação de trabalhadores temporários para a digitação de dados”, afirma Child. “Ao pouparmos tempo, poderemos coletar mais questões e construir um banco de conteúdo muito mais rico.”
“Temos um enorme acervo de propriedade intelectual em nossos arquivos de provas que podemos aproveitar. Se conseguirmos digitalizar tudo, poderemos criar um recurso incomparável para educadores e estudantes.”
Terry Child
Gerente principal de produtos, Cambridge Assessment
Valorização de 160 anos de recursos de avaliação
A Cambridge Assessment começará pela coleta de questões de múltipla escolha, mas Child planeja criar conjuntos de regras para importar outros tipos de perguntas o quanto antes, como perguntas com respostas curtas e dissertativas. Ele também pretende adicionar ainda mais conteúdo dos 160 anos de história em exames da organização, digitalizando provas históricas, convertendo-as para QTI e integrando-as ao banco de conteúdo.
Atualmente, os funcionários precisam adicionar metadados manualmente a cada questão. Mas esse processo também poderá ser automatizado no futuro. À medida que o banco de conteúdo cresce, a Cambridge Assessment pretende treinar a IA para compreender as questões e adicionar os metadados adequados. Se bem-sucedida, a IA adicionará uma nova camada de automação, acelerando ainda mais a coleta de questões.
Esse banco de conteúdo enriquecido abrirá caminho para uma ampla gama de ofertas de conteúdo como serviço no futuro. A Cambridge University Press poderá, por exemplo, usar as informações para desenvolver livros didáticos ou materiais de preparação para provas. Também será possível criar um sistema de autoatendimento em que educadores montem instantaneamente suas próprias provas para qualquer ambiente de aprendizado em qualquer lugar do mundo. Isso ajudaria professores a oferecer opções de aprendizado personalizadas, adaptadas às necessidades de escolas específicas, turmas ou até mesmo de cada estudante individualmente.
“Temos um enorme acervo de propriedade intelectual em nossos arquivos de provas que podemos aproveitar”, afirma Child. “Se conseguirmos digitalizar tudo, poderemos criar um recurso incomparável para educadores e estudantes. A API Adobe PDF Extract nos oferece a funcionalidade necessária para automatizar processos e disponibilizar rapidamente uma maior variedade de questões de provas.”