データサイエンスの分析対象は、自然言語などの非構造化データに広がっている。こうした中、数理科学・情報科学の融合により、金融業務における課題解決に取り組む株式会社三菱UFJトラスト投資工学研究所は、新たな分析対象の一つに上場企業の統合報告書に注目。PDFのテキストデータ抽出ツールとしてAdobe PDF Extract APIを採用した同社の取り組みは、統合報告書のテキストデータ抽出を高速に終え、分析・検証サイクルのスピード向上に貢献している。
PDF ファイルからのテキストデータ抽出に課題を抱える中、MTECにおいて新たに立ち上がったのが、Environment(環境)、Social(社会)、Governance(ガバナンス)の頭文字をとったESG銘柄の評価に関するプロジェクトだった。企業の長期的な成長という観点からも注目されるESGだが、その客観的評価には、数値だけに留まらない、企業の取り組みを知ることに大きな意味を持つ。そこで注目したのは、企業の財務情報に企業統治や社会的責任(CSR)、知的財産などの非財務情報を加えた統合報告書だった。だが、数十ページに及ぶ統合報告書の内容を正しく把握するには、文章構造を維持したテキスト抽出が避けて通れない課題だった。成富氏が情報収集する中で出会ったのは、リリースして間もないAdobe PDF Extract APIだった。
「英語のブログ記事を発見し、そこで紹介されていた例文の抽出精度を見て興味を持ちました。PDFのテキスト認識ツールは複数ありますが、それらの中で唯一文章構造の維持を謳っていたこともあり、アドビさんに相談してAdobe PDF Extract APIのエンタープライズトライアルによる検証を行うことにしました」(成富氏)
アドビ独自のAI・機械学習エンジンAdobe Senseiを利用したAdobe PDF Extract API は、2021年夏の英語版から提供を開始した新しいサービスだ。特に日本語版の場合、MTEC をはじめとするユーザーの利用に基づき、精度向上を図る段階にある。こうした中、MTECはトライアンドエラーを経て、PDFデータをOCR化するなどの独自の運用プロセスを構築し、高精度なテキスト抽出を実現した。
「当初の問題はPDF作成時の仕様に関連する文字化けでしたが、その多くは一度OCR化した上でAdobe PDF Extract APIに送ることで解決できています。当社ではAmazon S3にアップロードしたPDFをAcrobat ProでOCR化し、Adobe PDF Extract APIでテキストを抽出してJSONファイルで出力するという流れで運用しています。OCRは、用意した別フォルダにPDFを入れ、Acrobat Proでフォルダ指定を行うという手順で行っています。今回のテキスト抽出は、OCR化に要した時間を含め高速に処理し、分析・検証サイクルのスピード向上に貢献しています」(成富氏)
JSONファイルで出力されたデータは、成富氏が最小限の整理を行った上で研究員に渡される。
統合報告書だけでなく、多様なPDFファイルからのテキスト抽出に活用
MTECが現在取り組んでいるのは、Adobe PDF Extract APIによるテキスト抽出プロセスの自動化だ。また、統合報告書以外のPDFファイルへの応用も既にスタートしている。