さらに発展したスマートタグのトレーニングエクスペリエンス（Tech Blog）

最近のコンピューターによる画像認識テクノロジーの進歩に伴い、自動の画像タグ付けシステムはどこにでも存在するようになりました。Adobe Experience Managerも長きにわたって…

マップ中程度の精度で自動的に生成された説明

イントロダクション

最近のコンピューターによる画像認識テクノロジーの進歩に伴い、自動の画像タグ付けシステムはどこにでも存在するようになりました。Adobe Experience Managerも長きにわたって（Ver. 6.3～）、通称スマートタグと呼ばれる機械学習の予測を使った、画像の自動のタグ付け機能を提供しています。スマートタグはAdobe Senseiを搭載し、何百万ものAdobe Stock画像を対象に広範にトレーニングされたタグ予測モデルを特徴としています。事前に学習された一般的な画像タグ付けに加えて、Adobe Experience Managerのユーザーが独自のカスタムタグ予測モデルを作成できる仕組みも備えています。「拡張スマートタグ」として知られるこの機能は、ユーザーのビジネス固有の語彙による、カスタムなタグ要件に対応した予測モデルを作成するために、広く使用されています。

モチベーションを高める要因

今回の変更を行った目的は、スマートタグのトレーニングプロセスにおいて、よりリッチなユーザー体験を提供することでした。今回の改善によりトレーニングプロセスは非常にインタラクティブなものになっています。大きくは次の2つの点が改善されています。

学習モデルの構成要素であるタグとそのサンプル画像を可視化するための、新しいユーザーインターフェースを追加されました。
ユーザーはトレーニングの進捗状況について、完了したか失敗したか、または進行中なのかなど、常にフィードバックを得ることができるようになりました。

もう一つの目的はトレーニングプロセス自体をより効率的に、そして予想される利用傾向に沿ったものにすることでした。改善点は基本的に2つあります。

トレーニングジョブは何時間も実行するのではなく、迅速に完了することが望ましい。
同時に、処理中にシステムに負荷がかからないようにする必要がある。

ユーザーが1つのトレーニングジョブで膨大な数のタグやサンプルを送信した場合、その処理は計算量が多いために実行待ちのジョブがキューにたまってしまいます。ジョブが処理されるまでに長い時間待たされる可能性があり、トレーニングの効率が低下する可能性があります。

何が改善されたの？

最新の「拡張スマートタグ」機能の改善により、トレーニングプロセスがより効率的かつ迅速になりました。トレーニングジョブを送信する際には、システムに負荷がかかるのを防ぐためにガードレールを追加しています。このサービスでは比較的遅いデータベースアクセスよりも高速なアクセスを行うために、Redisベースのキャッシュを採用しています。以下は、トレーニングプロセスの効率性の向上を評価するために行われたベンチマークテストからの統計です。

トレーニングスピードが5倍に向上
計算リソースの利用効率が33%向上
データベースへのアクセスが45%減少

これに加えて、カスタムタグ予測モデルの作成とトレーニングがこれまで以上に簡単になりました。Adobe Experience Managerは非常に直感的なビジュアルユーザー体験を特徴としており、ガイド付きのステップと迅速なフィードバックにより、ユーザーが効果的なカスタム予測モデルを作成するのを支援します。その仕組みを見てみましょう。

タグ学習モデルの定義

最初のステップは、タグの学習モデルを定義することです。その前に、学習モデルとは何かを理解しておきましょう。簡単に言うと、それは画像タグの山と学習されたサンプルから構成されるものであり、それらはシステムが画像のタグの適用可否を学習するのに役立ちます。タグを予測しながらアルゴリズムの有効性を確保するためには、タグの首尾一貫したグループとそれを表現するための適切なサンプルのセットを選択することが重要です。

トレーニングモデルを作成するためにAdobe Experience Manager as a Cloud Serviceで新たに追加された、視覚的なエクスペリエンスでは、ユーザーのタグライブラリからタグを選択することが可能になりました。

「ナビゲーション」 - 「アセット」 - 「スマートタグのトレーニング」

アセット配下に表示された「スマートタグのトレーニング」アイコン

スマートタグのトレーニング画面（タイトルと説明、タグの選択）

スマートタグのトレーニング画面 - 最初にトレーニングの概要とタグを設定します。

スマートタグのトレーニング画面（タグの選択ダイアログ）

学習させるタグを既存のタグから選択します。こちらの例では「Football Shoes」、「Basketball Shoes」を選択しています。

以下に、効果的なトレーニングモデルを作成するためのガイドラインをいくつか紹介します。

一貫したタググループの選択

一般的に、カスタム予測モデルは首尾一貫したタグを持つ画像を使って学習すると、より効果的です。一般的なレベルでは似ているように見えるものの、微妙に識別可能な違いがある画像を使って予測モデルをトレーニングすることが、より有効に機能します。このようなタググループの例としては、様々なタイプのスポーツシューズの画像があげられます。例えば、フットボールシューズ、バスケットボールシューズ、ランニングシューズなどの組合せは首尾一貫したタグのグループを形成することができますが、フットボールシューズはスパイクがあり、ボールをコントロールのために最適化されているのに対し、バスケットボールシューズは横方向のサポートとジャンプの衝撃を軽減するために設計されています。

Football Shoes（出典：Adobe Stock）

Basketball Shoesのイラスト

Basketball Shoes（出典：Adobe Stock）

さらに別の種類のグループ化としては、異なる角度で撮影した同じオブジェクトの画像をグループ化することがあげられます。例えば、自動車のフロントビュー、トップビュー、サイドビューのタグは、このようなグループを形成することができます。

複数の角度から撮影した自動車の画像

適切なトレーニングセットを選択する

適切なトレーニング画像の組合せを選択することは、予測モデルの有効性を確保するために非常に重要な点です。トレーニングに使用する画像で重要な点は以下の通りです。

良好な画像品質。ぼやけたり歪んだりしていない。
タグの画像サンプルの中において、視覚的に首尾一貫していること。
網羅性。予測モデルがタグに対して可能性のある様々な画像を見てきたことを確認するために
焦点が明確であること。対象物から焦点をそらす様な 障害物が少ないこと。

以下の画像はこれらの基準の1つ以上を満たしていない、モデル学習にはあまり効果的ではない画像の例です。

Image for post

トレーニングモデルを作成するための共通のインターフェースを提供するだけでなく、ガイド付きのトレーニングモデル作成機能により、膨大なアセットリポジトリの中から適切なトレーニングイメージのセットを非常に簡単に見つけることができます。アセットリポジトリに散らばっているかもしれない適切な画像を検索して選択する機能を提供します。

スマートタグのトレーニング画面（アセットの選択）

スマートタグのトレーニング画面 - 学習対象として選んだタグとセットになる画像を選択します。

スマートタグのトレーニング画面（画像の選択ダイアログ）

こちらの例では「Basketball Shoes」のタグに紐づく画像を選択しています。

予測モデルをトレーニングするためのタグとサンプルの組合せを選択した後の、次の論理的なステップは、トレーニングのためにそれをシステムに提出することです。通常、ユーザーはトレーニングが開始された後すぐにこの活動の進捗を見ることを期待しています。新しいモデルのトレーニングエクスペリエンスでは、トレーニングステップの進行をユーザーが利用できるようになっています。

スマートタグのトレーニングの一覧画面

フロー図：スマートタグのトレーニングプロセス

トレーニングプロセスのステップ

典型的なトレーニングステップの以下の通りに進行します。

新規
保留中
進行中
完了または不合格

トレーニングのステータス（処理中）

スマートタグの実行

タグモデルがトレーニングされたら、次は画像に自動的にタグを付けるためタグモデルを実行に移す時です。アセットをスマートにタグ付けすることで、検索エクスペリエンスが大幅に向上します。あらゆるタイプの靴が保存された画像のリポジトリを考えてみましょう。例えば、「boots」だけに興味があるとします。そのためには、アセットを検索する際に検索キーワードとして「boots」を入力します。スマートタグ機能により「boots」タイプのすべての靴が自動的にタグ付けされて検索結果に表示されるため、検索エクスペリエンスを大幅に向上させることができます。

キーワード「boots」の検索結果サンプル 改善されたスマートタグによる検索

次に待っているものは？

今後のAdobe Experience Managerのスマートタグの拡張機能として、非常に有用な領域がいくつかあります。例えば、タグを予測する際に予測モデルに特異性を導入することです。これは、予測されるタグの品質と特異性に大きな影響を与える可能性があります。例えば、メインの色を検出するモデルではメインの色で画像にタグを付けるのに適していますし、顔認識モデルは顔の特徴や表情を認識するのに適しています。また、Adobe Experience Managerには、ユーザーの要求に基づいてこれらのモデルをカスタマイズする機能が組み込まれているため、将来的に実現される可能性のある興味深いユースケースがたくさんあります。

スマートタグ機能の詳細については、こちらのドキュメントをご覧ください。

この記事は2020年12月に公開された Introducing an Improved AEM Smart Tags Training Experience を抄訳したものです。

Title

さらに発展したスマートタグのトレーニングエクスペリエンス（Tech Blog）

CardDate

2021-04-01

CardImage

CardImageAltText

マップ中程度の精度で自動的に生成された説明 card image

CardDescription

primaryTag

caas:content-type/blog