スプリットテスト

スプリットテスト marquee

用語集:用語

クイック定義

スプリットテストとは、webサイトやデジタルプロパティへのトラフィックを対象として、各訪問者に異なるエクスペリエンスやコンテンツをランダムに割り当て、アクティビティを追跡することで、それぞれのエクスペリエンスが結果にどのような影響を与えたのかを確認することです。

重要ポイント

スプリットテストは、顧客セグメントが様々な変更内容にどのような反応を示すのかを確認することで、顧客体験を効果的に最適化する方法を容易に把握するための方法です。

テストの主な形式には、A/Bテストと多変量分析テストのふたつがあります。

スプリットテストをおこなううえで陥りやすい失敗は、テストが終了する前に、結果を確認することです。

テストを目標や仮説に関連付け、その結果を参考にして修正していく必要があります。

Adobe Targetについて詳しく見る

アドビのパーソナライゼーションに関するプレイブックを見る

スプリットテストに関する様々な疑問に、Kimen Warnerが回答します。Kimenは、Adobe Targetのプロダクトマネジメント担当ディレクターです。OmnitureとAdobeに買収される前から、本製品に携わっています。アドビではテクニカルコンサルタントとして経験を積み、その後、プロダクトマネジメントに移動しました。

スプリットテストとは何ですか?

スプリットテストにはどのようなタイプがありますか?

テスト結果の分析手法は、どのようなものですか?

スプリットテストは、どのように実施すればよいですか?

スプリットテストの結果をどのように活かせばよいですか?

なぜスプリットテストは重要なのですか?

スプリットテストを最適化するにはどうすればよいですか?

スプリットテストを実施するためには、どのようなツールが必要ですか?

スプリットテストを実施する際の課題は何ですか?

スプリットテストにはどのような制限がありますか?

スプリットテストはどのようなチャネルでも実施できますか?

スプリットテストは費用対効果に優れていますか?

スプリットテストはどの程度の頻度で実施すればよいですか?

スプリットテストはSEOに影響しますか?

スプリットテストは今後、どのように進化していきますか?

質問: スプリットテストとは何ですか?

回答: スプリットテストとは、webサイトやモバイルアプリなどのデジタルエクスペリエンスへのトラフィックを対象として、各訪問者を異なるグループにランダムに割り当てることを指します。こうしたグループには、様々なコンテンツやエクスペリエンスが表示されます。目標は、様々なエクスペリエンスを提供し、クリックや購入、ニュースレターの登録など、特定の成果が高まるかどうかや、コンバージョン率が高まるかどうかを確認することです。

質問: スプリットテストにはどのようなタイプがありますか?

回答: 最も一般的なのはA/Bテストと多変量分析テストです。A/Bテストでは、訪問者に表示する様々なエクスペリエンスをそれぞれ手動で指定します。複数のコンテンツの要素をまとめて、ひとつのエクスペリエンスやビューとして表示する場合もあります。A/Bテストは、対象とするエクスペリエンスがふたつと限られているわけではなく、A/B/C/Dなどと、その数を増やすことも可能です。

多変量分析テストでは、様々なコンポーネントを自動的に統合し、最終的なエクスペリエンスを構築します。異なるバージョンの見出しのテキストや様々な画像、色違いのCTAボタンなどをテストできます。それらを個別に作成しておけば、システムが自動的に組み合わせていくつかのバージョンを生成します。

A/Bテストの方がシンプルです。訪問者に表示される様々なエクスペリエンスを確認できます。しかし設定に時間がかかります。テストする対象の数に応じて、あらゆる組み合わせをカバーするために50種類以上のバージョンを作成する場合もあります。

多変量分析テストではプロセスは自動化されます。しかし、多変量分析テストの課題は、各組み合わせのデザインが適切かどうかを確認する必要があることです。例えば、背景の画像が紫色なのに赤いボタンを使用してしまうと見づらくなるので、そのような組み合わせを除外します。

質問: テスト結果の分析手法は、どのようなものですか?

回答: 主にふたつの統計分析手法があります。ひとつ目はスチューデントのt検定、ふたつ目はマルチアームバンディットです。

マルチアームバンディットを利用する大きな利点は、結果をより柔軟に分析できることです。一方、伝統的なスチューデントのt検定は、かなり体系化された分析手法になっています。スチューデントのt検定では、テストに必要なトラフィック量や、テストの実施期間、求められる統計的検定力を事前に把握する必要があります。そうしたあらゆるデータを検討し、計算ツールでサンプルサイズを設定してから、必要なテスト実施期間を把握します。結果を検討するのは、その期間が終わってからにする必要があります。

ビジネスでは、期間終了時にのみ結果を確認することが難しい場合もあります。その要件を忠実に守るためには、統計分析について社内の全員に十分な教育を施す必要があるためです。よくあるのは、1時間後、2時間後、2日後の時点で結果を確認するというケースです。1~2時間後の時点では、テストの結果が悪く見えたり、予算が無駄になっているように見えたりします。しかし、最初の段階では変動が大きく、最終的にサンプルサイズ全体の検証が終わるまで待ってから、結果を検討する必要があります。不適切な検証をおこなったり、実施期間が終了するのを待たなかったりすると、テストが無効になってしまいます。

マルチアームバンディットのアプローチでは、必要なときに結果を確認できます。常に正確な結果を確認できるので、早い段階で結果を確認しても、その結果に悪影響は及びません。

このふたつのテストのもうひとつの違いは、スチューデントのt検定では、テストしたバリエーションそれぞれについて詳細に把握できるという点です。勝者になったバリエーションを確認できるほか、最もパフォーマンスが悪かったバリエーションを確認することもできます。マルチアームバンディットでは、勝者を確認することはできますが、他のバリエーションと比較することはできません。2番目、3番目、4番目にパフォーマンスが高かったバリエーションを把握するのは困難です。勝者を知ることだけが目的の場合は、マルチアームバンディットが最適です。より科学的な手法で各オプションの詳細を把握したい場合は、スチューデントのt検定の方が統計手法として優れています。

質問: スプリットテストは、どのように実施すればよいですか?

回答: ランディングページなど、企業がテスト対象にしたいコンポーネントに訪問者が関心を示し、リクエストが送信された際には、webページに一般的なコンテンツを返すだけでなく、その呼び出しが何らかのテストサービスを経由するようにする必要があります。企業は内部でテストを実施する場合もあれば、サードパーティのスプリットテストツールを使用する場合もあります。

こうしたツールでは、どのような訪問者が対象なのか、そうした訪問者が既にテストに参加しているのかを確認できる必要があります。既にテストに参加している訪問者には、テストの参加履歴にもとづき、引き続き適切なコンテンツを表示します。まだテストに参加していない訪問者に対しては、テストサービスがランダムで割り当てをおこない、コンテンツを返す前に新しいエクスペリエンスを表示します。

テストサービスでは、その後、成果を追跡する必要があります。テストを設定する際は、エンゲージメントへの影響を測定せずにコンテンツを変更することがないように、目標を明確化することが大事です。コンテンツを変更することで、クリックするユーザーが増える、製品を買い物かごに追加する利用者が増える、購入する利用者が増えるなど、最初に仮説を立てる必要があります。そのため、テストサービスには、そうした指標を追跡し、想定した行動を利用者がとっているかを確認してから、そうした行動を表示したエクスペリエンスに再び割り当てられる機能が求められます。

質問: スプリットテストの結果をどのように活かせばよいですか?

回答: 企業はセグメント別のテスト結果を見て、同一の勝者がいるのか、それともセグメントごとに勝者が異なるのかを確認します。それから結果をエクスペリエンスにコーディングし、全セグメントのページを更新するか、セグメントごとに異なるバージョンのページを作成します。

機能とリソースがあるなら、テストをその後も続行して他のパターンを試し、元のページやエクスペリエンスには戻らないようにするのが理想的です。デモグラフィックと環境は変わるので、テストを継続し、可能なら新しいアイデアの創出も続けた方がよいでしょう。

質問: なぜスプリットテストは重要なのですか?

回答: この方法では、最も容易に顧客から量的データを取得できます。顧客に何かを要求する必要はなく、フォーカスグループも不要です。顧客に協力してもらうために、顧客を日常から引き離し、研究室に連れていく必要はありません。A/Bテストでは、いつも通りに企業と接している顧客が対象になります。顧客はそもそもテストが実施されていることに気付きません。

このテストは普通、大規模な変更を加えて効果が出ることを願う場合より、費用対効果が高くなります。また、多くの場合、効果が出ることを願うだけでは、指標を追跡し、変更の影響を確認することが難しくなります。

質問: スプリットテストを最適化するにはどうすればよいですか?

回答: コンテンツに関しては、変更が大規模なほど効果的です。何かの色をティールブルーからロイヤルブルーに変えても、十分な結果は得られません。コンテンツを変更し、ある行動への影響を確かめようとする場合は、その行動からできるだけ近い位置に変更を加えます。つまり、ホームページの画像に変更を加え、そこから10ページ先の購入行動への影響を高めようとしても、追跡することは困難です。分析には様々なノイズが混入します。顧客がコンバージョンに至ることができるページで、変更をテストした方がよいでしょう。

質問: スプリットテストを実施するためには、どのようなツールが必要ですか?

*回答: *まず、社内の優れたアイデアを継続的に追跡できる機能が必要です。これは、社内の様々なスタッフからそうしたアイデアを収集し、どのアイデアを採用するかを確認するのに役立ちます。そのため、ホワイトボードやExcelのスプレッドシートなど、シンプルなものでも構わないので、プロジェクトプランナーが必要です。作業内容を常に追跡する必要があります。それがテストの実施期間と、結果を確認する時期を見きわめる助けになります。

必要となる最も専門的なテストツールは、サイトのトラフィックを実際に分割するツールです。次に、変更内容のパフォーマンスを測定する機能も必要です。パッケージサービスを使用しない場合は、各訪問者に結果を関連付け、結果を正確に検討することが困難になる場合もあります。セッションごとに訪問者の行動を把握して、それを訪問者に提供したコンテンツに関連付ける必要があります。

質問: スプリットテストを実施する際の課題は何ですか?

回答: 最大の問題は、テストが終わる前に上司が結果を確認しようとすることです。こうした上司は2時間後に結果を見て、新しいエクスペリエンスはパフォーマンスが悪いと判断したりします。しかし、ごく短期間では、通常のwebトラフィックの結果を見た場合も含め、どのようなケースでも結果は大きく変動します。そのため、テストが終わる前に結果を見ると、早い段階でプロジェクトが中断され、間違った判断が下される場合があります。

マーケティングに携わる人々は、学術的に統計を学んだことがほとんどないので、間違った結論に至りやすくなります。背景となる知識がなく、テストの完了を待つ重要性を理解していないためです。

従来のA/Bテストの課題は、結果から明らかになるのが平均的なサイト訪問者に最適なものであるということです。しかし、「平均的な」訪問者がいない場合もあります。例えば、ある靴屋に、高級品を好み、300ドルほどの靴を購入する顧客のグループと、数ドルの靴下しか購入しない顧客のグループがいたとします。この場合は、店舗の平均注文額は100ドルになりますが、実際に100ドルで何かを購入する顧客はいません。つまり、テスト結果から、実際には存在しない平均的な顧客のグループに最適なものが見つかる場合があります。データには、複数の山と谷がある可能性があります。

こうしたケースでは、複数の勝者を導き出す分析が必要です。それは具体的には、靴下を購入する顧客に最適なエクスペリエンスの勝者と、靴を購入する顧客に最適なエクスペリエンスの勝者です。これにより、訪問者の購入傾向に合わせて、様々なバージョンのサイトを引き続き表示できます。

質問: スプリットテストにはどのような制限がありますか?

回答: スプリットテストは近視眼的になる場合があります。このテストはひとつの瞬間を切り取っているだけです。各訪問者のデータや差異が大きすぎて、正確に追跡することができないので、カスタマージャーニー全体をテストするのは困難です。

スプリットテストから取得するデータは、すべて質的ではなく量的です。赤いボタンより青いボタンの方が好まれる理由など、テスト結果の理由は把握できません。明らかになるのは、そうなるという事実だけです。企業はこの制限を乗り越えるために、録画セッションや対面でのフォーカスグループ、聞き取り調査など、最も重要度の高い様々なセグメントを対象とした質的なユーザビリティテストとスプリットテストを組み合わせています。

質問: スプリットテストはどのようなチャネルでも実施できますか?

回答: 管理下にないチャネルを除けば、どのようなチャネルでもテストを実施できます。特定のチャネルで、どの程度の管理権限があるかを確認しておく必要があります。例えば、電子メールのテストは手間がかかる場合があります。企業によっては、開封時にテストを実施する場合もあります。電子メールが開封されると、画像が即座に読み込まれ、その画像でテストが実施されるしくみです。しかし、ほとんどの電子メールプロバイダーは、多数のコンテンツをキャッシュしています。そのため、各利用者に違うバージョンの画像を見せることを、確約することはできません。

質問: スプリットテストは費用対効果に優れていますか?

回答: 非常に多くの変数がスプリットテストのROIに影響しますが、実際に変更を適用し、想定より効果が低かった理由を見つける場合よりも費用は低くなります。その時点で、問題を特定できるデータがありません。また、スプリットテストを実施しないと、売上は高まるものの、潜在的にリスクがあるような変更を安心して適用することができません。

質問: スプリットテストはどの程度の頻度で実施すればよいですか?

回答: すべてを自動でテストできれば理想的です。これは実施する変更をすべてテストするということです。しかし現実には、そのように管理するのは不可能です。別のバージョンを作成し、それらすべてを追跡するのは時間がかかります。また、実施するための費用が高くなる恐れもあります。

質問: スプリットテストはSEOに影響しますか?

回答: Googleは明確な答えを示していませんが、一般的には、より適切で優れたエクスペリエンスを構築するためのA/Bテストであれば、問題ないと考えられています。A/Bテストを実施して、意図的にひとつのバージョンを検索エンジンに割り当て、別のバージョンを顧客に提供することで、本当の目的をわかりにくくするような方法は、問題ありとみなされます。

企業は元のサイトに更新を加えないと、SEOの問題が発生する場合があります。顧客の目に触れることのないような古いwebサイトでも、検索エンジンのクローラーはデフォルトのコンテンツを確認できる場合があります。検索エンジンに渡されるwebサイトが、顧客に表示されるサイトと同じものではなくなり、意図的ではなくても、情報隠蔽の問題が生じる場合があります。

質問: スプリットテストは今後、どのように進化していきますか?

回答: 現在、最も大きなトレンドはマルチチャネルへの移行です。従来、企業はwebのみを運営していたので、スプリットテストはwebサイトのみで実施されていました。しかし現在では、モバイルアプリやモバイルweb、デスクトップweb、音声アシスタントなどの新しいチャネルが利用されています。そうした様々なクライアントに対応できる、より一元化された最適化機能が導入されていることが大きな変化です。利用者はそうした様々なデバイスを利用して企業やブランドとやり取りするため、それらのデバイスをまたいでストーリーに一貫性を持たせる必要があります。

また、自動化に向けた動きも継続しています。スプリットテストを手動で実施するのは難しく、時間がかかりすぎます。あらゆるセグメントを作成する必要があります。そのため、企業はそうした作業をマシンラーニング(機械学習)に移行しています。しかし、主要な目標は、特定のタイミングで利用者に表示する最適なものを見きわめることです。そのためには多くの場合、従来のスプリットテストの技術とマシンラーニングの成果を組み合わせ、同時に利用することが求められます。

関連トピックス