クラスター分析:データにもとづくよりスマートな意思決定を実現する方法

Adobe Experience Cloud Team

02-24-2025

小売店でタブレットを持ちながら電話で話している、柄シャツを着た笑顔の男性。周囲には、買い物客11,000人向けにパーソナライズされた季節限定の広告セグメントと、緑色のファッションアイテムを特集したソーシャルメディア投稿

クラスター分析とは、類似するデータを特定して分類すると同時に、データグループ間の相違点を明らかにするための統計的手法です。

ある衣料品小売企業が、購買習慣(頻繁に購入する、季節ごとに購入する、一度だけ購入する)にもとづいて、顧客をグループ化するとします。クラスター分析は、これらのグループを識別し、ターゲティング広告やパーソナライズされたオファーなど、マーケティング戦略をパーソナライズするのに役立ちます。

マーケティングにおけるクラスター分析の目的は、類似の特性を有する消費者をセグメンテーションし、ターゲットオーディエンスを詳細に把握して、マーケティング戦略を調整することです。

この記事の内容:

クラスター分析の定義と仕組み

クラスター分析は、教師なし分類の一種です。事前に定義されたクラス、定義、期待値はありません。これは、観測データをクラスタリングするために使用される、統計データマイニング手法です。

クラスタリングは、サンプルボックスからチョコレートを選別する人に例えることができます。その人は、特定の種類のチョコレートを好むかもしれません。

ボックスの中を確認すると、チョコレートを分類する方法は数多くあることがわかります。例えば、ミルクチョコレートとダークチョコレート、ナッツ入りとナッツなし、ヌガー入りとヌガーなしなどに分類できます。

つまり、特性にもとづいて類似のチョコレートを分類するプロセスが、クラスタリングです。私たちは、常にこうした作業を行っています。

例えば、eコマースプラットフォームでは、予算を重視する人、高級品を購入する人、ときどき閲覧する人など、購買習慣ごとに顧客をグループ化できます。このセグメンテーションにより、同プラットフォームは各グループに合わせたプロモーションを作成し、エンゲージメントや売上を促進できます。

クラスター分析の仕組み

クラスター分析は、データのパターンや関係を把握する主要な手法として、金融、保険、小売、eコマースなど、幅広い分野で導入されています。

クラスタリングには、主に5つの方法があります。最もよく使用されているのは、k平均法と階層的(または階層)クラスタリングです。最適な手法は、分析の対象やその目的に応じて異なります。散布図や樹状図などの図を活用すれば、分析結果を視覚的にわかりやすく提示できます。

データセットをクラスタリングする目的

マーケティングにおけるクラスター分析の一般的な目的は、グループ内の観測データの類似性をできる限り確保しながら、グループまたはクラスターを構築することです。

最終的な目的は、用途に応じて異なります。マーケティングでは、クラスタリングは顧客層において特定の顧客グループを見つけ出すのに役立ちます。この知識を活用して、ターゲットを絞ったマーケティングキャンペーンを作成できます。

例えば、ある保険会社は、クラスタリングを活用して、平均請求コストが高い自動車保険契約者のグループを特定できます。

クラスタリングを行う目的は、企業がクラスタリングをどのように使用するかによって異なります。主に業界、事業部門、企業が達成しようとしている目標に応じて、目的が決定されます。

ビジネス戦略においてクラスター分析が重要な理由

クラスター分析は、製品のマーケティング方法など、企業に様々なメリットをもたらします。

具体的には、製品を誰に売り込むのか、どのような顧客維持戦略やセールス戦略を採用するのか、見込み顧客をどのように評価するのか、といった意思決定に影響を与える可能性があります。

既存顧客をクラスタリングして、離脱傾向と照らし合わせながら顧客生涯価値を判断できるため、様々な顧客とどのようにコミュニケーションするのか、新しい有望な顧客をどのように特定するのかを決定するうえで、有益な情報を得ることができます。

クラスタリングの種類と使用するタイミング

様々な種類のクラスタリングアルゴリズム(パーティショニングアルゴリズム、階層的アルゴリズム、密度ベースアルゴリズム、グリッドベースアルゴリズム、モデルベースアルゴリズム)を表す、横並びの5つの緑色のアイコン

主要なクラスタリングアルゴリズムは、次の5つです。

クラスタリングアルゴリズム
内容
対象
欠点
マーケティングのユースケース
パーティショニングアルゴリズム
パーティショニングアルゴリズム(k平均法クラスタリングなど)は、目的関数を最適化する(例:距離の二乗和を最小化する)ことによって、データセットを定義済みのクラスター数に分割します。
クラスター数が事前にわかっており、クラスターが適切に分離されているデータセットに適しています。
  • 事前にクラスター数を指定する必要がある
  • 複数のサイズや密度を伴うクラスターへの対応が難しい可能性がある
  • 異常値の影響を受けやすい
購入パターンにもとづいて法人顧客を特定のグループに分類し、ターゲットを絞ったB2B子メールキャンペーンやパーソナライズされた製品オファーを実現できます。
階層的アルゴリズム
階層的アルゴリズム(凝集型クラスタリング、分割型クラスタリングなど)は、類似性にもとづいてクラスターを結合または分割することで、クラスターのネストされた階層を構築します。
基盤となるデータが階層構造になっている場合や、クラスター数が不明な場合に役立ちます。
  • 大規模なデータセットでは計算負荷が高い
  • 初期のクラスタリング決定を取り消すことができない
  • ノイズや異常値の影響を受けやすい
ビジネス顧客データを階層構造ごと(業種別、企業規模別など)に整理し、マルチレベルのマーケティング戦略やアカウント管理をパーソナライズできます。
密度ベースアルゴリズム
密度ベースアルゴリズム(DBSCANなど)は、低密度領域によって分離された、データポイントにおける高密度の領域をクラスターとして識別し、任意の形状のクラスターを検出できるようにします。
特にノイズが存在する場合、様々な形状やサイズのクラスターを含むデータセットを効果的に処理できます。
  • パラメーター選択の影響を受けやすい
  • 密度の異なるクラスターや高次元データへの対応が難しい可能性がある
  • 境界点を誤って分類する可能性がある
ノイズの多いトランザクションデータ内で、B2B顧客のエンゲージメントが高いクラスターを検出し、有望なアカウントや、ビジネス活動が集中している地域に対して、マーケティング活動を重点的に実施できます。
グリッドベースアルゴリズム
グリッドベースアルゴリズムは、データスペースをグリッド構造の有限個のセルに分割し、セル内のデータポイントの密度にもとづいてクラスターを識別します。
大規模なデータセットの処理や、高速なクラスタリング方法が必要な場合に、効率的に対応できます。
  • グリッド解像度に大きく依存している
  • 任意の形状のクラスターを取得できないことがある
  • 詳細情報が失われる可能性がある
膨大なB2Bリードデータを迅速にクラスタリングし(例:地域やその他のビジネス属性ごとにクラスタリング)、ターゲットを絞ったセールス活動やマーケティングキャンペーンのホットスポットを特定できます。
モデルベースアルゴリズム
モデルベースアルゴリズムは、確率分布の混合にもとづいてデータが生成されると仮定し、これらの分布のパラメーターを推定することを目的としています。
データ分布を統計分布によって適切にモデル化できるデータセットに適しています。
  • 計算コストが高い
  • モデルを適切に仮定する必要がある
  • 初期条件と潜在的なモデルの誤指定の影響を受けやすい
トランザクションデータにモデル(ガウス混合モデルなど)を適合させることで、B2B顧客をセグメント化し、パーソナライズされたマーケティング戦略を策定するために、特定の購入行動セグメントを見つけ出すことができます。

優れたクラスター分析の特徴

優れたクラスター分析 は、有益かつ実用的な方法でデータを正確にグループ化し、データ内の実際のパターンを特定して、意思決定を促すインサイトを提供します。一方、不適切なクラスター分析 は、問題解決や価値向上のために活用できない、誤解を招くようなグループや恣意的なグループを生み出します。

優れたクラスター分析の特徴は、次のとおりです。

例えば、B2B顧客を購買習慣にもとづいてセグメント化するとします。優れたクラスタリングモデルでは、次のように顧客をグループ化します。

各グループを特定のマーケティング戦略でターゲティングすることで、コンバージョン率や顧客満足度を向上させることができます。

一方、不適切なクラスター分析は、次のような弊害をもたらします。

例えば、マーケティング部門が、企業名の母音数にもとづいて顧客をクラスタリングするとします。これは理論上は可能ですが、ビジネス上の価値がまったくなく、行動、好み、ニーズを予測できません。そのため、セグメンテーションが役に立たず、時間とリソースを浪費することになります。

クラスター分析の欠点と対処方法

欠点
課題
対処方法
恣意的なクラスター数
最適なクラスター数(k)を決定することが難しく、実際のデータ構造が反映されない可能性があります。
エルボー法やシルエットスコアなどのクラスタリング方法を使用して、適切なkを推定します。様々な値を試して、結果を検証しましょう。
異常値やノイズの影響を受けやすい
異常値によってクラスターの形成が歪められ、不正確なグループ化につながる可能性があります。
データを前処理して異常値を識別し、処理します。ノイズに対してより堅牢に対応できる、DBSCANなどの密度ベースのクラスタリングアルゴリズムの使用を検討しましょう。
解釈性が低い
クラスターは、実際のシナリオでは理解したり適用したりするのが難しい場合があります。
関連する特徴量を慎重に選択しましょう。主成分分析(PCA)やt分布型確率的近傍埋め込み法(t-SNE)などのビジュアライゼーション手法を活用して、解釈性を向上させましょう。
クラスターのサイズと密度が不均一
k平均法のようなアルゴリズムでは、同様のサイズと密度のクラスターを想定しますが、これは現実的ではない可能性があります。
様々な形状やサイズのクラスターに対応できる、階層的クラスタリングやガウス混合モデル(GMM)などの代替方法を使用しましょう。
計算の複雑さ
大規模なデータセットをクラスタリングするには、膨大なリソースと時間を要します。
計算効率を向上させるために、グリッドベースまたはサンプリングベースのアプローチを実装しましょう。
ノイズへの過剰適合
モデルがランダムノイズ内のパターンを識別し、不適切なクラスターを生成する可能性があります。
実際のビジネスロジックに対してクラスターを定期的に検証し、ホールドアウトデータセットを使用して過剰適合をテストしましょう。
特徴量選択への依存
不適切な特徴量選択は、誤解を招くクラスターを生み出す可能性があります。
クラスタリングを行う前に、全特徴量選択を実行するか、PCAや線形判別分析(LDA)などの次元削減手法を適用しましょう。

企業は、次の方法を実践することで、クラスタリングの落とし穴を回避できます。

クラスター分析の実行方法

クラスター分析プロセス(分析方法の選択、ケース数の決定、変数の選択、標準化の決定、アルゴリズムの適用、クラスター数の確定)を詳細に示す、6つの緑色の円を含むステップバイステップのフローチャート

ステップ1:分析方法の選択

一般的に、クラスター分析の最初のステップは、データのサイズと変数の種類に応じて分析方法を選択することです。

例えば、階層的クラスタリングは、小規模なデータセットに適しています。一方、k平均法によるクラスタリングは、中規模のデータセットや、クラスター数が事前にわかっている場合に適しています。

大規模なデータセットでは通常、様々な種類の変数を混在させるために、2段階の手順が必要になります。

ステップ2:ケース数の決定

分析方法を決定したら、均質なグループやクラスターに細分化するケース数を選択して、プロセスを開始します。ケース(観察対象)として、分析したいあらゆるテーマ、人物、物体を指定できます。

ステップ3:分析する変数の選択

含める変数を選択します。1,000個、10,000個、25,000個など、変数の数は多岐にわたります。選択した変数の数とタイプに応じて、使用するアルゴリズムのタイプが決まります。

ステップ4:変数の標準化の決定

すべての変数がケース間の距離または類似性に等しく寄与するように、変数を何らかの方法で標準化するかどうかを決定します。ただし、分析は、標準化された変数と標準化されていない変数の両方で実行できます。

ステップ5:選択したアルゴリズムの適用

アプローチは、分析方法ごとに異なります。

ステップ6:クラスター数の確定

最後に、アルゴリズムはグループを形成する方法を選択し、データを表すために必要なクラスター数を決定します。クラスターの類似性を調査し、それに応じて分割します。

クラスター分析結果の活用方法

通常は、クラスタリング方法に関連するビジュアライゼーションを行います。ビジュアライゼーションは、分析結果を検証するための一般的な方法です。k平均法の場合、通常、観測データのグループ間の距離を示すx軸とy軸を使用します。

このようなビジュアライゼーションを使用すれば、グループ化を明確に把握できます。階層的クラスタリングの場合、カットツリーの分割を示すデンドログラムを使用して視覚化します。

クラスター分析が正確であることを確認する方法

まず、クラスターの傾向を評価します。クラスタリングアルゴリズムに取り組む前に、データセットが意味のあるクラスターを形成する可能性があるかどうか、またランダムに分散されているかどうかを確認することが重要です。

一般的な方法の1つは、ホプキンス統計量を使用して、データが均一に分布している可能性を測定することです。値が0に近いほど、データにおけるクラスター傾向が強いことを示唆し、値が0.5付近の場合はランダム性を示します。

さらに、クラスター傾向の視覚的評価(VAT)などのビジュアライゼーションツールは、非類似度マトリックスを並べ替えて、潜在的なクラスターを視覚的に強調するのに役立ちます。これらのテストでデータが自然にグループ化されていることが示された場合は、クラスタリングを続行できます。そうでない場合は、クラスタリングから有益なインサイトを引き出せない可能性があります。

次に、最適なクラスター数を決定します。クラスターが少なすぎると、データが単純化しすぎてしまう可能性があります。一方、クラスターが多すぎると、過剰適合につながる可能性があります。そのため、適切なクラスター数(k)を選択することが重要です。

エルボー法は、よく使用される手法の1つです。クラスター内の二乗和をクラスター数に対してプロットし、クラスタリングのパフォーマンスの向上が横ばいになり始めるポイント(エルボー)を特定します。もう1つの有効な指標は、シルエットスコアです。これは、各データポイントが割り当てられたクラスターが、他のクラスターと比較してどの程度適合しているのかを評価します。シルエットスコアが高いほど、クラスターがより明確で、分離されていることを示します。

さらに、ギャップ統計では、観測されたクラスター内分散を、帰無分布で予想される分散と比較し、ギャップが最大となる場所を強調表示することで、最適なkを特定できます。

最後に、クラスタリング品質を評価します。クラスターが内部的にまとまりがあり、外部的に分離されていることを確認することが重要です。

その主な方法として、-1から1までのシルエット係数が広く使用されています。スコアが1に近いほど、クラスターが適切に定義されていることを意味します。ダン指数は、2つのクラスターの観測データ間の最小距離(クラスター間距離)と、1つのクラスター内の最大距離(クラスター内距離)の比率を計算します。ダン指数の値が高いほど、クラスターの品質が高いことを示します。一方、Davies–Bouldin指数は、各クラスターと最も類似したクラスター間の平均類似度を測定します。値が低いほど、クラスタリング品質が優れていることを示します。

正確なクラスター分析を確実に行うには、次の3つのステップに従う必要があります。

  1. クラスター傾向の評価:統計テスト(ホプキンス統計量など)とビジュアライゼーションツール(VATなど)を使用して、データが自然にクラスターを形成するかどうかを判断します。
  2. 最適なクラスター数の決定:エルボー法、シルエットスコア、ギャップ統計などの方法を使用して、過度な単純化や過剰適合を回避することで、適切なクラスター数(k)を特定します。
  3. クラスタリング品質の評価:シルエット係数、ダン指数、Davies–Bouldin指数などの指標を使用して、クラスターがコンパクトで適切に分離されていることを確認します。

クラスター分析を始める

クラスター分析の大きな利点の1つは、データのパターンや関係を明らかにし、リアルタイムのインサイトにもとづいて的確な意思決定を行い、行動できることです。

クラスター分析を始める最初のステップは、データを効果的に分析および解釈するのに役立つ、実績のあるツールを導入することです。

Adobe Analyticsなら、リアルタイムでデータを分析し、インサイトへと転換できます。カスタマージャーニーの各段階でデータを収集し、リアルタイムのインサイトを獲得することで、最適な施策を導き出すことができます。AIを使用して、包括的なデータにもとづいた予測的なインサイトを獲得し、データをリアルタイムで視覚化および活用できます。

Adobe Analyticsの詳細については、アドビの担当者までお問い合わせいただくか、動画をご覧ください。

関連トピックス

https://business.adobe.com/fragments/resources/cards/thank-you-collections/analytics