クラスター分析とは、類似するデータを特定して分類すると同時に、データグループ間の相違点を明らかにするための統計的手法です。
ある衣料品小売企業が、購買習慣(頻繁に購入する、季節ごとに購入する、一度だけ購入する)にもとづいて、顧客をグループ化するとします。クラスター分析は、これらのグループを識別し、ターゲティング広告やパーソナライズされたオファーなど、マーケティング戦略をパーソナライズするのに役立ちます。
マーケティングにおけるクラスター分析の目的は、類似の特性を有する消費者をセグメンテーションし、ターゲットオーディエンスを詳細に把握して、マーケティング戦略を調整することです。
この記事の内容:
- クラスター分析の定義と仕組み
- データセットをクラスタリングする目的
- ビジネス戦略においてクラスター分析が重要な理由
- クラスタリングの種類と使用するタイミング
- 優れたクラスター分析の特徴
- クラスター分析の欠点と対処方法
- クラスター分析の実行方法
- クラスター分析結果の活用方法
- 施策につながる正確なクラスター分析結果を得る方法
- クラスター分析を始めるための手順
クラスター分析の定義と仕組み
クラスター分析は、教師なし分類の一種です。事前に定義されたクラス、定義、期待値はありません。これは、観測データをクラスタリングするために使用される、統計データマイニング手法です。
クラスタリングは、サンプルボックスからチョコレートを選別する人に例えることができます。その人は、特定の種類のチョコレートを好むかもしれません。
ボックスの中を確認すると、チョコレートを分類する方法は数多くあることがわかります。例えば、ミルクチョコレートとダークチョコレート、ナッツ入りとナッツなし、ヌガー入りとヌガーなしなどに分類できます。
つまり、特性にもとづいて類似のチョコレートを分類するプロセスが、クラスタリングです。私たちは、常にこうした作業を行っています。
例えば、eコマースプラットフォームでは、予算を重視する人、高級品を購入する人、ときどき閲覧する人など、購買習慣ごとに顧客をグループ化できます。このセグメンテーションにより、同プラットフォームは各グループに合わせたプロモーションを作成し、エンゲージメントや売上を促進できます。
クラスター分析の仕組み
クラスター分析は、データのパターンや関係を把握する主要な手法として、金融、保険、小売、eコマースなど、幅広い分野で導入されています。
クラスタリングには、主に5つの方法があります。最もよく使用されているのは、k平均法と階層的(または階層)クラスタリングです。最適な手法は、分析の対象やその目的に応じて異なります。散布図や樹状図などの図を活用すれば、分析結果を視覚的にわかりやすく提示できます。
データセットをクラスタリングする目的
マーケティングにおけるクラスター分析の一般的な目的は、グループ内の観測データの類似性をできる限り確保しながら、グループまたはクラスターを構築することです。
最終的な目的は、用途に応じて異なります。マーケティングでは、クラスタリングは顧客層において特定の顧客グループを見つけ出すのに役立ちます。この知識を活用して、ターゲットを絞ったマーケティングキャンペーンを作成できます。
例えば、ある保険会社は、クラスタリングを活用して、平均請求コストが高い自動車保険契約者のグループを特定できます。
クラスタリングを行う目的は、企業がクラスタリングをどのように使用するかによって異なります。主に業界、事業部門、企業が達成しようとしている目標に応じて、目的が決定されます。
ビジネス戦略においてクラスター分析が重要な理由
クラスター分析は、製品のマーケティング方法など、企業に様々なメリットをもたらします。
具体的には、製品を誰に売り込むのか、どのような顧客維持戦略やセールス戦略を採用するのか、見込み顧客をどのように評価するのか、といった意思決定に影響を与える可能性があります。
既存顧客をクラスタリングして、離脱傾向と照らし合わせながら顧客生涯価値を判断できるため、様々な顧客とどのようにコミュニケーションするのか、新しい有望な顧客をどのように特定するのかを決定するうえで、有益な情報を得ることができます。
クラスタリングの種類と使用するタイミング

主要なクラスタリングアルゴリズムは、次の5つです。
- パーティショニングアルゴリズム
- 階層的アルゴリズム
- 密度ベースアルゴリズム
- グリッドベースアルゴリズム
- モデルベースアルゴリズム
- 事前にクラスター数を指定する必要がある
- 複数のサイズや密度を伴うクラスターへの対応が難しい可能性がある
- 異常値の影響を受けやすい
- 大規模なデータセットでは計算負荷が高い
- 初期のクラスタリング決定を取り消すことができない
- ノイズや異常値の影響を受けやすい
- パラメーター選択の影響を受けやすい
- 密度の異なるクラスターや高次元データへの対応が難しい可能性がある
- 境界点を誤って分類する可能性がある
- グリッド解像度に大きく依存している
- 任意の形状のクラスターを取得できないことがある
- 詳細情報が失われる可能性がある
- 計算コストが高い
- モデルを適切に仮定する必要がある
- 初期条件と潜在的なモデルの誤指定の影響を受けやすい
優れたクラスター分析の特徴
優れたクラスター分析 は、有益かつ実用的な方法でデータを正確にグループ化し、データ内の実際のパターンを特定して、意思決定を促すインサイトを提供します。一方、不適切なクラスター分析 は、問題解決や価値向上のために活用できない、誤解を招くようなグループや恣意的なグループを生み出します。
優れたクラスター分析の特徴は、次のとおりです。
- 現実世界での有用性:クラスターは、行動、好み、施策につながる特性における、有意義な相違と一致しています。
- 明確なグループ化:各クラスターは明確に区別されているため、簡単に解釈して適用できます。
- 一貫性:同じ入力データでは、毎回同様のクラスターが生成されるはずです。
- スケーラビリティ:データセットが拡大しても、クラスター分析を効果的に実行できます。
- 施策につながるインサイト:クラスターは、マーケティング、製品開発、運用の明確な方向性を示します。
例えば、B2B顧客を購買習慣にもとづいてセグメント化するとします。優れたクラスタリングモデルでは、次のように顧客をグループ化します。
- 大量購入の顧客:大量購入割引や優先サービスが必要な顧客
- 季節限定の顧客:期間限定のプロモーションに反応する顧客
- 購入頻度の低い顧客:ナーチャリングやエデュケーションを強化する必要がある顧客
各グループを特定のマーケティング戦略でターゲティングすることで、コンバージョン率や顧客満足度を向上させることができます。
一方、不適切なクラスター分析は、次のような弊害をもたらします。
- 恣意的なクラスター:グループは意味のあるパターンを表しません。
- 分離が不十分:複数のクラスターが重複しすぎていて役に立ちません。
- 過剰適合:モデルは、存在しないパターンを強制的に適用します。
- 一貫性のない結果:同じ分析を複数回実行すると、異なるクラスターが生成されます。
- ビジネス用途に対応できない:クラスターは、有益な質問に答えることができません。
例えば、マーケティング部門が、企業名の母音数にもとづいて顧客をクラスタリングするとします。これは理論上は可能ですが、ビジネス上の価値がまったくなく、行動、好み、ニーズを予測できません。そのため、セグメンテーションが役に立たず、時間とリソースを浪費することになります。
クラスター分析の欠点と対処方法
企業は、次の方法を実践することで、クラスタリングの落とし穴を回避できます。
- 結果の検証:クラスターを実際のデータと比較し、実用的な意味があることを確認します。
- 複数のアルゴリズムのテスト:様々なクラスタリング方法をテストし、データに最適なものを特定します。
- 定期的な更新:データの変化に伴い、精度を維持するためにクラスタリング分析を定期的に更新します。
- 専門分野の知識の活用:クラスターが有意義かつ実行可能であることを確認するために、各分野の専門家と協力します。
クラスター分析の実行方法

ステップ1:分析方法の選択
一般的に、クラスター分析の最初のステップは、データのサイズと変数の種類に応じて分析方法を選択することです。
例えば、階層的クラスタリングは、小規模なデータセットに適しています。一方、k平均法によるクラスタリングは、中規模のデータセットや、クラスター数が事前にわかっている場合に適しています。
大規模なデータセットでは通常、様々な種類の変数を混在させるために、2段階の手順が必要になります。
ステップ2:ケース数の決定
分析方法を決定したら、均質なグループやクラスターに細分化するケース数を選択して、プロセスを開始します。ケース(観察対象)として、分析したいあらゆるテーマ、人物、物体を指定できます。
ステップ3:分析する変数の選択
含める変数を選択します。1,000個、10,000個、25,000個など、変数の数は多岐にわたります。選択した変数の数とタイプに応じて、使用するアルゴリズムのタイプが決まります。
ステップ4:変数の標準化の決定
すべての変数がケース間の距離または類似性に等しく寄与するように、変数を何らかの方法で標準化するかどうかを決定します。ただし、分析は、標準化された変数と標準化されていない変数の両方で実行できます。
ステップ5:選択したアルゴリズムの適用
アプローチは、分析方法ごとに異なります。
- k平均法によるクラスタリングの場合、クラスター数を選択すると、クラスタリングアルゴリズムはクラスター平均を繰り返し推定し、クラスター平均までの距離が最小となるクラスターに、各ケースを割り当てます。
- 階層的クラスタリングの場合、2つのケースがどれだけ離れているか、またはどれだけ類似しているかを定量化する統計を選択します。
ステップ6:クラスター数の確定
最後に、アルゴリズムはグループを形成する方法を選択し、データを表すために必要なクラスター数を決定します。クラスターの類似性を調査し、それに応じて分割します。
クラスター分析結果の活用方法
通常は、クラスタリング方法に関連するビジュアライゼーションを行います。ビジュアライゼーションは、分析結果を検証するための一般的な方法です。k平均法の場合、通常、観測データのグループ間の距離を示すx軸とy軸を使用します。
このようなビジュアライゼーションを使用すれば、グループ化を明確に把握できます。階層的クラスタリングの場合、カットツリーの分割を示すデンドログラムを使用して視覚化します。
クラスター分析が正確であることを確認する方法
まず、クラスターの傾向を評価します。クラスタリングアルゴリズムに取り組む前に、データセットが意味のあるクラスターを形成する可能性があるかどうか、またランダムに分散されているかどうかを確認することが重要です。
一般的な方法の1つは、ホプキンス統計量を使用して、データが均一に分布している可能性を測定することです。値が0に近いほど、データにおけるクラスター傾向が強いことを示唆し、値が0.5付近の場合はランダム性を示します。
さらに、クラスター傾向の視覚的評価(VAT)などのビジュアライゼーションツールは、非類似度マトリックスを並べ替えて、潜在的なクラスターを視覚的に強調するのに役立ちます。これらのテストでデータが自然にグループ化されていることが示された場合は、クラスタリングを続行できます。そうでない場合は、クラスタリングから有益なインサイトを引き出せない可能性があります。
次に、最適なクラスター数を決定します。クラスターが少なすぎると、データが単純化しすぎてしまう可能性があります。一方、クラスターが多すぎると、過剰適合につながる可能性があります。そのため、適切なクラスター数(k)を選択することが重要です。
エルボー法は、よく使用される手法の1つです。クラスター内の二乗和をクラスター数に対してプロットし、クラスタリングのパフォーマンスの向上が横ばいになり始めるポイント(エルボー)を特定します。もう1つの有効な指標は、シルエットスコアです。これは、各データポイントが割り当てられたクラスターが、他のクラスターと比較してどの程度適合しているのかを評価します。シルエットスコアが高いほど、クラスターがより明確で、分離されていることを示します。
さらに、ギャップ統計では、観測されたクラスター内分散を、帰無分布で予想される分散と比較し、ギャップが最大となる場所を強調表示することで、最適なkを特定できます。
最後に、クラスタリング品質を評価します。クラスターが内部的にまとまりがあり、外部的に分離されていることを確認することが重要です。
その主な方法として、-1から1までのシルエット係数が広く使用されています。スコアが1に近いほど、クラスターが適切に定義されていることを意味します。ダン指数は、2つのクラスターの観測データ間の最小距離(クラスター間距離)と、1つのクラスター内の最大距離(クラスター内距離)の比率を計算します。ダン指数の値が高いほど、クラスターの品質が高いことを示します。一方、Davies–Bouldin指数は、各クラスターと最も類似したクラスター間の平均類似度を測定します。値が低いほど、クラスタリング品質が優れていることを示します。
正確なクラスター分析を確実に行うには、次の3つのステップに従う必要があります。
- クラスター傾向の評価:統計テスト(ホプキンス統計量など)とビジュアライゼーションツール(VATなど)を使用して、データが自然にクラスターを形成するかどうかを判断します。
- 最適なクラスター数の決定:エルボー法、シルエットスコア、ギャップ統計などの方法を使用して、過度な単純化や過剰適合を回避することで、適切なクラスター数(k)を特定します。
- クラスタリング品質の評価:シルエット係数、ダン指数、Davies–Bouldin指数などの指標を使用して、クラスターがコンパクトで適切に分離されていることを確認します。
クラスター分析を始める
クラスター分析の大きな利点の1つは、データのパターンや関係を明らかにし、リアルタイムのインサイトにもとづいて的確な意思決定を行い、行動できることです。
クラスター分析を始める最初のステップは、データを効果的に分析および解釈するのに役立つ、実績のあるツールを導入することです。
Adobe Analyticsなら、リアルタイムでデータを分析し、インサイトへと転換できます。カスタマージャーニーの各段階でデータを収集し、リアルタイムのインサイトを獲得することで、最適な施策を導き出すことができます。AIを使用して、包括的なデータにもとづいた予測的なインサイトを獲得し、データをリアルタイムで視覚化および活用できます。
Adobe Analyticsの詳細については、アドビの担当者までお問い合わせいただくか、動画をご覧ください。
関連トピックス
https://business.adobe.com/fragments/resources/cards/thank-you-collections/analytics