Cluster-Analysen – Leitfaden für intelligentere datengestützte Entscheidungen.

Adobe Experience Cloud Team

02-24-2025

Ein lächelnder Mann mit einem gemusterten Hemd telefoniert in einem Geschäft und hat ein Tablet in der Hand. Grafikelemente zeigen ein personalisiertes Anzeigensegment mit 11.000 saisonalen Einkäuferinnen und Einkäufern und Social-Media-Posts mit grünen Modeartikeln.

Cluster-Analysen sind ein statistisches Verfahren zur Ermittlung und Gruppierung ähnlicher Datenpunkte, während gleichzeitig Unterschiede zwischen den Gruppen hervorgehoben werden.

Stellt euch einen Bekleidungseinzelhändler vor, der die Kundschaft basierend auf Kaufgewohnheiten in regelmäßige, saisonale und erstmalige Käuferinnen und Käufer gruppiert. Mit Cluster-Analysen können Unternehmen solche Gruppen identifizieren und Marketing-Strategien zuschneiden, von zielgerichteten Anzeigen bis zu personalisierten Angeboten.

Im Marketing besteht das Ziel von Cluster-Analysen darin, Verbraucherinnen und Verbraucher in verschiedene Gruppen mit ähnlichen Eigenschaften zu segmentieren, damit Unternehmen ihre Zielgruppe besser verstehen und Marketing-Strategien entsprechend anpassen können.

Inhalt:

Was sind Cluster-Analysen und wie funktionieren sie?

Cluster-Analysen sind eine Art unbeaufsichtigte Klassifizierung, das heißt, es gibt keine vorab festgelegten Klassen, Definitionen oder Erwartungen. Es handelt sich um eine statistische Data-Mining-Technik, mit der Beobachtungen in einem Cluster zusammengefasst werden, die einander ähnlich sind, sich aber von anderen Beobachtungen unterscheiden.

Eine Person, die die Schokolade aus einer gemischten Probierpackung sortiert, ist ein schönes Bild für Clustering. Vielleicht mag die Person bestimmte Arten von Schokolade besonders gerne.

Beim Durchsehen der Packung gibt es verschiedene Möglichkeiten, die Schokolade zu gruppieren. Beispielweise sind Gruppen wie Milchschokolade oder dunkle Schokolade, mit oder ohne Nüsse, mit oder ohne Nougat usw. möglich.

Der Vorgang, diese Süßigkeiten basierend auf bestimmten Eigenschaften in Gruppen zu unterteilen, heißt Clustering. Wir tun das regelmäßig.

Eine E-Commerce-Plattform kann Kundinnen und Kunden beispielsweise nach folgenden Kaufgewohnheiten gruppieren: budgetbewusste Käuferinnen und Käufer, Käuferinnen und Käufer von Premiumprodukten und Gelegenheitskäuferinnen und -käufer. Durch diese Segmentierung kann die Plattform maßgeschneiderte Promotions für jede Gruppe erstellen und so die Interaktionen und den Umsatz erhöhen.

Cluster-Analysen verstehen.

Cluster-Analysen spielen bei Datenanalysen eine wichtige Rolle. Kein Wunder, dass sie in Branchen wie Finanzdienstleistungen, Versicherungen, Einzelhandel und im E-Commerce und Marketing genutzt werden, um Muster und Beziehungen in Daten zu ermitteln.

Es gibt fünf wichtige Clustering-Ansätze. Die häufigsten sind k-Means-Clustering und hierarchisches Clustering (auch Hierarchie-Clustering). Der Clustering-Ansatz, für den sich ein Unternehmen entscheidet, hängt davon ab, was analysiert wird und warum. Mit Visualisierungstechniken wie Punktwolken und Dendrogrammen können Unternehmen Ergebnisse von Cluster-Analysen bequem auf klare und verständliche Weise präsentieren.

Welchen Zweck hat Clustering von Datensätzen?

Der allgemeine Zweck von Cluster-Analysen im Marketing besteht in der Erstellung von Gruppen bzw. Clustern, deren Mitglieder sich hinsichtlich der gemachten Beobachtungen so wenig wie möglich unterscheiden.

Am Ende hängt der Zweck immer vom jeweiligen Use Case ab. Im Marketing können Marketing-Fachleute mit Clustering bestimmte Kundengruppen aus dem Kundenstamm identifizieren. Mit diesem Wissen können sie dann zielgerichtete Marketing-Kampagnen entwickeln.

So kann ein Versicherungsunternehmen mit Clustering beispielsweise Personen mit Kraftfahrzeugversicherungen ermitteln, die hohe Schadensansprüche verursachen.

Der Zweck beim Clustering hängt davon ab, wie ein Unternehmen es einsetzen möchte, was stark von der Branche, dem Geschäftsbereich und den Zielen des Unternehmens abhängt.

Warum sind Cluster-Analysen wichtig für die Unternehmensstrategie?

Cluster-Analysen können Unternehmen viele Vorteile bringen, zum Beispiel bei der Vermarktung ihrer Produkte.

Sie können beeinflussen, an wen die Produkte vermarktet werden, welche Bindungs- und Vertriebsstrategien zum Einsatz kommen und wie potenzielle Kundschaft bewertet wird.

So können aktuelle Kundinnen und Kunden in Cluster zusammengefasst werden, um ihren Lebenszeitwert relativ zu ihrer Abwanderungstendenz zu bestimmen. Daraus wird dann abgeleitet, wie die Kommunikation mit unterschiedlichen Kundengruppen aussehen sollte und wie neue hochwertige Kundschaft identifiziert wird.

Welche Arten von Clustering gibt es und wann werden sie eingesetzt?

Reihe mit fünf grünen Symbolen für die verschiedenen Arten von Clustering-Algorithmen: Partitionierung, hierarchisch, dichtebasiert, gitterbasiert und modellbasiert

Es gibt fünf verschiedene wichtige Clustering-Algorithmen:

Clustering-Algorithmus
Beschreibung
Empfohlen für
Nachteile
Use Case im Marketing
Partitionierungsalgorithmen
Partitionierungsalgorithmen wie das k-Means-Clustering teilen die Datensätze durch Optimierung einer Zielfunktion in eine vordefinierte Anzahl von Clustern auf (z. B. um die quadrierte euklidische Distanz zu minimieren).
Geeignet für Datensätze, in denen die Anzahl der Cluster im Voraus bekannt ist und die Cluster klar voneinander getrennt sind.
  • Erfordert die vorherige Festlegung der Cluster-Anzahl.
  • Kann bei Clustern variierender Größe und Dichte zu Problemen führen.
  • Anfällig für Ausreißer.
Segmentierung der Unternehmenskundschaft in unterschiedliche Gruppen basierend auf Kaufmustern zur Ermöglichung von zielgerichteten B2B-E-Mail-Kampagnen und personalisierten Produktangeboten.
Hierarchische Algorithmen
Hierarchische Algorithmen wie agglomeratives und divisives Clustering erstellen eine verschachtelte Cluster-Hierarchie durch Zusammenführung oder Aufteilung von Clustern basierend auf Ähnlichkeiten.
Hilfreich, wenn die zugrunde liegenden Daten eine hierarchische Struktur aufweisen oder die Anzahl der Cluster nicht bekannt ist.
  • Bei großen Datensätzen berechnungsintensiv.
  • Frühe Clustering-Entscheidungen können nicht mehr zurückgenommen werden.
  • Anfällig für Rauschen und Ausreißer.
Organisation von Geschäftskundendaten in einer hierarchischen Struktur (z. B. erst nach Branche, dann nach Unternehmensgröße), um Multi-Level-Marketing-Strategien und das Account-Management maßzuschneidern.
Dichtebasierte Algorithmen
Bei dichtebasierten Algorithmen wie DBSCAN sind Cluster dichte Regionen von Datenpunkten. Sie ermöglichen die Erkennung von Clustern beliebiger Formen.
Effektiv bei Datensätzen mit Clustern unterschiedlicher Formen und Größen, insbesondere bei vorhandenem Rauschen.
  • Stark von der Parameterauswahl abhängig.
  • Kann bei Clustern variierender Dichte und Daten mit hoher Dimensionalität zu Problemen führen.
  • Grenzpunkte werden möglicherweise falsch klassifiziert.
Erkennung von Clustern mit hoher Interaktion in der B2B-Kundschaft innerhalb von verrauschten Transaktionsdaten, damit Marketing-Maßnahmen auf hochwertige Accounts oder Regionen mit hoher Konzentration von Geschäftsaktivitäten fokussiert werden können.
Gitterbasierte Algorithmen
Gitterbasierte Algorithmen teilen den Datenraum in eine endliche Anzahl von Zellen auf, die eine Gitterstruktur ergeben. Basierend auf der Dichte der Datenpunkte innerhalb dieser Zellen werden dann Cluster bestimmt.
Effizient bei der Verarbeitung großer Datensätze, wenn eine schnelle Clustering-Methode benötigt wird.
  • Stark abhängig von der Gitterauflösung.
  • Möglicherweise werden nicht alle Formen von Clustern erfasst.
  • Potenzieller Detailverlust.
Schnelles Clustering großer Volumina von B2B-Lead-Daten (z. B. nach Standorten oder anderen Unternehmensattributen), um regionale Hotspots für zielgerichtete Ansprache und Marketing-Kampagnen zu identifizieren.
Modellbasierte Algorithmen
Modellbasierte Algorithmen gehen davon aus, dass die Daten aus einer Mischung zugrunde liegender Wahrscheinlichkeitsverteilungen generiert werden, und zielen darauf ab, die Parameter dieser Verteilungen einzuschätzen.
Geeignet für Datensätze, bei denen die Datenverteilung klar durch statistische Verteilungen modelliert werden kann.
  • Berechnungsintensiv.
  • Erfordert korrekte Modellannahmen.
  • Hängt stark von den Anfangsbedingungen ab und birgt das Risiko potenzieller Fehlspezifikationen des Modells.
Segmentierung von B2B-Kundschaft durch Anwendung von Modellen (z. B. Gaußsche Mischmodelle) auf Transaktionsdaten, um bestimmte Segmente des Kaufverhaltens für maßgeschneiderte Marketing-Strategien zu ermitteln.

Was zeichnet gute Cluster-Analysen aus?

Eine gute Cluster-Analyse gruppiert Daten auf eine nützliche und verwertbare Art. Sie erkennt reale Muster in den Daten und stellt so Erkenntnisse für fundierte Entscheidungen bereit. Eine schlechte Cluster-Analyse dagegen resultiert in irreführenden oder beliebigen Gruppen, die weder ein Problem lösen können, noch einen Mehrwert haben.

Folgende Merkmale zeichnen gute Cluster-Analysen aus:

Angenommen, ihr segmentiert B2B-Kundschaft nach ihren Kaufgewohnheiten. Ein gutes Clustering-Modell führt zu folgenden Gruppen:

Jede Gruppe kann mit einer bestimmten Marketing-Strategie angesprochen werden, um Conversions und Kundenzufriedenheit zu erhöhen.

Dagegen führen schlechte Cluster-Analysen zu Folgendem:

Angenommen, ein Marketing-Team erstellt Kunden-Cluster basierend auf der Anzahl der Vokale in ihren Firmennamen. Diese Gruppierung ist zwar mathematisch möglich, hat aber keinerlei geschäftlichen Nutzen – sie antizipiert weder Verhalten, noch Präferenzen oder Nachfrage. Das Ergebnis? Eine nutzlose Segmentierung, die Zeit und Ressourcen vergeudet.

Welche Nachteile haben Cluster-Analysen und wie können Unternehmen Probleme vermeiden?

Nachteil
Problem
Gegenmaßnahme
Beliebige Cluster-Anzahl
Die Festlegung der optimalen Anzahl von Clustern (k) kann schwierig sein und möglicherweise wird nicht die reale Datenstruktur abgebildet.
Schätzt das angemessene k mit Methoden wie der Ellenbogen-Methode oder dem Silhouettenkoeffizienten. Experimentiert mit verschiedenen Werten und validiert die Ergebnisse.
Anfälligkeit für Ausreißer und Rauschen
Ausreißer können die Cluster-Bildung beeinträchtigen und damit zu ungenauen Gruppierungen führen.
Führt eine Vorverarbeitung der Daten durch, um Ausreißer zu identifizieren und zu behandeln. Erwägt dichtebasierte Clustering-Algorithmen wie DBSCAN, die resistenter gegen Rauschen sind.
Schlechte Interpretierbarkeit
Cluster können schwierig zu verstehen oder in praktischen Szenarien anwendbar sein.
Wählt die relevanten Merkmale sorgfältig aus. Nutzt Visualisierungstechniken wie Prinzipalkomponentenanalysen (PCA) oder t-verteilte stochastische Nachbareinbettung (t-SNE), um die Interpretierbarkeit zu verbessern.
Ungleichmäßige Größe und Dichte von Clustern
Algorithmen wie k-Means setzen Cluster mit ähnlicher Größe und Dichte voraus, was nicht immer realistisch ist.
Nutzt alternative Methoden wie hierarchisches Clustering oder Gaußsche Mischmodelle (GMM), die Cluster unterschiedlicher Formen und Größen verarbeiten können.
Berechnungsintensität
Clustering von großen Datensätzen kann ressourcenintensiv und zeitaufwendig sein.
Implementiert gitterbasierte oder stichprobenbasierte Ansätze, um die Berechnungseffizienz zu erhöhen.
Überanpassung an Rauschen
Das Modell kann Muster in zufälligem Rauschen erkennen, was zu irrelevanten Clustern führt.
Validiert Cluster regelmäßig anhand von realer Business-Logik und nutzt Holdout-Datensätze, um auf Überanpassung zu testen.
Abhängigkeit von den ausgewählten Merkmalen
Eine unpassende Auswahl von Merkmalen kann in irreführenden Clustern resultieren.
Wählt Merkmale mit großer Sorgfalt aus oder wendet vor dem Clustering Techniken zur Dimensionsreduzierung an, zum Beispiel PCA oder lineare Diskriminanzanalysen (LDA).

Die Tücken beim Clustering lassen sich wie folgt umgehen:

Wie werden Cluster-Analysen durchgeführt?

Flussdiagramm mit Schritten bestehend aus sechs grünen Kreisen, das den Prozess der Cluster-Analyse darstellt: Auswählen der Analysemethode, Festlegung der Fallanzahl, Auswahl der Variablen, Entscheidung bezüglich Standardisierung, Anwendung eines Algorithmus und Finalisierung der Cluster

Schritt 1: Wählt die Analysemethode aus.

Der erste Schritt der Cluster-Analyse besteht in der Regel aus der Auswahl der Analysemethode, die vom Umfang der Daten und den Variablenarten abhängt.

Hierarchisches Clustering ist beispielsweise für kleine Datensätze geeignet, während k-Means-Clustering eher passend für mäßig große Datensätze ist, wenn die Anzahl der Cluster im Voraus bekannt ist.

Große Datensätze erfordern häufig eine Mischung verschiedener Arten von Variablen und benötigen im Allgemeinen ein Verfahren in zwei Schritten.

Schritt 2: Legt die Anzahl der Fälle fest.

Nach der Auswahl der Analysemethode startet ihr den Prozess, indem ihr die Anzahl der Fälle zur Unterteilung in homogene Gruppen oder Cluster wählt. Diese Fälle (oder Beobachtungen) können beliebige Elemente sein, die ihr analysieren möchtet, ob Thema, Person oder Objekt.

Schritt 3: Wählt die Variablen für die Analyse aus.

Als Nächstes wählt ihr die einzuschließenden Variablen. Dies können 1.000 Variablen oder sogar 10.000 oder 25.000 sein. Die Anzahl und Art der gewählten Variablen entscheidet darüber, welche Art von Algorithmus verwendet werden sollte.

Schritt 4: Trefft eine Entscheidung zur Variablenstandardisierung.

Entscheidet anschließend, ob die Variablen in irgendeiner Form standardisiert werden sollen, damit sich jede Variable im selben Umfang auf die Distanz oder Ähnlichkeit zwischen den Fällen auswirkt. Die Analyse kann allerdings sowohl mit standardisierten als auch nicht standardisierten Variablen durchgeführt werden.

Schritt 5: Wendet den gewählten Algorithmus an.

Jede Analysemethode folgt einem anderen Ansatz.

Schritt 6: Legt die Anzahl der Cluster endgültig fest.

Schließlich wählt der Algorithmus eine Methode zur Bildung der Gruppen aus und bestimmt, wie viele Cluster zur Abbildung der Daten benötigt werden. Der Algorithmus prüft, wie ähnlich die Cluster einander sind, und teilt sie entsprechend auf.

Was könnt ihr mit den Ergebnissen von Cluster-Analysen tun?

Für jede Clustering-Methode gibt es normalerweise eine zugehörige Visualisierung. Diese sind weit verbreitet bei der Untersuchung der Ergebnisse. Bei k-Means wird die Distanz zwischen den Beobachtungsgruppen meist mit x- und y-Achsen dargestellt.

Mit dieser Art von Visualisierung werden diese Gruppierungen sehr klar erkennbar. Beim hierarchischen Clustering wird eine Visualisierung namens Dendrogramm verwendet, in dem die Teilmengen in einer Baumstruktur abgebildet werden.

So stellt ihr sicher, dass eure Cluster-Analyse korrekt ist.

Bewertet zunächst die Cluster-Tendenz. Bevor ihr einen Clustering-Algorithmus anwendet, müsst ihr unbedingt verifizieren, ob euer Datensatz überhaupt das Potenzial zur Bildung sinnvoller Cluster hat oder völlig zufällig verteilt ist.

Eine gängige Methode für diese Untersuchung ist die Hopkins-Statistik, mit der ihr messen könnt, wie wahrscheinlich eure Daten gleichmäßig verteilt sind. Ein Wert nahe 0 deutet auf eine hohe Cluster-Tendenz der Daten hin, ein Wert von etwa 0,5 steht für Wahllosigkeit.

Auch grafische Tools wie VAT (Visual Assessment of Cluster Tendency) sind hilfreich und sortieren die Distanzmatrix neu, damit potenzielle Cluster sichtbar hervorgehoben werden. Wenn diese Tests ergeben, dass eure Daten in natürliche Gruppen unterteilt werden können, könnt ihr mit dem Clustering fortfahren. Anderenfalls führt Clustering wahrscheinlich nicht zu nützlichen Erkenntnissen.

Ermittelt als Nächstes die optimale Cluster-Anzahl. Die Auswahl der richtigen Anzahl von Clustern (k) ist entscheidend, da zu wenige Cluster die Daten zu stark vereinfachen, während zu viele Cluster zu Überanpassung führen können.

Die Ellenbogen-Methode ist hier ein beliebter Ansatz: Ihr tragt die Summe der quadrierten Distanzen im Cluster gegen die Anzahl der Cluster auf und sucht nach einem Punkt, an dem die Cluster-Performance sich abzuflachen beginnt – dem „Ellenbogen“. Eine andere nützliche Metrik ist der Silhouettenkoeffizient, mit dem untersucht wird, wie gut jeder Datenpunkt in seinen Cluster relativ zu anderen Clustern passt. Je höher der Silhouettenkoeffizient, desto eindeutiger und besser getrennt sind die Cluster.

Auch die Gap-Statistik ist nützlich. Sie vergleicht die beobachtete Streuung im Cluster mit der erwarteten Streuung bei einer Nullverteilung. So wird sichtbar, wo die Lücke am größten ist, was bei der Bestimmung des optimalen k hilfreich ist.

Wertet schließlich die Cluster-Qualität aus. Sobald die Cluster eingerichtet sind, müsst ihr verifizieren, ob sie intern kohärent und nach außen abgegrenzt sind.

Hierfür wird häufig der Silhouettenkoeffizient genutzt, der Werte von -1 bis 1 annehmen kann. Je näher der Wert an 1 ist, desto besser definiert sind die Cluster. Der Dunn-Index berechnet das Verhältnis der kleinsten Distanz zwischen Beobachtungen in verschiedenen Clustern (Inter-Cluster-Distanz) und der größten Distanz innerhalb eines Clusters (Intra-Cluster-Distanz). Höhere Dunn-Indizes bedeuten eine höhere Cluster-Qualität. Der Davies-Bouldin-Index dagegen misst die durchschnittliche Ähnlichkeit zwischen einem Cluster und dem ihm ähnlichsten Cluster. Hier bedeuten niedrigere Werte eine höhere Cluster-Qualität.

Zusammengefasst erfolgt die Gewährleistung einer korrekten Cluster-Analyse in drei Schritten:

  1. Cluster-Tendenz bewerten: Ermittelt mit statistischen Tests wie der Hopkins-Statistik und den Visualisierungs-Tools wie VAT, ob eure Daten auf natürliche Art Cluster bilden.
  2. Optimale Cluster-Anzahl bestimmen: Ermittelt die richtige Anzahl von Clustern (k) mit Methoden wie der Ellenbogen-Methode, dem Silhouettenkoeffizienten und der Gap-Statistik, um zu starke Vereinfachung oder Überanpassung zu vermeiden.
  3. Clustering-Qualität bewerten: Verifiziert mit Metriken wie dem Silhouettenkoeffizienten, dem Dunn-Index und dem Davies-Bouldin-Index, dass eure Cluster kompakt und klar voneinander getrennt sind.

Erste Schritte mit Cluster-Analysen.

Der Hauptvorteil von Cluster-Analysen besteht darin, dass Unternehmen damit Muster und Beziehungen in Daten erkennen können. So können sie anhand von Echtzeit-Erkenntnissen fundierte Entscheidungen treffen und geeignete Maßnahmen ergreifen.

Wenn ihr bereit für eure ersten Schritte mit Cluster-Analysen seid, solltet ihr euch zunächst ein bewährtes Softwaretool suchen, das euch bei der effektiven Analyse und Interpretation von Daten unterstützen kann.

Adobe Analytics verwandelt Echtzeit-Daten in Echtzeit-Erkenntnisse. Dabei ist Adobe Analytics nicht nur eine Web-Analyselösung, sondern erfasst Daten außerdem von jedem Punkt in der Customer Journey und gewinnt daraus Erkenntnisse, die sich in optimale Maßnahmen umsetzen lassen. Adobe Analytics nutzt künstliche Intelligenz (KI), um anhand aller eurer Daten prädiktive Erkenntnisse zu gewinnen, damit Anwenderinnen und Anwender Daten in Echtzeit anzeigen und bearbeiten können.

Fordert eine Demo an oder seht euch das Übersichtsvideo an, um mehr über Adobe Analytics zu erfahren.

Unsere Empfehlungen für euch.

https://business.adobe.com/fragments/resources/cards/thank-you-collections/analytics