L’analyse de cluster : un outil précieux pour prendre de meilleures décisions data-driven

Adobe Experience Cloud Team

02-24-2025

Homme souriant vêtu d’une chemise à motifs debout dans un magasin, un téléphone dans une main et une tablette dans l’autre. Des graphiques sont incrustés sur l’image : un segment publicitaire personnalisé indiquant 11 000 clients saisonniers, et des publications sur les réseaux sociaux affichant des vêtements de couleur verte.

L’analyse de cluster est une méthode statistique qui permet regrouper des données similaires, tout en mettant en évidence les différences entre les groupes.

Elle peut, par exemple, aider une marque de prêt-à-porter à catégoriser les membres de sa clientèle selon leurs habitudes d’achat (récurrents, saisonniers, ponctuels, etc.) et à adapter ses stratégies marketing en conséquence, qu’il s’agisse de publicités ciblées ou d’offres personnalisées.

En marketing, l’analyse de cluster permet de mieux cerner l’audience cible.

Voici ce que vous apprendrez :

Qu’est-ce que l’analyse de cluster et comment fonctionne-t-elle ?

L’analyse de cluster est un type de classification non supervisée, ce qui signifie qu’elle ne comporte aucune classe, définition ou attente prédéfinie. Cette technique de data mining statistique sert à regrouper des observations similaires entre elles, mais différentes d’autres groupes d’observations.

Pour mieux comprendre, prenons l’exemple d’une personne qui trie un assortiment de chocolats selon ses préférences.

Elle peut les classer comme suit : lait ou noir, avec ou sans noisettes, avec ou sans praliné, etc.

Cette technique, très répandue, consiste à les distinguer en fonction de leurs caractéristiques.

Une plateforme de e-commerce peut, par exemple, catégoriser les membres de sa clientèle selon leurs habitudes d’achat : économes, adeptes du haut de gamme, acheteurs et acheteuses occasionnelles, etc. Cette segmentation permet de créer des promotions sur mesure pour chaque groupe afin de booster l’engagement et les ventes.

Comprendre l’analyse de cluster

L’analyse de cluster est au centre de l’analyse des données. Il n’y a rien d’étonnant à ce que des secteurs tels que la finance, l’assurance, le retail, le e-commerce et le marketing s’en servent pour identifier des schémas et des relations dans leurs données.

Il existe cinq grandes approches en la matière, les plus courantes étant les k-moyennes et le clustering hiérarchique. La méthode choisie dépend des éléments analysés et des raisons pour lesquelles ils le sont. Grâce à des techniques de visualisation, comme les diagrammes de dispersion et les dendrogrammes, les entreprises peuvent aisément présenter les résultats de leurs analyses de cluster de façon claire et compréhensible.

Quel est l’objectif du clustering des jeux de données ?

En marketing, l’objectif de l’analyse de cluster est de constituer des groupes (ou clusters), tout en veillant à ce que les observations soient aussi similaires que possible au sein d’un groupe.

En définitif, tout dépend de l’application.

Le clustering peut, par exemple, permettre à une compagnie d’assurance d’identifier les titulaires d’une police automobile dont le montant de sinistre moyen est élevé.

Son utilisation dépend du secteur d’activité et de la division concernés, ainsi que des attentes de l’entreprise.

Pourquoi l’analyse de cluster est-elle importante pour la stratégie commerciale ?

L’analyse de cluster est utile à plusieurs niveaux, notamment le mode de commercialisation.

Elle peut influer sur la cible des produits ou services, les stratégies de vente et de fidélisation, et l’évaluation des prospects.

Une entreprise peut créer des groupes de clientes et de clients pour calculer leur valeur vie par rapport à leur propension à l’attrition, puis s’appuyer sur cette information pour adapter sa communication à chacun de ces groupes et identifier les profils à forte valeur ajoutée.

Quels sont les différents types de clustering et dans quels cas les utiliser ?

Cinq icônes vertes représentant différents types d’algorithmes de clustering : partitionnement, hiérarchique, basé sur la densité, basé sur une grille et basé sur un modèle

Il existe cinq grands types d’algorithmes de clustering :

Type de clustering
Description
Audience
Inconvénients
Cas d’usage marketing
Algorithmes de partitionnement
À l’image des k-moyennes, ils divisent le jeu de données en un nombre prédéfini de clusters en optimisant une fonction objective (par exemple, la somme des distances quadratiques).
Il sont adaptés aux jeux de données dans lesquels les clusters sont bien séparés et leur nombre est connu à l’avance.
  • Spécification du nombre de clusters au préalable
  • Difficultés éventuelles en cas de clusters de tailles et de densités différentes
  • Sensibilité aux valeurs aberrantes
Segmentation de la clientèle en groupes distincts par habitudes d’achat pour permettre la diffusion de campagnes par e-mail B2B ciblées et d’offres de produits personnalisées
Algorithmes hiérarchiques
À l’image du clustering agglomératif et divisif, ils créent une hiérarchie imbriquée de clusters en les fusionnant ou en les divisant selon leurs similitudes.
Ils sont utiles lorsque les données sous-jacentes ont une structure hiérarchique ou que le nombre de clusters est inconnu.
  • Nombreuses ressources de calcul nécessaires en cas de jeux de données volumineux
  • Impossibilité d’annuler les décisions prises au début du processus
  • Sensibilité au bruit et aux valeurs aberrantes
Organisation des données client en structure hiérarchique (par exemple, par secteur, puis par taille d’entreprise) pour personnaliser les stratégies marketing et la gestion des comptes à plusieurs niveaux
Algorithmes basés sur la densité
À l’image de DBSCAN, ils considèrent les clusters comme des régions denses en points de données séparées par des zones de faible densité, ce qui permet de découvrir des clusters de forme arbitraire.
Ils sont utiles pour les jeux de données comportant des clusters de formes et de tailles différentes, surtout en cas de bruit.
  • Sensibilité aux paramètres choisis
  • Difficultés éventuelles en cas de clusters de densité variable et de données hautement dimensionnelles
  • Risque de classification erronée des points frontaliers
Détection des clusters de clientèle B2B fortement engagée au sein des données transactionnelles bruyantes afin de cibler les comptes à forte valeur ajoutée ou les zones géographiques qui concentrent l’activité commerciale
Algorithmes basés sur une grille
Ils divisent l’espace de données en un nombre limité de cellules formant une structure de grille, puis identifient les clusters en fonction de la densité de points de données dans ces cellules.
Ils sont utiles pour le traitement des jeux de données volumineux et lorsqu’une méthode de clustering rapide est nécessaire.
  • Forte dépendance à la résolution de la grille
  • Risque de non-détection des clusters de forme arbitraire
  • Perte éventuelle de détails
Clustering rapide des gros volumes de données sur les leads B2B (par géolocalisation ou d’autres attributs commerciaux, par exemple) afin d’identifier les zones géographiques à cibler en priorité via le démarchage et les campagnes marketing.
Algorithmes basés sur un modèle
Ils partent du principe que les données sont générées par un mélange de distributions de probabilité sous-jacentes et visent à estimer les paramètres de ces dernières.
Ils sont adaptés aux jeux de données dont la répartition peut être modélisée de manière adéquate par des distributions statistiques.
  • Nombreuses ressources de calcul nécessaires
  • Hypothèses de modèle correctes exigées
  • Sensibilité aux conditions initiales et à une éventuelle mauvaise spécification du modèle
Segmentation de la clientèle B2B en adaptant les modèles (de mélange gaussien, par exemple) aux données de transaction afin de découvrir des segments de comportements d’achat distincts pour personnaliser les stratégies marketing.

Quelles sont les caractéristiques d’une analyse de cluster fiable ?

Une analyse de cluster fiable regroupe les données avec précision pour qu’elles soient utiles et exploitables. Elle identifie des schémas réels afin de fournir des insights qui éclairent la prise de décision. À l’inverse, une analyse de cluster erronée crée des groupes trompeurs ou arbitraires qui ne contribuent pas à résoudre un problème ou ne procurent aucune valeur ajoutée.

Une analyse de cluster fiable présente les caractéristiques suivantes :

Imaginons que vous segmentez la clientèle B2B en fonction de ses habitudes d’achat. Un modèle de clustering adéquat créera alors les groupes suivants :

Chaque groupe peut être ciblé par une stratégie marketing précise pour améliorer les conversions et la satisfaction.

A contrario, les analyses de cluster médiocres engendrent les problèmes suivants :

Supposons qu’une équipe marketing catégorise les membres de sa clientèle en fonction du nombre de voyelles dans le nom de leur entreprise. Si la démarche est mathématiquement faisable, elle n’a aucun intérêt commercial, car elle ne prédit ni le comportement, ni les préférences, ni les besoins. Résultat : cette segmentation est une perte de temps et gaspille les ressources.

Quels sont les inconvénients de l’analyse de cluster et comment éviter les problèmes ?

Inconvénient
Problème
Solution pour l’éviter
Nombre arbitraire de clusters
Il peut être difficile de déterminer le nombre optimal de clusters (k), qui risque de ne pas refléter la véritable structure des données.
Estimez la valeur k appropriée en appliquant des méthodes, comme celle du coude ou le score de silhouette. Testez-en plusieurs et validez les résultats.
Sensibilité aux valeurs aberrantes et au bruit
Les valeurs aberrantes peuvent fausser la formation des clusters et générer des groupes inexacts.
Prétraitez les données pour identifier et gérer les valeurs aberrantes. Utilisez éventuellement des algorithmes de clustering basés sur la densité, comme DBSCAN, qui sont moins sensibles au bruit.
Difficultés d’interprétation
Les clusters peuvent être difficiles à décrypter ou à appliquer dans des scénarios concrets.
Choisissez bien leurs caractéristiques. Utilisez des techniques de visualisation, comme l’analyse en composantes principales ou l’intégration des voisins stochastiques distribués en t, pour faciliter l’interprétation.
Taille et densité inégales des clusters
Les algorithmes tels que les k-moyennes partent du principe que les clusters ont la même taille et la même densité, ce qui n’est pas forcément réaliste.
Utilisez d’autres méthodes, comme le clustering hiérarchique ou les modèles de mélange gaussien, qui peuvent prendre en compte les clusters de forme et de taille diverses.
Complexité des calculs
Le clustering de jeux de données volumineux peut nécessiter beaucoup de temps et de ressources.
Afin d’optimiser les calculs, optez plutôt pour une méthode basée sur une grille ou sur l’échantillonnage.
Surinterprétation du bruit
Le modèle est susceptible d’identifier des schémas dans le bruit aléatoire, ce qui peut provoquer des erreurs.
Validez régulièrement les clusters par rapport à la logique commerciale réelle et utilisez des jeux de données de réserve pour éviter tout problème de surinterprétation.
Dépendance au choix des caractéristiques
Des caractéristiques inappropriées peuvent générer des clusters trompeurs.
Sélectionnez-les soigneusement ou appliquez des techniques de réduction de la dimensionnalité, comme l’analyse en composantes principales ou l’analyse discriminante linéaire, avant de procéder au clustering.

Voici différentes façons d’éviter les écueils en matière de clustering :

Comment effectuer une analyse de cluster ?

Diagramme de flux détaillé comportant six cercles verts pour illustrer le processus d’analyse de cluster : choix d’une méthode d’analyse, détermination du nombre de cas, sélection des variables, décision concernant la normalisation des variables, application d’un algorithme et finalisation des clusters

Étape 1 : choisissez une méthode d’analyse.

Ce choix dépend de la taille des données et des types de variables.

Par exemple, le clustering hiérarchique convient aux petits jeux de données, alors que le clustering par k-moyennes est plus adapté aux jeux de données de taille moyenne et lorsque le nombre de clusters est connu en amont.

En général, les jeux de données volumineux nécessitent différents types de variables et une procédure en deux étapes.

Étape 2 : déterminez le nombre de cas.

Choisissez le nombre de cas à subdiviser en groupes ou clusters homogènes. Ces cas ou observations peuvent concerner tout type de sujet, de personne ou d’objet à analyser.

Étape 3 : sélectionnez les variables pour l’analyse.

Vous pouvez aussi bien inclure 1 000 variables que 10 000 ou 25 000. Le type d’algorithme à utiliser dépend du nombre et du type de variables choisies.

Étape 4 : prenez une décision concernant la normalisation des variables.

Décidez si vous souhaitez normaliser les variables d’une manière ou d’une autre de sorte que chacune d’elles contribue à parts égales à la distance ou à la similitude entre les cas. Quoi qu’il en soit, l’analyse pourra être exécutée avec des variables normalisées et non normalisées.

Étape 5 : appliquez l’algorithme choisi.

Chaque méthode d’analyse a ses spécificités.

Étape 6 : finalisez le nombre de clusters.

Pour finir, l’algorithme sélectionne une méthode de formation des groupes et détermine le nombre de clusters nécessaires pour représenter les données. Il étudie les similitudes entre ces derniers et les divise en conséquence.

Comment interpréter les résultats d’une analyse de cluster ?

En général, chaque méthode de clustering est associée à une visualisation permettant d’étudier les résultats. Dans le cas des k-moyennes, il est courant d’utiliser un axe des abscisses et un axe des ordonnées qui indiquent la distance entre les groupes d’observations.

Ce type de visualisation révèle clairement ces différents groupes. Dans le cas du clustering hiérarchique, une visualisation appelée dendrogramme révèle les clades dans l’arborescence.

Comment garantir l’exactitude d’une analyse de cluster ?

Commencez par évaluer la tendance au regroupement. Avant d’utiliser un algorithme de clustering, vérifiez si votre jeu de données est capable de former des clusters intéressants ou s’il est distribué de manière aléatoire.

Pour ce faire, vous pouvez vous appuyer sur la statistique de Hopkins, qui évalue la probabilité que vos données soient uniformément distribuées. Une valeur proche de 0 laisse entendre que les données ont une forte tendance au regroupement, tandis qu’une valeur d’environ 0,5 indique un caractère aléatoire.

Par ailleurs, les outils visuels, comme l’évaluation de la tendance au regroupement, permettent de réorganiser la matrice de dissimilarité pour mettre en évidence les clusters potentiels. Si ces tests indiquent que vos données se regroupent naturellement, vous pouvez poursuivre. Dans le cas contraire, le clustering risque de ne pas fournir d’insights utiles.

Déterminez ensuite le nombre optimal de clusters. Le choix de cette valeur (k) est essentiel, car un nombre insuffisant de clusters risque de simplifier excessivement les données, tandis qu’un nombre excessif peut créer des problèmes de surinterprétation.

La méthode du coude est régulièrement employée pour déterminer la valeur (k). Elle consiste à tracer la somme des carrés à l’intérieur d’un cluster et à rechercher le point où l’amélioration des performances de clustering commence à se stabiliser, c’est-à-dire le « coude ». Vous pouvez aussi utiliser le score de silhouette, qui évalue l’adéquation de chaque point de données avec le cluster auquel il a été attribué par rapport aux autres clusters. Un score de silhouette élevé indique que les clusters sont plus distincts et bien séparés.

Par ailleurs, la statistique d’écart compare la dispersion observée à l’intérieur des clusters avec celle attendue dans une distribution nulle, ce qui permet d’identifier le k optimal en repérant les zones où l’écart est le plus important.

Pour finir, évaluez la qualité du clustering. Une fois les clusters établis, il est important de confirmer qu’ils sont à la fois cohérents en interne et séparés en externe.

Le coefficient de silhouette, dont la valeur est comprise entre -1 et 1, est souvent utilisé à cette fin. Un score proche de 1 signifie que les clusters sont correctement définis. L’indice de Dunn calcule le rapport entre la plus petite distance entre des observations n’appartenant pas au même cluster (distance inter-cluster) et la plus grande distance au sein d’un cluster (distance intra-cluster). Une valeur élevée correspond à des clusters de bonne qualité. À l’inverse, l’indice de Davies-Bouldin mesure la similitude moyenne entre chaque cluster et celui le plus proche. Les valeurs les plus basses indiquent des clusters de bonne qualité.

En résumé, vous devez suivre trois étapes pour disposer d’une analyse de cluster fiable :

  1. Estimation de la tendance au regroupement. Déterminez si vos données forment naturellement des clusters à l’aide de tests, comme la statistique de Hopkins, et d’outils de visualisation tels que l’évaluation de la tendance au regroupement.
  2. Détermination du nombre optimal de clusters. Identifiez le nombre de clusters (k) adéquat en appliquant des techniques, comme la méthode du coude, le score de silhouette et la statistique d’écart, afin d’éviter une simplification excessive ou une surinterprétation.
  3. Évaluation de la qualité du clustering. Vérifiez que vos clusters sont à la fois compacts et bien séparés à l’aide de métriques, comme le coefficient de silhouette, l’indice de Dunn et l’indice de Davies-Bouldin.

Comment se lancer dans l’analyse de cluster ?

Le principal avantage de l’analyse de cluster est qu’elle permet aux entreprises d’identifier des tendances et des relations au sein de leurs données pour étayer leurs décisions et agir sur la base d’insights en temps réel.

Lorsque vous vous lancez, commencez par rechercher une application éprouvée afin d’analyser et d’interpréter efficacement vos données.

Adobe Analytics convertit les données en temps réel en insights en temps réel. Non cantonnée à l’analytics web, cette solution peut étudier les informations à n’importe quel stade du parcours client et vous aider à prendre la mesure la plus adaptée à la situation. Elle utilise l’intelligence artificielle pour fournir des insights prédictifs en fonction de l’ensemble de vos données, ce qui permet à votre personnel de visualiser et de manipuler ces dernières en temps réel.

Demandez une démonstration ou regardez la vidéo de présentation pour en savoir plus sur Adobe Analytics.

Recommandations de lecture

https://business.adobe.com/fragments/resources/cards/thank-you-collections/analytics