CHAID

CHAID (CHi-squared Automatic Interaction Detector) est une technique de type « arbre de décision ». Elle a été publiée en 1980 par Gordon V. Kass^[1].

En pratique, elle est souvent utilisée en marketing direct pour sélectionner un groupe de consommateurs et prédire comment leurs réponses à certaines variables affectent d'autres variables.

Comme avec les autres arbres de décision, ses avantages sont un résultat essentiellement visuel et facilement interprétable. À cause de la segmentation de la population lors de l'analyse, l'échantillonnage doit être suffisamment large de manière que la taille de chaque groupe ne devienne pas trop petite, ce qui rendrait l'analyse peu fiable.

CHAID détecte l'interaction entre variables dans un jeu de données. En utilisant cette technique on peut établir des relations de dépendance entre variables. En prenant l’abonnement à un journal, par exemple, il sera possible d'étudier l'influence de variables explicatives comme le prix, la taille, les suppléments, etc. CHAID identifie des groupes discrets puis, en examinant les réactions aux variables explicatives, cherche à prédire l'impact sur la variable initiale.

CHAID est souvent utilisé comme technique d'exploration et est une alternative aux multiples régressions, en particulier quand le jeu de données n'est pas parfaitement adapté aux analyses par régression.

CHAID modifier

L'algorithme CHAID^[2] se déroule en trois étapes :

préparation des prédicteurs ;
fusion des classes ;
sélection de la variable de séparation.

Dans cette dernière étape, l'algorithme utilise les probabilités avec correction de Bonferroni pour estimer si une catégorie peut être divisée. L'algorithme « Exhaustive » CHAID (ECHAID)^[3] utilise une technique plus complexe à cette même fin. Pour une description détaillée de CHAID et de son extension ECHAID, voir Ritschard (2013)^[4].

Voir aussi modifier

Références modifier

↑ Kass, G. V.; An Exploratory Technique for Investigating Large Quantities of Categorical Data, Journal of Applied Statistics, Vol. 29, No. 2 (1980), pp. 119-127.
↑ Nisbet, Robert; Elder, John; Miner, Gary; Handbook for Statistical Analysis And Data Mining, Accademic Press, 2009, page 247.
↑ David Biggs, Barry De Ville et Ed Suen, « A method of choosing multiway partitions for classification and decision trees », Journal of Applied Statistics, vol. 18, n^o 1,‎ janvier 1991, p. 49–62 (ISSN 0266-4763 et 1360-0532, DOI 10.1080/02664769100000005, lire en ligne).
↑ Gilbert Ritschard, « CHAID and Earlier Supervised Tree Methods », Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences, McArdle, J.J. And G. Ritschard (Eds), New York, Routledge,‎ 2013, p. 48-74 (lire en ligne).

Liens externes modifier

Portail des probabilités et de la statistique

[1] Kass, G. V.; An Exploratory Technique for Investigating Large Quantities of Categorical Data, Journal of Applied Statistics, Vol. 29, No. 2 (1980), pp. 119-127.

[2] Nisbet, Robert; Elder, John; Miner, Gary; Handbook for Statistical Analysis And Data Mining, Accademic Press, 2009, page 247.

[3] David Biggs, Barry De Ville et Ed Suen, « A method of choosing multiway partitions for classification and decision trees », Journal of Applied Statistics, vol. 18, n^o 1,‎ janvier 1991, p. 49–62 (ISSN 0266-4763 et 1360-0532, DOI 10.1080/02664769100000005, lire en ligne).

[4] Gilbert Ritschard, « CHAID and Earlier Supervised Tree Methods », Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences, McArdle, J.J. And G. Ritschard (Eds), New York, Routledge,‎ 2013, p. 48-74 (lire en ligne).

[1]

[2]

[3]

[4]