Test de Banerji (statistiques)

Le test de Banerji^[1] est un test statistique utilisé en économie pour déterminer si une série économique possède une avance ou un retard significatif sur une autre série, du point de vue des points de retournement.

Contexte

Une série économique est un ensemble de valeurs économiques dépendant du temps, comme la quantité produite d'un bien, le volume d'échange de valeurs, ou bien des indicateurs économiques (comme le produit intérieur brut)… Une série présente en général des cycles alternés de croissance et de décroissance ; un point de retournement est la transition entre croissance et décroissance — il s'agit alors d'un maximum local de la série (point haut) — ou bien entre décroissance et croissance — il s'agit alors d'un minimum local de la série (point bas).

Un phénomène économique a souvent des répercussions sur d'autres. On va alors observer des parallèles sur les formes des séries. Naïvement, on peut dire que :

si deux séries ont des cycles synchronisés, si leurs points de retournement sont sensiblement aux mêmes dates, alors ils dépendent d'un troisième phénomène commun ;
si une série est en retard sur l'autre, alors soit elle dépend de la première, soit elles dépendent toutes les deux d'un même phénomène, mais il existe un mécanisme « tampon » qui retarde la répercussion sur le deuxième série ; et surtout, on peut envisager de prédire les points de retournement de la deuxième série en fonction de ceux de la première.

Banerji considère en particulier les indicateurs économique avancés — c'est-à-dire dont les points de retournement sont en avance par rapport aux autres indicateurs —, comme le LEI (leading economic index (en)), établi par The Conference Board (en), et composé à partir de 10 valeurs. Cet indice est censé pouvoir indiquer les points de retournement de l'économie, mais rien d'autre, et en particulier pas l'intensité des phénomènes ni ce qui se passe entre les points de retournement.

Notons que pour être pertinent, un indicateur économique avancé doit être :

stable : sa définition ne doit pas changer, ce qui permet de comparer ses valeurs sur de longues périodes (voir par exemple les polémiques sur les chiffres du chômage) ;
disponible rapidement, ce qui permet de détecter rapidement un retournement.

On peut difficilement faire une hypothèse sur la loi statistique que suit le point de retournement d'un indicateur. On s'oriente donc vers un test non paramétrique (qui n'est pas basé sur une loi). Par ailleurs, comme il s'agit de comparer des points deux à deux (les points de retournement de deux séries), on s'intéresse aux tests de comparaison par paires. Les tests les plus intéressants considèrent que les échelles de valeur sont uniformes, c'est-à-dire qu'un intervalle donné correspond à la même différence quel que soit l'endroit où l'on se trouve ; c'est le cas des indicateurs, puisqu'ils sont relevés à intervalles réguliers (tous les mois ou tous les trimestres).

Hypothèse testée

L'hypothèse nulle du test de Banerji est l'absence d'avance.

Tests utilisés

Test de casualisation des paires

Le test de casualisation (randomisation) des paires est fondé sur la considération suivante :

soit u_i la suite des dates de retournement de la première série, et v_i celle de la deuxième série ;

on appelle S la somme des écarts : S = Σ(u_i – v_i) ;

si l'hypothèse nulle est vérifiée, alors la somme des écarts est nulle (ou plutôt, n'est pas significativement non nulle) :

H₀ : S = 0,
H₁ : S > 0.

La première étape consiste donc à calculer les écarts entre les dates des points de retournement. Supposons que l'on ait n points, donc n écarts entre les deux séries, n différences. Si l'hypothèse nulle est vérifiée, alors chaque différence a une chance sur deux d'être positive, et réciproquement 1/2 d'être négative. Il y a deux possibilités de signe pour chacun des n écarts, donc 2ⁿ possibilités.

La deuxième étape consiste à calculer la somme des écarts S, puis à calculer toutes les sommes possibles en changeant les signes des écarts :

somme lorsque tous les écarts sont positifs ;
sommes lorsqu'un écart est négatif ;
sommes lorsque deux écarts sont négatifs ;
…
somme lorsque tous les écarts sont négatifs.

On calcule donc les sommes S_j :

S_j = Σe_ji·|u_i – v_i|

où (e_ji)_{1 ≤ i ≤ n} est une suite dans {–1 ; 1}.

Il y a donc card{–1 ; 1}ⁿ = 2ⁿ sommes (S fait partie de ces sommes). On compte le nombre de sommes qui sont supérieures ou égales à S ; soir R ce nombre. Parmi les 2ⁿ possibilités, la probabilité, sous l'hypothèse nulle, que l'on ait le cas présent ou un cas plus éloigné de 0 est R/2ⁿ :

P(S_j ≥ S sous H₀) = R/2ⁿ.

On peut donc rejeter l'hypothèse nulle avec un niveau de confiance de 1 – P(S_j ≥ S sous H₀) = 1 – R/2ⁿ, ou, en pourcentages, 100 × (1 – R/2ⁿ) % :

1 – R/2ⁿ est la probabilité d'accepter H₀ alors que H₀ est fausse.

Ce test peut se faire à la main jusqu'à environ 10 points de retournement (soit 1 024 sommes à calculer). Au-delà, il faut avoir recours à un programme, l'algorithme a une complexité en O(2ⁿ).

Si l'hypothèse nulle est rejetée, cela signifie qu'une des séries est en avance sur l'autre. On peut déterminer l'avance en enlevant un pas (un mois, un trimestre) à toutes les sommes déjà calculées, jusqu'à ce que l'on tombe dans l'hypothèse nulle. Avec la même démarche, on peut valider l'hypothèse « les deux séries sont décalées de m mois ». On peut par ailleurs calculer le niveau de confiance pour un décalage de m mois, et ainsi obtenir le « profil d'avance »

niveau de confiance = ƒ(avance)

Test des différences extrêmes de Moses

Le test de Moses permet de comparer l'avance de deux séries par rapport à l'indicateur avancé, dans le cas où il n'y a pas de différence significative dans la tendance centrale des avances, mais une différence dans la dispersion.

Considérons une série C, dont l'avance sur l'indicateur avancé est réputée concentrée ; et une série E, dont l'avance sur l'indicateur avancé est réputée étendue. Il y a n_C points de retournement pour C, et n_E points de retournement pour E. Les avances sont notées respectivement u_Ci et u_Ei.

On classe les u_Ci et les u_Ei dans une même liste, par ordre croissant ; cette liste contient n_C + n_E éléments.

L'hypothèse nulle est que les deux indicateurs E et C proviennent de la même population. Si c'est le cas, les éléments u_Ci et les u_Ei doivent être bien répartis dans la liste unique ordonnée.

Dans l'hypothèse alternative :

soit les avances de E sont plus faibles que celles de C ; les éléments de E sont concentrés au début la liste unique ordonnée, et les éléments de C à la fin ;
soit les avances de E sont plus élevées que celles de C ; les éléments de E sont concentrés à la fin la liste unique ordonnée, et les éléments de C au début
soit les avances de E sont plus faibles ou plus fortes que celles de C ; les éléments de E sont concentrés au début et à la fin de la liste unique ordonnée, et les éléments de C au milieu.

On appelle s (pour span) l'étendue de C, c'est-à-dire le nombre d'éléments de la liste unique ordonnée compris entre le plus petit et le plus grand élément de C (inclus). Il y a donc une suite de s éléments consécutifs de la liste unique ordonnée qui contient tous les u_Ci, et cette suite est la plus petite. Cette suite contient un nombre g d'éléments de E :

g = s – n_C.

Pour des raisons de stabilité, on exclut les h éléments extrêmes de C (typiquement h = 1 ou 2), et l'on définit l'étendue s_h de ces n_C – 2h éléments de C. Et ainsi :

g = s_h – (n_C – 2h).

La probabilité sous hypothèse nulle que s_h ait la valeur observée vaut :

\mathrm {P} (s_{\mathrm {h} }\leqslant n_{\mathrm {C} }-2h+g)={\frac {\sum _{i=0}^{g}{\begin{pmatrix}i+n_{\mathrm {C} }-2h-2\\i\end{pmatrix}}\cdot {\begin{pmatrix}n_{\mathrm {E} }+2h+1-i\\n_{\mathrm {E} }-i\end{pmatrix}}}{\begin{pmatrix}n_{\mathrm {C} }+n_{\mathrm {E} }\\n_{\mathrm {C} }\end{pmatrix}}}

où ${\begin{pmatrix}n\\p\end{pmatrix}}=\mathrm {C} _{n}^{p}$ est la combinaison de p parmi n.

Si cette probabilité est inférieure ou égale à un niveau de confiance donné, alors on rejette l'hypothèse nulle en faveur de l'hypothèse alternative : E est plus étendu que C.

Notes et références

↑ Anirvan Banerji, « The lead profile and other non-parametric tools to evaluate survey series as leading indicators », CIRET Conference, Wellington, New Zealand, n^o 24,‎ 17-20 mars 1999 (lire en ligne)

Voir aussi

Articles connexes

Liens externes

Emmanuel Michaux et Muriel Nguiffo-Boyom, « Le secteur des biens intermédiaires peut-il servir d'indicateur avancé de la conjoncture industrielle en France ? », Analyses économiques, n^o 35,‎ mars 2004, p. 7 (lire en ligne)

Portail des probabilités et de la statistique

[1] Anirvan Banerji, « The lead profile and other non-parametric tools to evaluate survey series as leading indicators », CIRET Conference, Wellington, New Zealand, n^o 24,‎ 17-20 mars 1999 (lire en ligne)

[1]