En théorie des graphes et en statistique, un graphon (aussi connu sous le terme limite de graphes) est une fonction symétrique mesurable , qui joue un rôle important dans l'étude des graphes denses. Les graphons sont à la fois une notion naturelle de limite d'une suite de graphes denses, et sont aussi les objets fondamentaux dans la définition des modèles de graphes aléatoires échangeables.

Réalisation d'un graphe aléatoire échangeable défini par un graphon. Le graphon est représenté sous la forme d'une carte thermique magenta (en bas à droite). Un graphe aléatoire de taille est généré en assignant indépendamment à chaque sommet une variable aléatoire latente (valeurs sur l'axe vertical) et comprenant chaque arête indépendamment avec la probabilité . Par exemple, l'arête (vert, pointillé) est présente avec la probabilité  ; les cases vertes dans le carré de droite représentent les valeurs de et . La partie supérieure gauche montre la réalisation du graphe sous la forme d'une matrice d'adjacence.

Les graphons sont liés aux graphes denses : d'une part, les modèles de graphes aléatoires définis par les graphons donnent lieu à des graphes denses presque sûrement. D'autre part, par le lemme de régularité de Szemerédi, les graphons capturent de nombreux aspects de la structure des graphes denses de grande taille.

Formulation statistique modifier

Un graphon est une fonction symétrique mesurable  . Habituellement, un graphon est un modèle de graphes aléatoires échangeables selon le schéma suivant :

  1. À chaque sommet   du graphe est attribuée une valeur aléatoire indépendante  
  2. Une arête   figure dans le graphe avec probabilité  .

Un modèle de graphes aléatoires est un modèle de graphes aléatoires échangeable si et seulement s'il peut être défini en termes d'un graphon (éventuellement aléatoire) de cette manière. Le modèle basé sur un graphon fixe   est parfois noté  , par analogie avec le modèle d'Erdős-Rényi (en) de graphes aléatoires. Un graphe généré à partir d'un graphon   de cette manière est appelé un graphe  -aléatoire.

Il résulte de cette définition et de la loi des grands nombres que, si  , les modèles de graphes aléatoires échangeables sont denses presque sûrement[1].

Exemples modifier

L'exemple le plus simple d'un graphon est   pour une constante  . Dans ce cas, le modèle de graphes aléatoires échangeables associé est le modèle d'Erdős-Rényi (en)   qui contient chaque arête indépendamment avec probabilité  .

Plus généralement, on peut utiliser un graphon qui est constant par morceaux, en divisant le carré unité en   blocs, et en posant   sur le bloc d'indices  . Le modèle de graphes aléatoires échangeables qui en résulte est le modèle stochastique en blocs (en), une généralisation du modèle Erdős-Rényi.

On peut interpréter ce modèle comme un modèle de graphes aléatoires composé de   graphes d'Erdős-Rényi distincts avec les paramètres   respectivement, avec des bigraphes entre eux, où chaque arête possible entre les blocs   et   est incluse indépendamment avec la probabilité  .

De nombreux autres modèles de graphes aléatoires populaires peuvent être compris comme des modèles de graphes aléatoires échangeables définis par un graphon ; un aperçu détaillé est donné dans l'article d'Orbanz et Roy[1].

Matrices d'adjacence échangeables modifier

Un graphe aléatoire de taille   peut être représenté comme une matrice d'adjacence aléatoire  . Afin d'imposer une cohérence entre des graphes aléatoires de tailles différentes, il est naturel d'étudier la séquence des matrices d'adjacence qui apparaissent comme sous-matrices supérieures   d'une matrice infinie de variables aléatoires ; cela permet de générer   en ajoutant un nœud à   et en échantillonnant les arêtes   pour  . Dans cette perspective, les graphes aléatoires sont définis comme des tableaux infinis symétriques aléatoires  .

L'importance fondamentale des variables aléatoires échangeables (en) dans les probabilités classiques incite à rechercher une notion analogue dans le cadre des graphes aléatoires. Une telle notion est donnée par les matrices échangeables conjointement, c'est-à-dire les matrices aléatoires satisfaisant

 

pour toute permutation   d'entiers naturels, où   est l'égalité en distribution. Intuitivement, cette condition signifie que la distribution des graphes aléatoires est inchangée par un réétiquetage de ses sommets ; autrement dit, les étiquettes des sommets ne portent aucune information.


Il existe un théorème de représentation pour les matrices d'adjacences aléatoires échangeables conjointement, analogue au théorème de représentation de De Finetti (en) pour les séquences échangeables. Il s'agit d'un cas particulier du théorème d'Aldous-Hoover (en) pour les tableaux échangeables conjointement et, dans ce cadre, il affirme que la matrice aléatoire   est générée comme suit :

  1. échantilloner indépendamment  
  2.   indépendamment aléatoirement avec une probabilité  

  est un graphon (éventuellement aléatoire). Autrement dit, modèle de graphes aléatoires a une matrice d'adjacence échangeable conjointement si et seulement si c'est un modèle de graphes aléatoires échangeables conjointement défini en termes d'un certain graphon.

Estimation de graphons modifier

En raison de problèmes d'identifiabilité, il est impossible d'estimer la fonction graphon   ou les positions latentes des nœuds   ; il existe deux aproches principales pour l'estimation du graphon. Une direction vise à estimer   à une classe d'équivalence près [2],[3], ou d'estimer la matrice de probabilités induite par  [4],[5].

Formulation analytique modifier

Tout graphe   à   sommets   peut être identifié à sa matrice d'adjacence  . Cette matrice correspond à une fonction en escalier  , définie par le partitionnement   en intervalles  , où l'intervalle   et, pour  ,

 .

La fonction   est le graphon associé' au graphe  .

En général, pour une suite de graphes   dont le nombre de sommets tend vers l'infini, on peut analyser le comportement limite de la suite en considérant le comportement limite des fonctions  . Si ces graphes convergent (selon une définition appropriée de convergence), alors la limite de ces graphes correspond à la limite de ces fonctions associées.

Cela motive la définition d'un graphon (abréviation de "fonction de graphe") comme une fonction symétrique mesurable   qui capte la notion de limite d'une suite de graphes. Il s'avère que pour des suites de graphes denses, plusieurs notions de convergence apparemment distinctes sont équivalentes et que, pour chacune d'elles, l'objet limite naturel est un graphon[6].

Exemples modifier

Exemple 1: On considère une suite aléatoire   graphes d'Erdős-Rényi   avec un paramètre fixe  . Intuitivement, comme   tend vers l'infini, la limite de cette suite de graphes est déterminée uniquement par la densité des arêtes de ces graphes.

Dans l'espace des graphons, il s'avère qu'une telle suite converge presque sûrement vers fonction constante  , ce qui correspond à l'intuition ci-dessus.

Exemple 2: On considère la suite   de demi-graphes définie en prenant pouur   le graphe bipartite sur les sommets  u_1, u_2, \dots, u_  et   tels   soit adjacent à   quand  . Si les sommets sont énumérés dans l'ordre, alors la matrice d'adjacence   a deux coins qui sont des matrices blocs « demi-carrés » remplis de 1, le reste des entrées étant égal à zéro. Par exemple, la matrice d'adjacence de   est donnée par

 

Quand   croît, ces deux coins deviennent lisses. Conformément à cette intuition, la suite   converge vers le demi-graphon   défini par   lorsque   et   sinon.

Exemple 3: On considère une suite   de graphes bipartis complets avec deux parties de même taille. On ordonne les sommets en plaçant tous les sommets d'une partie avant les sommets de l'autre partie. La matrice d'adjacence de   est semblable à une matrice de diagonale, avec deux blocs de uns et deux blocs de zéros. Par exemple, la matrice d'adjacence de   est donnée par

 

Quand   croît, cette structure en blocs de la matrice d'adjacence demeure, de sorte que cette suite de graphes converge vers un graphon « bipartite complet »   défini par   si   et  , et   sinon.

Exemple 4: On considère la suite   de l'exemple précédent. Si on ordonne les sommets en alternant entre les deux parties, la matrice d'adjacence a une structure d'échiquier de zéros et de uns. Par exemple, dans cet ordre, la matrice d'adjacence de   est donnée par

 

Quand   croît, la matrice d'adjacence devient un échiquier de plus en plus fin. Malgré ce comportement, la limite de   doit unique et égale au graphon de l'exemple 4. Cela signifie que la définition d'une limite d'une suite de graphes doit être indépendante de ré-étiquetages des sommets.

Exemple 5: On considère une suite aléatoire   de graphes aléatoires pour   en posant   pour un graphon fixe  . Alors, et comme dans le premier exemple de cette section, la suite   converge vers   presque sûrement.

Exemple 6: Étant donné le graphe   avec graphon associé  , on peut retrouver des paramètres du graphe   en récupérant des transformations de  .

Par exemple, la densité des arêtes (c'est-à-dire le degré moyen divisé par le nombre de sommets) de   est donnée par l'intégrale

 .

En effet,   est à valeurs dans  , et chaque chaque   de   correspond à une région   de surface    est égal à  .

Un raisonnement similaire montre que le nombre de triangles de   est égal à

 

Notions de convergence modifier

Il existe de nombreuses façons de mesurer la distance entre deux graphiques. Si on s'intéresse aux métriques qui « préservent » les propriétés extrémales des graphes, on doit se limiter aux métriques qui considèrent que des graphes aléatoires sont similaires. Par exemple, si on tire aléatoirement deux graphes indépendamment dans un modèle d'Erdős-Rényi   pour certains   fixes, la distance entre ces deux graphes pour une métrique « raisonnable » doit être proche de zéro avec une grand probabilité pour les grands entiers  .

Il existe deux métriques naturelles qui se comportent bien en ce sens sur les graphiques aléatoires denses. La première est une métrique d'échantillonnage, pour laquelle deux graphes sont proches si les distributions de leurs sous-graphes sont proches. La seconde est une métrique de discrépance (en) des arêtes, pour lasuelle deux graphes sont proches lorsque les densités de leurs arêtes sont proches sur tous leurs sous-ensembles correspondants de sommets.

Miraculeusement, une suite de graphes converge lorsque pour l'une des distances précisément lorsqu'elle converge pour l'autre. De plus, les objets limite pour les deux distances sont des graphons. L'équivalence de ces deux notions de convergence reflète l'équivalence des différentes notions de graphes quasi-aléatoires au sens de Fan_Chung[7].

Nombre de sous-graphes modifier

Une façon de mesurer la distance entre deux graphes   et   est de comparer leurs nombres de sous-graphes. CEn d'autres termes, pour chaque graphe  , on compare le nombre de copies de   dans   et dans  . Si ces nombres sont proches pour chaque graphe  , alors intuitivement   et   sont des graphes d'apparence similaire.

Densité homomorphe modifier

Il est équivalent de considérer des homomorphismes des graphes plutôt que directement les sous-graphes. En effet, pour de grands graphes denses, le nombre de sous-graphes et le nombre d'homomorphismes de graphes à partir d'un graphe fixe sont asymptotiquement égaux.

Étant donné les deux graphes   et  , la densité d'homomorphismes (en)   de   dans   est définie comme étant le nombre de morphismes de graphes de   dans  . En d'autres termes,   est la probabilité pour qu'une fonction choisie au hasard des sommets de   dans les sommets de   envoie des sommets adjacents dans   sur des sommets adjacents dans  .

Les graphons offrent un moyen simple de calculer les densités d'homomorphismes. En effet, pour un graphe   avec graphon associé   et un autre graphe  , on a

 ,

où l'intégrale est multidimensionnelle, et évaluée sur l' hypercube unité  . Ceci découle de la définition d'un graphon associé, quand on considère le cas où l'intégrale ci-dessus vaut  . On peut alors étendre la définition de la densité d'homomorphismes à des graphons arbitraires  , en utilisant la même intégrale et en définissant

 

pour tout graphe  .

Limites en termes de densité d'homomorphismes modifier

Dans ce cadre, une suite de graphes   est dite convergente si, pour chaque graphe fixé  , la suite de densités d'homomorphismes   converge. Bien que cela ne résulte pas immédiatement de la définition, si   converge en ce sens, alors il existe un graphon   tel que, pour chaque graphon  , on ait également

 
.

Distance de coupe modifier

Soient   et   deux graphes sur le même ensemble de sommets. Une façon de mesurer leur distance est de se restreindre aux sous-ensembles   de l'ensemble des sommets, et pour chaque paire de ces sous-ensembles, de comparer le nombre d'arêtes   de   vers   dans   au nombre d'arêtes   entre   et   dans  . Si ces nombres sont proches (par rapport au nombre total de sommets) pour chaque paire de sous-ensembles, cela suggère que   et   sont des graphes similaires.

Formellement, on définit, pour toute fonction symétrique mesurable  , la norme de coupe comme étant la quantité

 

prise sur tous les sous-ensembles mesurables   de l'intervalle unité[6].

Cette norme étend la notion de distance définie plus haut, car pour deux graphes   et   avec un même ensemble   de   sommets, la norme de coupe avec les graphons associés

 

permet de calculer la discrépance maximale des densités d'arêtes entre   et  . Cette définition peut être utilisée aussi lorsque les graphees ne sont pas sur le même ensemble de sommets.

Cette mesure de distance a encore un défaut : elle peut attribuer une distance non nulle à deux graphes isomorphes. Pour s'assurer que des graphes isomorphes sont à distance nulle, il faut calculer la norme de coupe minimale sur tous les réétiquetages possibles des sommets.

Cela motive la définition de la distance de coupe entre deux graphons   et   comme étant

 

  est la composition de   avec l'application  , et l'infimum est pris sur toutrd les mesures bijections préservant les mesures de l'intervalle unité dans lui-même[8]. La distance de coupe entre deux graphes est définie comme étant la distance de coupe entre les graphonss associés.


Espace métrique modifier

Pour transformer la distance de coupure en une distance d'espace métrique, on considère l'ensemble de tous les graphons et on identifie deux graphons   quand  . L'espace de graphons résultant, noté  , est un espace métrique pour  .

Cet espace est compact. De plus, l'ensemble de tous les graphes est une partie dense de l'espace. Les graphes sont identifiés comme des fonctions en escalier à valeurs dans   sur le carré unité. Ces observations montrent que l'espace des graphons est l'complété de l'espace des graphes par rapport à la distance de coupe.

Applications modifier

Lemme de régularité modifier

En utilisant la compacité de l'espace des graphons  , on peut prouver des versions plus fortes du lemme de régularité de Szemerédi.

Conjecture de Sidorenko modifier

La nature analytique des graphons permet une plus grande flexibilité dans l'approches des inégalités concernant les homomorphismes.

Par exemple, la conjecture de Sidorenko est un problème ouvert majeur en théorie des graphes extrémaux ; elle affirme que pour tout graphe   à   sommets avec degré moyen   pour un  , et pour un graphe bipartite   à   sommets et   arêtes, le nombre de morphismes de   dans   est au moins égal à  [9]. Puisque cette quantité est le nombre moyen de sous-graphes étiquetés de   d'un graphe aléatoire  , la conjecture peut être interprétée comme l'énoncé que, dans tout graphe bipartite  , un graphe aléatoire atteint (en moyenne) le nombre minimum de copies de   parmi tous les graphes ayant une certaine densité d'arêtes fixée.

De nombreuses approches de la conjecture de Sidorenko formulent le problème comme une inégalité intégrale sur des graphes, ce qui permet ensuite d'attaquer le problème en utilisant d'autres approches analytiques[10].

Généralisations modifier

Les graphons sont naturellement associés aux graphes simples denses. Il existe des extensions de ce modèle à des graphes orientés denses pondérés, souvent appelés graphons décorés[11]. Il existe également des extensions récentes à la famille des graphes creux, tant du point de vue des modèles de graphes aléatoires[12] que de la théorie des limites des graphes[13],[14].

Notes et références modifier

  1. a et b P. Orbanz et D.M. Roy, « Bayesian Models of Graphs, Arrays and Other Exchangeable Random Structures », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no 2,‎ , p. 437–461 (PMID 26353253, DOI 10.1109/tpami.2014.2334607, arXiv 1312.7857)
  2. (en) Patrick J. Wolfe et Sofia C. Olhede, « Nonparametric graphon estimation », .
  3. David Choi et Patrick J. Wolfe, « Co-clustering separately exchangeable network data », The Annals of Statistics, vol. 42, no 1,‎ , p. 29–63 (ISSN 0090-5364, DOI 10.1214/13-AOS1173, arXiv 1212.4093).
  4. Chao Gao, Yu Lu et Harrison H. Zhou, « Rate-optimal graphon estimation », The Annals of Statistics, vol. 43, no 6,‎ , p. 2624–2652 (DOI 10.1214/15-AOS1354, arXiv 1410.5837)
  5. Zhang Yuan, Levina Elizaveta et Zhu Ji, « Estimating network edge probabilities by neighbourhood smoothing », Biometrika, vol. 104, no 4,‎ , p. 771–783 (DOI 10.1093/biomet/asx042, lire en ligne).
  6. a et b László Lovász, Large Networks and Graph Limits, American Mathematical Society, coll. « American Mathematical Society colloquium publications » (no 60), , 475 p. (ISBN 9780821890851)
  7. Fan R. K. Chung, Ronald L. Graham et R. M. Wilson, « Quasi-random graphs », Combinatorica, vol. 9, no 4,‎ , p. 345–362 (DOI 10.1007/BF02125347)
  8. D. Glasscock, « What is a graphon », Notices of the American Mathematical Society, vol. 62, no 1,‎ , p. 46–48 (arXiv 1611.00718)
  9. A. Sidorenko, « A correlation inequality for bipartite graphs », Graphs and Combinatorics, vol. 9, nos 2–4,‎ , p. 201–204 (DOI 10.1007/BF02988307)
  10. H. Hatami, « Graph norms and Sidorenko's conjecture », Israel Journal of Mathematics, vol. 175, no 1,‎ , p. 125–150 (DOI 10.1007/s11856-010-0005-1, arXiv 0806.0047)
  11. Vinay A. Vaishampayan, « Classification in a Large Network », 2019 IEEE International Symposium on Information Theory (ISIT),‎ , p. 1807–1811 (DOI 10.1109/ISIT.2019.8849301, arXiv 1902.05531)
  12. Victor Veitch et Daniel M. Roy, « The Class of Random Graphs Arising from Exchangeable Random Measures », ArXiv,‎ (arXiv 1512.03099)
  13. Christian Borgs, Jennifer T. Chayes, Henry Cohn et Yufei Zhao, « An Lp theory of sparse graph convergence I: limits, sparse random graph models, and power law distributions », Transactions of the American Mathematical Society, vol. 372, no 5,‎ , p. 3019–3062 (DOI 10.1090/tran/7543, arXiv 1401.2906)
  14. Christian Borgs, Jennifer T. Chayes, Henry Cohn et Yufei Zhao, « An Lp theory of sparse graph convergence II: LD convergence, quotients, and right convergence », The Annals of Probability, vol. 46, no 1,‎ , p. 337–396 (DOI 10.1214/17-AOP1187, arXiv 1408.0744)