En informatique théorique, en combinatoire, et notamment en combinatoire des mots, un motif inévitable est un motif (au sens défini ci-dessous) qui apparaît dans tout mot assez long. Un motif est évitable sinon. Par exemple, le motif est inévitable sur deux lettres et évitable sur trois lettres, parce que tout mot assez long sur deux lettres contient un carré (composé de deux facteurs consécutifs égaux), et qu'il existe des mots arbitrairement longs sans carré sur trois lettres.

Les motifs évitables et inévitables généralisent la notion de répétition dans les mots, et leur étude s'inscrit dans celle des régularités dans les mots.

Définitions

modifier

Soit   un alphabet, et soit   un autre alphabet, appelé l'alphabet des symboles de motifs ou des variables. Un motif est un mot non vide sur E. Un mot   sur   est une instance d'un motif   s'il existe un morphisme non effaçant   tel que  . Un mot   évite le motif   si aucun facteur   de   n'est une instance de  . Une définition équivalente est la suivante : le langage du motif   est l'ensemble des mots  , où   est comme ci-dessus un morphisme non effaçant; un mot   évite le motif   si aucun facteur de   n'est dans le langage de  . Si   n'évite pas le motif  , on dit que   rencontre   ou contient une instance du motif  [1].

Par exemple, le mot   (où   sont des lettres de  ) rencontre le motif   (  et   sont des lettres de  ); en effet, le facteur   de   est l'image de   par le morphisme qui envoie   sur   et   sur  . Le facteur   aussi est dans le langage du motif   : il est l'image de   par le morphisme qui envoie   sur   et   sur  . Le mot   évite le motif  , puisqu'il ne contient pas de carré, c'est-à-dire pas deux facteurs consécutifs égaux[2].

Un motif   est évitable s'il existe une infinité de mots sur un alphabet fini qui évitent  . De manière équivalente, un motif est évitable s'il existe un mot infini qui évite  . Dans le cas contraire, le motif   est dit inévitable[2]. Par exemple, le motif   est inévitable : tout mot assez long contient deux occurrences de la même lettre séparées par au moins une lettre.

Exemples

modifier
  • La suite de Prouhet-Thue-Morse évite les motifs   (elle est sans cube) et   (elle est sans facteur chevauchant)[3],[2].
  • Les motifs   et   sont inévitables sur tout alphabet[4],[5].
  • Le motif   est évitable sur trois lettres[3],[4]. Les mots qui évitent ce motif sont appelés mots sans carré[6],[2].
  • Les motifs   pour   sont évitables sur deux lettres : la suite de Prouhet-Thue-Morse est un exemple pour  [3].
  • Les mots de Zimin (ou sesquipuissances) sont inévitables[5].
  • Tout mot de longueur au moins 29 sur 3 lettres contient une occurrence du motif  

En arithmétique

modifier

Il est possible de s'intéresser aux motifs inévitables contenus dans l'écriture décimale (ou dans d'autres bases de numération) de nombres appartenant à des sous-ensembles de l'ensemble des entiers naturels. Ainsi 14 est un motif inévitable de l'ensemble   car les écritures des deux éléments de S contiennent les chiffres 1 et 4 dans cet ordre.

Nombres premiers inévitables

modifier

On s'intéresse aux motifs inévitables contenus dans l'écriture des nombres premiers qui sont eux-mêmes des nombres premiers. Plus précisément, on cherche le plus petit ensemble de nombres premiers dont au moins l'un des éléments apparait dans l'écriture de tout nombre premier. On a alors les résultats suivants[7]:

  • en base 2 l'ensemble inévitable minimal des nombres premiers est  [a];
  • en base 3 l'ensemble inévitable minimal des nombres premiers est  [b];
  • en base 4 l'ensemble inévitable minimal des nombres premiers est  [c];
  • en base 10 l'ensemble inévitable minimal des nombres premiers est  .

Tout nombre premier écrit en base 10 contient l'un des motifs de l'ensemble donné ci-dessus. Par exemple 6 661 contient le motif 61.

Puissances de deux

modifier

On s'intéresse aux motifs inévitables contenus dans l'écriture en base 10 des puissances de deux qui sont eux-mêmes des puissances de deux. Il est conjecturé que l'ensemble inévitable minimal des puissances de deux est[7]:  .

Le motif ABACABA

modifier

Ce motif est le point de départ d'études ou de recherches sur des objets auto-similaires, et donné lieu à plusieurs publications scientifiques ou plus ludiques[8], notamment

Indice d'évitabilité

modifier

S'il existe un mot infini sur   lettres qui évite un motif  , le motif est dit  -évitable. Sinon, il est  -inévitable. Si   est évitable, le plus petit entier   tel que   est  -évitable, noté  , est appelé l'indice d'évitabilité de  [9]. Si   est inévitable, son indice d'évitabilité est, par définition,  . Par exemple, comme le motif   est inévitable, son indice est  . En revanche, l'indice d'évitabilité du motif   est 3, car il existe un mot sans carré infini sur trois lettres, et il n'en existe pas sur deux lettres. Ainsi  .

Pour les motifs binaires, sur deux variables   et  , on a[10],[11] :

  •   sont inévitables;
  • les motifs   ont l'indice d'évitabilité 3;
  • tous les autres motifs ont l'indice d'évitabilité 2.

Une variable qui n’apparaît qu'une fois dans un motif est dite isolée. On associe à un motif   une « formule »   en remplaçant dans   chaque variable isolée par un point. Les facteurs entre des points sont appelés des fragments.

Une occurrence d'une formule   dans un mot   est un morphisme non effaçant   tel que l'image par   de chaque fragment de   est un facteur de  . Comme pour les motifs, l'indice d'évitabilité   d'une formule   est la taille du plus petit alphabet qui ne contient pas d'occurrence de la formule  . Si   est la formule associée à un motif  , tout mot évitant   évite aussi  , et on a donc  . S'il existe un mot infini qui évite  , il existe aussi un mot infini récurrent qui évite  . Ce mot récurrent évite aussi  , de sorte qu'on a  .

L'indice d'évitabilité de toute formule binaire, c'est-à-dire composée de deux variables, a été déterminé par Pascal Ochem et Matthieu Rosenfeld[12].

Une formule   est dite divisible par une formule   si   n'évite pas  , en d'autres termes s'il existe un morphisme non effaçant   tel que l'image par   de tout fragment de   est un facteur d'un fragment de  . Si   est divisible par  , alors tout mot évitant   évite aussi  , donc  . Le retourné   d'une formule   et   ont même indice d'évitabilité, donc  . Par exemple, le fait que   est 2-évitable implique que   ou   sont 2-évitables.

R. J. Clark a introduit[13] la notion de base de  -évitabilité pour les formules : c'est le plus petit ensemble   de formules tel que, pour tout indice  , toute formule évitable à   variables est divisible par une formule à au plus   variables dans  .

Une formule circulaire[14] est une formule dont chaque fragment est obtenu par une permutation circulaire des lettres du précédent, par exemple   ou  .

Clark a montré que l'index d'évitabilité est au plus 4 pour toute formule circulaire et pour toute formule de la base de 3-évitabilité, et donc pour toute formule évitable contenant au plus 3 variables. Cette propriété a été précisé par Gamard et al.[14]

Bornes sur les mots de Zimin

modifier

Les mots de Zimin sont définis par récurrence par

  et  ,

  sont des lettres. Les premiers mots sont :  

On s'intéresse à la longueur des mots sur un alphabet à   lettres qui contient en facteur une copie du mot de Zimin  , c'est-à-dire une image du mot  , où chaque lettre est remplacée par un mot non vide. Ainsi, le mot

 

est une copie de  , de même   est une copie de   (en remplace au choix   par   et   par  , ou on laisse   inchangé et on remplace   par  ). Plus généralement,   contient deux copies de  , et   est une copie de   obtenue en remplaçant les occurrences de la première lettre   par  .

On définit une fonction   par :

  est le plus petit entier   tel que tout mot de longueur   sur un alphabet à   lettres contient en facteur une copie du mot de Zimin  .

On a   et  . La deuxième égalité vient du fait que, par le principe du tiroir, au moins une lettre apparaît trois fois dans tout mot de longueur  . La copie de   consiste en la première et la troisième occurrence de cette lettre, le facteur non vide qui les sépare étant l'image de la lettre  . D'autre part, la borne est atteinte puisque le mot   de longueur   ne contient pas de copie de  .

Une relation de récurrences sur   est donnée par la formule suivante de Cooper et Rorabaugh[15] :

 .

Un mot de longueur   se factorise en effet en   mots, chacun de longueur   séparés par une lettre. Chacun des facteurs de longueur   contient une copie de  . Comme il y en a  , deux de ces facteurs sont égaux. Comme ces deux copies sont séparées par au moins une lettre, ceci fournit une copie de  . On peut améliorer cette majoration dans le cas de 3 lettres[16] :

 

En fait, on a même[17] :

 .

Des majorations et minorations pour d'autres cas font intervenir une fonction tour (tower en anglais) d'itération d'exponentiation, notée   et définie par :

  et  .

Ainsi

 ,  ,  ,  .

Avec ces notations, on a:

 

et aussi une minoration sous forme d'une tour d'exponentielles, même dans le cas d'un alphabet binaire[17],[18],[19] :

  et   (pour  ).

Notes et références

modifier
  1. 10 et 11 sont bien des nombres premiers (ce sont les écritures binaires de deux et de trois). Le résultat découle de ce que tout nombre premier autre que 2 est impair.
  2. Ce sont les écritures ternaires de deux, de trois et de treize.
  3. Ce sont les écritures quaternaires de deux, de trois et de cinq.

Références

modifier
  1. Cassaigne 2011, p. 112
  2. a b c et d Berstel et al. 2008, p. 127
  3. a b et c Cassaigne 2011, p. 113.
  4. a et b Allouche et Shallit 2003, p. 24.
  5. a et b Cassaigne 2011, p. 115.
  6. Cassaigne 2011, p. 114.
  7. a et b Pascal Boyer, Petit compagnon des nombres et de leurs applications, Paris, Calvage et Mounet, , 648 p. (ISBN 978-2-916352-75-6), II - Nombres premiers, chap. 1.7 (« Nombres premiers inévitables »), p. 195-197.
  8. En plus, ce sigle est également un nom commercial.
  9. Cassaigne 2011, p. 124.
  10. Cassaigne 2011, p. 126.
  11. Pacal Ochem, « A generator of morphisms for infinite words », RAIRO - Theor. Inform. Appl., vol. 40,‎ , p. 427-441.
  12. Pascal Ochem et Matthieu Rosenfeld, « Avoidability of Formulas with Two Variables », dans S. Brlek et C. Reutenauer (diteurs), Proceedings of the 20th international Conference, DLT 2016, coll. « Springer Lecture Notes in Computer Science » (no 9840), , 344-354 p. (DOI 10.1007/978-3-662-53132-7_28, arXiv 1606.03955).
  13. R. J. Clark, Avoidable formulas in combinatorics on words (PhD thesis), Los Angeles, University of California, (lire en ligne).
  14. a et b Guilhem Gamard, Pascal Ochem, Gwenaël Richomme et Patrice Séébold, « Avoidability of circular formulas », Theoretical Computer Science, vol. 726,‎ , p. 1-4 (DOI 10.1016/j.tcs.2017.11.014, arXiv 1610.04439).
  15. Cooper et Rorabaugh 2014.
  16. Rytter et Shur 2015.
  17. a et b Conlon, Fox et Sudakov 2017.
  18. Carayol et Göller 2017.
  19. Carayol et Göller 2019.
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Unavoidable pattern » (voir la liste des auteurs).


Bibliographie

modifier
Chapitres dans des livres
Articles
  • [2014] Joshua Cooper et Danny Rorabaugh, « Bounds on Zimin word avoidance », Congressus Numerantium, vol. 222,‎ , p. 87-95 (ISSN 0384-9864, MR 3328869).
  • [2015] Wojciech Rytter et Arseny M. Shur, « Searching Zimin patterns », Theoret. Comput. ci., vol. 571,‎ , p. 50-57 (DOI 10.1016/j.tcs.2015.01.004).
  • [2016] Joshua Cooper et Danny Rorabaugh, « Asymptotic density of Zimin words », Discrete Math. Theor. Comput. Sci., vol. 18, no 3,‎ , article no 3 (25 pages) (MR 3625459).
  • [2019] David Conlon, Jacob Fox et Benny Sudakov, « Tower-type bounds for unavoidable patterns in words », Transactions of the American Mathematical Society, vol. 372, no 9,‎ , p. 6213-6229 (DOI 10.1090/tran/7751, arXiv 1704.03479).
  • [2017] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », dans Heribert Vollmer et Brigitte Vallée (éditeurs), 34th Symposium on Theoretical Aspects of Computer Science (STACS 2017), coll. « Leibniz International Proceedings in Informatics (LIPIcs) » (no 66), (ISBN 978-3-95977-028-6, ISSN 1868-8969, DOI 10.4230/LIPIcs.STACS.2017.19, lire en ligne), p. 19:1-19:13.
  • [2019] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », Theory of Computing Systems, vol. 63, no 5,‎ , p. 926–955 (DOI 10.1007/s00224-019-09914-2).
Thèse