Motif inévitable

En informatique théorique, en combinatoire, et notamment en combinatoire des mots, un motif inévitable est un motif (au sens défini ci-dessous) qui apparaît dans tout mot assez long. Un motif est évitable sinon. Par exemple, le motif $xx$ est inévitable sur deux lettres et évitable sur trois lettres, parce que tout mot assez long sur deux lettres contient un carré (composé de deux facteurs consécutifs égaux), et qu'il existe des mots arbitrairement longs sans carré sur trois lettres.

Les motifs évitables et inévitables généralisent la notion de répétition dans les mots, et leur étude s'inscrit dans celle des régularités dans les mots.

Définitions

Soit $A$ un alphabet, et soit $E$ un autre alphabet, appelé l'alphabet des symboles de motifs ou des variables. Un motif est un mot non vide sur E. Un mot $v$ sur $A$ est une instance d'un motif $p$ s'il existe un morphisme non effaçant $f:E^{+}\to A^{+}$ tel que $f(p)=v$ . Un mot $w$ évite le motif $p$ si aucun facteur $v$ de $w$ n'est une instance de $p$ . Une définition équivalente est la suivante : le langage du motif $p$ est l'ensemble des mots $f(p)$ , où $f$ est comme ci-dessus un morphisme non effaçant; un mot $w$ évite le motif $p$ si aucun facteur de $w$ n'est dans le langage de $p$ . Si $w$ n'évite pas le motif $p$ , on dit que $w$ rencontre $p$ ou contient une instance du motif $p$ ^[1].

Par exemple, le mot $aabaac$ (où $a,b,c$ sont des lettres de $A$ ) rencontre le motif $xyx$ ( $x$ et $y$ sont des lettres de $E$ ); en effet, le facteur $aba$ de $aabaac$ est l'image de $xyx$ par le morphisme qui envoie $x$ sur $a$ et $y$ sur $b$ . Le facteur $aabaa$ aussi est dans le langage du motif $xyx$ : il est l'image de $xyx$ par le morphisme qui envoie $x$ sur $aa$ et $y$ sur $b$ . Le mot $abac$ évite le motif $xx$ , puisqu'il ne contient pas de carré, c'est-à-dire pas deux facteurs consécutifs égaux^[2].

Un motif $p$ est évitable s'il existe une infinité de mots sur un alphabet fini qui évitent $p$ . De manière équivalente, un motif est évitable s'il existe un mot infini qui évite $p$ . Dans le cas contraire, le motif $p$ est dit inévitable^[2]. Par exemple, le motif $xyx$ est inévitable : tout mot assez long contient deux occurrences de la même lettre séparées par au moins une lettre.

Exemples

La suite de Prouhet-Thue-Morse évite les motifs $xxx$ (elle est sans cube) et $xyxyx$ (elle est sans facteur chevauchant)^[3]^,^[2].
Les motifs $x$ et $xyx$ sont inévitables sur tout alphabet^[4]^,^[5].
Le motif $xx$ est évitable sur trois lettres^[3]^,^[4]. Les mots qui évitent ce motif sont appelés mots sans carré^[6]^,^[2].
Les motifs $x^{n}$ pour $n\geq 3$ sont évitables sur deux lettres : la suite de Prouhet-Thue-Morse est un exemple pour $n=3$ ^[3].
Les mots de Zimin (ou sesquipuissances) sont inévitables^[5].
Tout mot de longueur au moins 29 sur 3 lettres contient une occurrence du motif $xyxzxyx$

En arithmétique

Il est possible de s'intéresser aux motifs inévitables contenus dans l'écriture décimale (ou dans d'autres bases de numération) de nombres appartenant à des sous-ensembles de l'ensemble des entiers naturels. Ainsi 14 est un motif inévitable de l'ensemble $S=\{124;1894\}$ car les écritures des deux éléments de S contiennent les chiffres 1 et 4 dans cet ordre.

Nombres premiers inévitables

On s'intéresse aux motifs inévitables contenus dans l'écriture des nombres premiers qui sont eux-mêmes des nombres premiers. Plus précisément, on cherche le plus petit ensemble de nombres premiers dont au moins l'un des éléments apparait dans l'écriture de tout nombre premier. On a alors les résultats suivants^[7]:

en base 2 l'ensemble inévitable minimal des nombres premiers est $\{10;11\}$ ^[a];
en base 3 l'ensemble inévitable minimal des nombres premiers est $\{2;10;111\}$ ^[b];
en base 4 l'ensemble inévitable minimal des nombres premiers est $\{2;3;11\}$ ^[c];
en base 10 l'ensemble inévitable minimal des nombres premiers est $\{2;3;5;7;11;19;41;61;89;409;449;499;881;991;6469;6949;9001;9049;9649;9949;60649;666649;946649;60000049;66000049;66600049\}$ .

Tout nombre premier écrit en base 10 contient l'un des motifs de l'ensemble donné ci-dessus. Par exemple 6 661 contient le motif 61.

Puissances de deux

On s'intéresse aux motifs inévitables contenus dans l'écriture en base 10 des puissances de deux qui sont eux-mêmes des puissances de deux. Il est conjecturé que l'ensemble inévitable minimal des puissances de deux est^[7]: $\{1;2;4;8;65536\}$ .

Le motif ABACABA

Ce motif est le point de départ d'études ou de recherches sur des objets auto-similaires, et donné lieu à plusieurs publications scientifiques ou plus ludiques^[8], notamment

« ABACABA Amazing Pattern, Amazing Connections », Math Horizons,‎ février 2013 (lire en ligne)
Sherioz, « Exploring Fractals with ABACABA », Chicago Geek Guy,‎ 21 avril 2016 (lire en ligne, consulté le 6 octobre 2017)
Mike Naylor, « Abacaba! – Using a mathematical pattern to connect art, music, poetry and literature », 2011 (consulté le 6 octobre 2017)
Craig Conley, Magic Words : A Dictionary, Weiser Books, 1^er octobre 2008, 360 p. (ISBN 978-1-60925-050-8, lire en ligne).

Indice d'évitabilité

S'il existe un mot infini sur $k$ lettres qui évite un motif $p$ , le motif est dit $k$ -évitable. Sinon, il est $k$ -inévitable. Si $p$ est évitable, le plus petit entier $k$ tel que $p$ est $k$ -évitable, noté $\lambda (p)$ , est appelé l'indice d'évitabilité de $p$ ^[9]. Si $p$ est inévitable, son indice d'évitabilité est, par définition, $\infty$ . Par exemple, comme le motif $xyx$ est inévitable, son indice est $\infty$ . En revanche, l'indice d'évitabilité du motif $xx$ est 3, car il existe un mot sans carré infini sur trois lettres, et il n'en existe pas sur deux lettres. Ainsi $\lambda (xx)=3$ .

Pour les motifs binaires, sur deux variables $x$ et $y$ , on a^[10]^,^[11] :

$1,x,xy,xyx$ sont inévitables;
les motifs $xx,xxy,xyy,xxyx,xxyy,xyxx,xyxy,xyyx,xxyxx,xxyxy,xyxyy$ ont l'indice d'évitabilité 3;
tous les autres motifs ont l'indice d'évitabilité 2.

Une variable qui n’apparaît qu'une fois dans un motif est dite isolée. On associe à un motif $p$ une « formule » $f$ en remplaçant dans $p$ chaque variable isolée par un point. Les facteurs entre des points sont appelés des fragments.

Une occurrence d'une formule $f$ dans un mot $w$ est un morphisme non effaçant $h$ tel que l'image par $h$ de chaque fragment de $f$ est un facteur de $w$ . Comme pour les motifs, l'indice d'évitabilité $\lambda (f)$ d'une formule $f$ est la taille du plus petit alphabet qui ne contient pas d'occurrence de la formule $f$ . Si $f$ est la formule associée à un motif $p$ , tout mot évitant $f$ évite aussi $p$ , et on a donc $\lambda (p)\leq \lambda (f)$ . S'il existe un mot infini qui évite $p$ , il existe aussi un mot infini récurrent qui évite $p$ . Ce mot récurrent évite aussi $f$ , de sorte qu'on a $\lambda (p)\leq \lambda (f)$ .

L'indice d'évitabilité de toute formule binaire, c'est-à-dire composée de deux variables, a été déterminé par Pascal Ochem et Matthieu Rosenfeld^[12].

Une formule $f$ est dite divisible par une formule $f'$ si $f$ n'évite pas $f'$ , en d'autres termes s'il existe un morphisme non effaçant $h$ tel que l'image par $h$ de tout fragment de $f'$ est un facteur d'un fragment de $f$ . Si $f$ est divisible par $f'$ , alors tout mot évitant $f'$ évite aussi $f$ , donc $\lambda (f)\leq \lambda (f')$ . Le retourné $f^{R}$ d'une formule $f$ et $f$ ont même indice d'évitabilité, donc $\lambda (f^{R})=\lambda (f)$ . Par exemple, le fait que $ABA{\cdot }AABB$ est 2-évitable implique que $ABAABB$ ou $BAB{\cdot }AABB$ sont 2-évitables.

R. J. Clark a introduit^[13] la notion de base de $n$ -évitabilité pour les formules : c'est le plus petit ensemble $X$ de formules tel que, pour tout indice $i\leq n$ , toute formule évitable à $i$ variables est divisible par une formule à au plus $i$ variables dans $X$ .

Une formule circulaire^[14] est une formule dont chaque fragment est obtenu par une permutation circulaire des lettres du précédent, par exemple $ABA{\cdot }BAB$ ou $ABCA{\cdot }BCAB{\cdot }CABC$ .

Clark a montré que l'index d'évitabilité est au plus 4 pour toute formule circulaire et pour toute formule de la base de 3-évitabilité, et donc pour toute formule évitable contenant au plus 3 variables. Cette propriété a été précisé par Gamard et al.^[14]

Bornes sur les mots de Zimin

Les mots de Zimin sont définis par récurrence par

Z_{0}=\varepsilon

et

Z_{n}=Z_{n-1}a_{n}Z_{n-1}

,

où $a_{1},\dots ,a_{n},\dots$ sont des lettres. Les premiers mots sont : $a,aba,abacaba,abacabadabacaba$

On s'intéresse à la longueur des mots sur un alphabet à $q$ lettres qui contient en facteur une copie du mot de Zimin $Z_{n}$ , c'est-à-dire une image du mot $Z_{n}$ , où chaque lettre est remplacée par un mot non vide. Ainsi, le mot

aabbaacccaabbaa

est une copie de $abacaba$ , de même $abacaba$ est une copie de $aba$ (en remplace au choix $a$ par $aba$ et $c$ par $b$ , ou on laisse $a$ inchangé et on remplace $b$ par $bacab$ ). Plus généralement, $Z_{n}$ contient deux copies de $Z_{n-1}$ , et $Z_{n}$ est une copie de $Z_{n-1}$ obtenue en remplaçant les occurrences de la première lettre $a_{1}$ par $aba$ .

On définit une fonction $f(n,q)$ par :

f(n,q)

est le plus petit entier

M

tel que tout mot de longueur

M

sur un alphabet à

q

lettres contient en facteur une copie du mot de Zimin

Z_{n}

.

On a $f(1,q)=1$ et $f(2,q)=2q+1$ . La deuxième égalité vient du fait que, par le principe du tiroir, au moins une lettre apparaît trois fois dans tout mot de longueur $2q+1$ . La copie de $Z_{2}=aba$ consiste en la première et la troisième occurrence de cette lettre, le facteur non vide qui les sépare étant l'image de la lettre $b$ . D'autre part, la borne est atteinte puisque le mot $a_{1}a_{1}a_{2}a_{2}\cdots a_{q}a_{q}$ de longueur $2q$ ne contient pas de copie de $aba$ .

Une relation de récurrences sur $f(n,q)$ est donnée par la formule suivante de Cooper et Rorabaugh^[15] :

f(n+1,q)\leq (f(n,q)+1)(q^{f(n,q)}+1)-1

.

Un mot de longueur $(f(n,q)+1)(q^{f(n,q)}+1)-1$ se factorise en effet en $q^{f(n,q)}+1$ mots, chacun de longueur $f(n,q)$ séparés par une lettre. Chacun des facteurs de longueur $f(n,q)$ contient une copie de $Z_{n}$ . Comme il y en a $q^{f(n,q)}+1$ , deux de ces facteurs sont égaux. Comme ces deux copies sont séparées par au moins une lettre, ceci fournit une copie de $Z_{n+1}$ . On peut améliorer cette majoration dans le cas de 3 lettres^[16] :

f(3,q)\leq 2^{q+1}(q+1)!

En fait, on a même^[17] :

f(3,q)=\theta (2^{q}q!)

.

Des majorations et minorations pour d'autres cas font intervenir une fonction tour (tower en anglais) d'itération d'exponentiation, notée $T$ et définie par :

T(0,k)=1

et

T(n+1,k)=k^{T(n,k)}

.

Ainsi

T(1,k)=k

,

T(2,k)=k^{k}

,

T(3,k)=k^{k^{k}}

,

T(4,k)=k^{k^{k^{k}}}

.

Avec ces notations, on a:

f(n,q)\leq T(n,q)

et aussi une minoration sous forme d'une tour d'exponentielles, même dans le cas d'un alphabet binaire^[17]^,^[18]^,^[19] :

f(n,q)\leq T(n,q)

et

f(n,2)\geq T(n-3,2)

(pour

n\geq 4

).

Notes et références

Notes

↑ 10 et 11 sont bien des nombres premiers (ce sont les écritures binaires de deux et de trois). Le résultat découle de ce que tout nombre premier autre que 2 est impair.
↑ Ce sont les écritures ternaires de deux, de trois et de treize.
↑ Ce sont les écritures quaternaires de deux, de trois et de cinq.

Références

↑ Cassaigne 2011, p. 112
↑ ^{a b c et d} Berstel et al. 2008, p. 127
↑ ^{a b et c} Cassaigne 2011, p. 113.
↑ ^{a et b} Allouche et Shallit 2003, p. 24.
↑ ^{a et b} Cassaigne 2011, p. 115.
↑ Cassaigne 2011, p. 114.
↑ ^{a et b} Pascal Boyer, Petit compagnon des nombres et de leurs applications, Paris, Calvage et Mounet, 2019, 648 p. (ISBN 978-2-916352-75-6), II - Nombres premiers, chap. 1.7 (« Nombres premiers inévitables »), p. 195-197.
↑ En plus, ce sigle est également un nom commercial.
↑ Cassaigne 2011, p. 124.
↑ Cassaigne 2011, p. 126.
↑ Pacal Ochem, « A generator of morphisms for infinite words », RAIRO - Theor. Inform. Appl., vol. 40,‎ 2006, p. 427-441.
↑ Pascal Ochem et Matthieu Rosenfeld, « Avoidability of Formulas with Two Variables », dans S. Brlek et C. Reutenauer (diteurs), Proceedings of the 20th international Conference, DLT 2016, coll. « Springer Lecture Notes in Computer Science » (n^o 9840), 2016, 344-354 p. (DOI 10.1007/978-3-662-53132-7_28, arXiv 1606.03955).
↑ R. J. Clark, Avoidable formulas in combinatorics on words (PhD thesis), Los Angeles, University of California, 2001 (lire en ligne).
↑ ^{a et b} Guilhem Gamard, Pascal Ochem, Gwenaël Richomme et Patrice Séébold, « Avoidability of circular formulas », Theoretical Computer Science, vol. 726,‎ 2018, p. 1-4 (DOI 10.1016/j.tcs.2017.11.014, arXiv 1610.04439).
↑ Cooper et Rorabaugh 2014.
↑ Rytter et Shur 2015.
↑ ^{a et b} Conlon, Fox et Sudakov 2017.
↑ Carayol et Göller 2017.
↑ Carayol et Göller 2019.

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Unavoidable pattern » (voir la liste des auteurs).

Bibliographie

Chapitres dans des livres

(en) Jean-Paul Allouche et Jeffrey O. Shallit, Automatic sequences : Theory, applications, generalizations, Cambridge, Cambridge University Press, 2003, 571 p. (ISBN 0-521-82332-3, MR 1997038, zbMATH 1086.11015).
Jean Berstel, Aaron Lauve, Christophe Reutenauer et Franco V. Saliola, Combinatorics on words : Christoffel words and repetitions in words, American Mathematical Society et Centre de recherches mathématiques, coll. « CRM Monograph Series » (n^o 27), 2008, 504 p. (ISBN 978-1-4200-7267-9, zbMATH 1161.68043).
Julien Cassaigne, « Unavoidable patterns », dans M. Lothaire, Algebraic combinatorics on words, Cambridge University Press, coll. « Encyclopedia of Mathematics and its Applications » (n^o 90), 2011 (réimpr. 2011) (1^re éd. 2002) (ISBN 978-0-521-18071-9, MR 1905123, zbMATH 1221.68183), p. 111-134.
(en) N. Pytheas Fogg, Substitutions in dynamics, arithmetics and combinatorics, Édité par Valérie Berthé, Sébastien Ferenczi, Christian Mauduit et Anne Siegel, Springer-Verlag, coll. « Lecture Notes in Mathematics » (n^o 1794), 2002, 402 p. (ISBN 3-540-44141-7, zbMATH 1014.11015, lire en ligne).

Articles

[2014] Joshua Cooper et Danny Rorabaugh, « Bounds on Zimin word avoidance », Congressus Numerantium, vol. 222,‎ 2014, p. 87-95 (ISSN 0384-9864, MR 3328869).
[2015] Wojciech Rytter et Arseny M. Shur, « Searching Zimin patterns », Theoret. Comput. ci., vol. 571,‎ 2015, p. 50-57 (DOI 10.1016/j.tcs.2015.01.004).
[2016] Joshua Cooper et Danny Rorabaugh, « Asymptotic density of Zimin words », Discrete Math. Theor. Comput. Sci., vol. 18, n^o 3,‎ 2016, article n^o 3 (25 pages) (MR 3625459).
[2019] David Conlon, Jacob Fox et Benny Sudakov, « Tower-type bounds for unavoidable patterns in words », Transactions of the American Mathematical Society, vol. 372, n^o 9,‎ 2019, p. 6213-6229 (DOI 10.1090/tran/7751, arXiv 1704.03479).
[2017] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », dans Heribert Vollmer et Brigitte Vallée (éditeurs), 34th Symposium on Theoretical Aspects of Computer Science (STACS 2017), coll. « Leibniz International Proceedings in Informatics (LIPIcs) » (n^o 66), 2017 (ISBN 978-3-95977-028-6, ISSN 1868-8969, DOI 10.4230/LIPIcs.STACS.2017.19, lire en ligne), p. 19:1-19:13.
[2019] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », Theory of Computing Systems, vol. 63, n^o 5,‎ 2019, p. 926–955 (DOI 10.1007/s00224-019-09914-2).

Thèse

Pascal Ochem, Évitement de motifs (Habilitation universitaire), Université de Montpellier, 2019, 124 p. (lire en ligne).

Portail de l'informatique théorique

[8] 10 et 11 sont bien des nombres premiers (ce sont les écritures binaires de deux et de trois). Le résultat découle de ce que tout nombre premier autre que 2 est impair.

[9] Ce sont les écritures ternaires de deux, de trois et de treize.

[10] Ce sont les écritures quaternaires de deux, de trois et de cinq.

[C112-1] Cassaigne 2011, p. 112

[BLRS127-2] {a b c et d} Berstel et al. 2008, p. 127

[C113-3] {a b et c} Cassaigne 2011, p. 113.

[AS24-4] {a et b} Allouche et Shallit 2003, p. 24.

[C115-5] {a et b} Cassaigne 2011, p. 115.

[C114-6] Cassaigne 2011, p. 114.

[boyer-7] {a et b} Pascal Boyer, Petit compagnon des nombres et de leurs applications, Paris, Calvage et Mounet, 2019, 648 p. (ISBN 978-2-916352-75-6), II - Nombres premiers, chap. 1.7 (« Nombres premiers inévitables »), p. 195-197.

[11] En plus, ce sigle est également un nom commercial.

[C124-12] Cassaigne 2011, p. 124.

[C126-13] Cassaigne 2011, p. 126.

[14] Pacal Ochem, « A generator of morphisms for infinite words », RAIRO - Theor. Inform. Appl., vol. 40,‎ 2006, p. 427-441.

[OchemRosenfeld2016-15] Pascal Ochem et Matthieu Rosenfeld, « Avoidability of Formulas with Two Variables », dans S. Brlek et C. Reutenauer (diteurs), Proceedings of the 20th international Conference, DLT 2016, coll. « Springer Lecture Notes in Computer Science » (n^o 9840), 2016, 344-354 p. (DOI 10.1007/978-3-662-53132-7_28, arXiv 1606.03955).

[16] R. J. Clark, Avoidable formulas in combinatorics on words (PhD thesis), Los Angeles, University of California, 2001 (lire en ligne).

[GamardOchem2018-17] {a et b} Guilhem Gamard, Pascal Ochem, Gwenaël Richomme et Patrice Séébold, « Avoidability of circular formulas », Theoretical Computer Science, vol. 726,‎ 2018, p. 1-4 (DOI 10.1016/j.tcs.2017.11.014, arXiv 1610.04439).

[18] Cooper et Rorabaugh 2014.

[19] Rytter et Shur 2015.

[CFS-20] {a et b} Conlon, Fox et Sudakov 2017.

[21] Carayol et Göller 2017.

[22] Carayol et Göller 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[a]

[b]

[c]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]