Grammaire contextuelle

Cet article est une ébauche concernant la logique et l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Une grammaire contextuelle est une grammaire formelle dans laquelle les substitutions d'un symbole non terminal sont soumises à la présence d'un contexte gauche et d'un contexte droit. Elles sont plus générales que les grammaires algébriques. Les langages formels engendrés par les grammaires contextuelles sont les langages contextuels. Ils sont reconnus par les automates linéairement bornés.

Les grammaires contextuelles ont été décrites par Noam Chomsky^[1]. Ce sont les grammaires de type 1 dans la hiérarchie de Chomsky. Elles peuvent servir à décrire la syntaxe de langages naturels où il apparaît qu'un mot est approprié dans un certain contexte, mais ne l'est pas par ailleurs.

Définition formelle

Une grammaire formelle $G=(V,A,P,S)$ , (où $V$ est l'ensemble des variables ou symboles non terminaux et $A$ est l'alphabet terminal ou l'ensemble des symboles terminaux) est contextuelle si toutes les règles de $P$ sont de la forme

uXv\to uxv

où $u$ , $v$ et $x$ sont des mots quelconques, avec $x$ non vide, et $X$ est une variable. Ainsi, le remplacement de $X$ par $x$ se fait en présence du « contexte » $(u,v)$ .

Variante

Parfois, on permet la règle

S\to \varepsilon

où $\varepsilon$ désigne le mot vide, sous réserve que $S$ n'apparaisse pas dans un membre droit de règle. Cette convention technique permet de considérer les langages contextuels comme un sur-ensemble des langages algébriques, sans devoir préciser que l'inclusion est limitée aux langages ne contenant pas le mot vide.

Grammaire croissante

Une grammaire est croissante ou monotone si, pour toute règle $\alpha \to \beta$ , la longueur de $\alpha$ est inférieure ou égale à la longueur de $\beta$ . On sait transformer une grammaire croissante en une grammaire contextuelle (voir ci-dessous). Par conséquent, Les langages engendrés par les grammaires croissantes sont exactement les langages contextuels ne contenant pas le mot vide.

Une grammaire est en forme normale de Kuroda si les règles sont de l'une des formes suivantes :

XY\to ZT

X\to ZT

X\to Y

X\to a

où $X,Y,Z,T$ sont des variables et $a$ est une lettre terminale. Les grammaires en forme normale de Kuroda sont croissantes. Réciproquement, on sait transformer une grammaire croissante en une grammaire en forme normale de Kuroda. Par conséquent, ces grammaires engendrent exactement les langages contextuels ne contenant pas le mot vide. Elles sont ainsi nommées d'après Sige-Yuki Kuroda.

Exemples

La grammaire suivante engendre le langage non algébrique $\{a^{n}b^{n}c^{n}|n\geq 1\}$ :

$S\to aSBC$
$S\to aBC$
$CB\to HB$
$HB\to HC$
$HC\to BC$
$aB\to ab$
$bB\to bb$
$bC\to bc$
$cC\to cc$

Les deux premières règles servent à engendrer les mots $a^{n}(BC)^{n}$ . Les trois règles suivantes permettent de remplacer $CB$ par $BC$ . La dérivation pour $aaabbbccc$ est la suivante :

{\begin{aligned}S&\Rightarrow _{1}aSBC\Rightarrow _{1}a{\boldsymbol {aSBC}}BC\Rightarrow _{2}aa{\boldsymbol {aBC}}BCBC\\&\Rightarrow _{3}aaaB{\boldsymbol {HB}}CBC\Rightarrow _{4}aaaB{\boldsymbol {HC}}CBC\Rightarrow _{5}aaaB{\boldsymbol {BC}}CBC\\&\Rightarrow _{3}aaaBBC{\boldsymbol {HB}}C\Rightarrow _{4}aaaBBC{\boldsymbol {HC}}C\Rightarrow _{5}aaaBBC{\boldsymbol {BC}}C\\&\Rightarrow _{3}aaaBB{\boldsymbol {HB}}CC\Rightarrow _{4}aaaBB{\boldsymbol {HC}}CC\Rightarrow _{5}aaaBB{\boldsymbol {BC}}CC\\&\Rightarrow _{6}aa{\boldsymbol {ab}}BBCCC\Rightarrow _{7}aaa{\boldsymbol {bb}}BCCC\Rightarrow _{7}aaab{\boldsymbol {bb}}CCC\\&\Rightarrow _{8}aaabb{\boldsymbol {bc}}CC\Rightarrow _{9}aaabbb{\boldsymbol {cc}}C\Rightarrow _{9}aaabbbc{\boldsymbol {cc}}\end{aligned}}

Le même langage peut être engendré par la grammaire croissante suivante :

$S\to abc$
$S\to aSBc$
$cB\to Bc$
$bB\to bb$

La grammaire croissante suivante engendre le langages non algébrique des carrés $C=\{xx|x\in \{a,b\}^{+}\}$ :

$S\rightarrow aAS|bBS|a{\bar {A}}|b{\bar {B}}$
$Aa\rightarrow aA$
$Ba\rightarrow aB$
$Ab\rightarrow bA$
$Bb\rightarrow bB$
$A{\bar {A}}\rightarrow {\bar {A}}a$
$B{\bar {A}}\rightarrow {\bar {B}}a$
$A{\bar {B}}\rightarrow {\bar {A}}b$
$B{\bar {B}}\rightarrow {\bar {B}}b$
$a{\bar {A}}\rightarrow aa$
$b{\bar {A}}\rightarrow ba$
$a{\bar {B}}\rightarrow ab$
$b{\bar {B}}\rightarrow bb$

La dérivation de abaaba est la suivante :

{\begin{aligned}S&\Rightarrow _{1}aAS\Rightarrow _{1}aAbBS\Rightarrow _{1}aAbBa{\bar {A}}\\&\Rightarrow _{4}abABa{\bar {A}}\Rightarrow _{3}abAaB{\bar {A}}\Rightarrow _{2}abaAB{\bar {A}}\\&\Rightarrow _{7}abaA{\bar {B}}a\Rightarrow _{8}aba{\bar {A}}ba\Rightarrow _{10}abaaba\end{aligned}}

Grammaires croissantes et grammaires contextuelles

Voici comment on peut transformer une grammaire croissante en une grammaire contextuelle^[2]. Quitte à introduire de nouvelles règles de la forme $X\to a$ , où $a$ est une lettre, on peut supposer toutes les règles de la forme

X_{1}X_{2}\cdots X_{n}\to Y_{1}Y_{2}\cdots Y_{m}

où $m\geq n\geq 1$ et tous les symboles sont des variables. On remplace une telle règle par l'ensemble suivant :

{\begin{aligned}X_{1}X_{2}\cdots X_{n}&\to Z_{1}X_{2}\cdots X_{n}\\Z_{1}X_{2}\cdots X_{n}&\to Z_{1}Z_{2}\cdots X_{n}\\&\cdots \\Z_{1}Z_{2}\cdots Z_{n-1}X_{n}&\to Z_{1}Z_{2}\cdots Z_{n-1}Y_{n}Y_{n+1}\cdots Y_{m}\\Z_{1}Z_{2}\cdots Z_{n-1}Y_{n}Y_{n+1}\cdots Y_{m}&\to Z_{1}Z_{2}\cdots Z_{n-2}Y_{n-1}Y_{n}Y_{n+1}\cdots Y_{m}\\&\cdots \\Z_{1}Z_{2}Y_{3}\cdots Y_{m}&\to Z_{1}Y_{2}Y_{3}\cdots Y_{m}\\Z_{1}Y_{2}\cdots Y_{m}&\to Y_{1}Y_{2}\cdots Y_{m}\,.\end{aligned}}

Par exemple, la règle suivante :

X_{1}X_{2}X_{3}\to Y_{1}Y_{2}Y_{3}Y_{4}Y_{5}

est transformée en

{\begin{aligned}X_{1}X_{2}X_{3}&\to Z_{1}X_{2}X_{3}\\Z_{1}X_{2}X_{3}&\to Z_{1}Z_{2}X_{3}\\Z_{1}Z_{2}X_{3}&\to Z_{1}Z_{2}Y_{3}Y_{4}Y_{5}\\Z_{1}Z_{2}Y_{3}Y_{4}Y_{5}&\to Z_{1}Y_{2}Y_{3}Y_{4}Y_{5}\\Z_{1}Y_{2}Y_{3}Y_{4}Y_{5}&\to Y_{1}Y_{2}Y_{3}Y_{4}Y_{5}\end{aligned}}

Problèmes de décision

Le problème de savoir si un mot x appartient au langage engendré par une grammaire contextuelle donnée est décidable et PSPACE-complet^[3], au sens de la complexité algorithmique.
Le problème de décider si le langage engendré par une grammaire contextuelle est vide est indécidable^[4].

Applications

On a constaté^[5] que les langues naturelles peuvent être décrites, en général, par des grammaires contextuelles. Toutefois, la classe des langages contextuels est bien plus large que celle des langues naturelles. De plus, comme le problème de décision est complet pour PSPACE, cette description n'est pas utilisable en pratique. C'est pourquoi la linguistique s'est orientée vers l'élaboration de modèles de grammaires plus spécifiques, comme les grammaire d'arbres adjoints, les grammaires catégorielles combinatoires (en), ou d'autres systèmes. Les langages engendrés par ces grammaires sont légèrement contextuels (en) et se rangent strictement entre les langages algébriques et les langages contextuels.

Notes

↑ (en) Noam Chomsky, « Three models for the description of language », IRE Transactions on Information Theory, n^o 2,‎ 1956, p. 113–124 (lire en ligne)
↑ Carton 2008, p. 144 - 145
↑ (en) Michael R. Garey et David S. Johnson, Computers and Intractability : A Guide to the Theory of NP-Completeness, New York, W. H. Freeman, 1983, 338 p. (ISBN 0-7167-1045-5) — Problème AL3, « Linear bounded automaton acceptance », page 265.
↑ John E. Hopcroft et Jeffrey D. Ullman, Formal languages and their relation to automata, Addison-Wesley, 1969 (ISBN 0-201-02983-9, SUDOC 004772571) — Section 14.7 pages 230-23.
↑ Voir par exemple Solomon Marcus, « Contextual Grammars and Natural Languages », dans Grzegorz Rozenberg et Arto Salomaa (éditeurs), Handbook of Formal Languages, vol. 2 : Linear Modeling: Background and Application, Springer Science & Business Media, 1997, 528 p. (ISBN 9783540606482), Chap. 5, p. 215-236.

Références

Olivier Carton, Langages formels, calculabilité et complexité, 2008 [détail de l’édition] (lire en ligne)

Michael Sipser, Introduction to the Theory of Computation, PWS Publishing Company, 1996, 239 p. (ISBN 0-534-95250-X)

Pierre Wolper, Introduction à la calculabilité : cours et exercices corrigés, Paris, Dunod, 2006, 3^e éd., 224 p. (ISBN 2-10-049981-5)

Source de la traduction

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Context-sensitive grammar » (voir la liste des auteurs).

[1] (en) Noam Chomsky, « Three models for the description of language », IRE Transactions on Information Theory, n^o 2,‎ 1956, p. 113–124 (lire en ligne)

[2] Carton 2008, p. 144 - 145

[3] (en) Michael R. Garey et David S. Johnson, Computers and Intractability : A Guide to the Theory of NP-Completeness, New York, W. H. Freeman, 1983, 338 p. (ISBN 0-7167-1045-5) — Problème AL3, « Linear bounded automaton acceptance », page 265.

[4] John E. Hopcroft et Jeffrey D. Ullman, Formal languages and their relation to automata, Addison-Wesley, 1969 (ISBN 0-201-02983-9, SUDOC 004772571) — Section 14.7 pages 230-23.

[5] Voir par exemple Solomon Marcus, « Contextual Grammars and Natural Languages », dans Grzegorz Rozenberg et Arto Salomaa (éditeurs), Handbook of Formal Languages, vol. 2 : Linear Modeling: Background and Application, Springer Science & Business Media, 1997, 528 p. (ISBN 9783540606482), Chap. 5, p. 215-236.

[1]

[2]

[3]

[4]

[5]