Codage de l'information

Un article de Wikipédia, l'encyclopédie libre.

On s'intéresse ici aux moyens de formaliser l'information afin de pouvoir la manipuler (principalement pour la transmettre). On ne s'intéressera donc pas au contenu mais seulement à la forme.

Sommaire

[modifier] Alphabet, mot, langages

[modifier] Définitions

On définit un alphabet comme un ensemble non vide de symboles, par exemple :

On nomme lettre un élément d'un alphabet.
On nomme mot une suite finie de lettres.
La suite de 0 lettre est nommée le mot vide, notée ε.
On nomme langage un ensemble de mots associé à certaines règles d'interprétation (sans cette dernière restriction, n'importe quelle table de valeurs aléatoires pourrait être nommée langage). Dans le cas de l'ADN, ces règles sont contenues dans le ribosome, dans les langues naturelles, elles sont contenues dans leur lexique, sur un ordinateur, elles sont présentes dans les circuits de l'unité centrale.

[modifier] Opérations

Soit un alphabet A et un entier naturel n.
On note An l'ensemble de tous les mots de longueur n sur A et A * l'ensemble de tous les mots de A.
On dispose de : A^* = \bigcup_{n \geq 0}^{\infty}A^n (fermeture de Kleene).
On définit l'opération de concaténation \cdot : A^* \times A^* \rightarrow A^* qui à (u,v) associe un mot w qui est constitué de la suite de lettres de u puis celle de v.
Exemple : « marc » \cdot « et sophie » = « marc et sophie » (les guillemets servent à délimiter les symboles, ce ne sont pas des éléments de A).

[modifier] Codages et codes

[modifier] Codage

Soit L et M deux langages.
Un codage c de L dans M est un morphisme (pour l'opération \cdot) injectif. En d'autres termes, c'est une correspondance entre les mots de L et ceux de M, où à tout mot de L est associé un unique mot de M et tel que le codage de la concaténée soit égale à la concaténée des codages. ( \forall u,v \in  L, c(u.v) = c(u).c(v) ).

[modifier] Code

Un langage L sur un alphabet A est un code si et seulement s'il n'existe pas deux factorisations différentes des mots A * avec des mots de L.

[modifier] Applications, exemples

Wikipedia HTML 2008 in other languages

100 000 +

Česká (Czech)  •  English  •  Deutsch (German)  •  日本語 (Japanese)  •  Français (French)  •  Polski (Polish)  •  Suomi (Finnish)  •  Svenska (Swedish)  •  Nederlands (Dutch)  •  Español (Spanish)  •  Italiano (Italian)  •  Norsk (Norwegian Bokmål)  •  Português (Portuguese)  •  Română (Romanian)  •  Русский (Russian)  •  Türkçe (Turkish)  •  Українська (Ukrainian)  •  中文 (Chinese)

10 000 +

العربية (Arabic)  •  Български (Bulgarian)  •  Bosanski (Bosnian)  •  Català (Catalan)  •  Cymraeg (Welsh)  •  Dansk (Danish)  •  Ελληνικά (Greek)  •  Esperanto  •  Eesti (Estonian)  •  Euskara (Basque)  •  Galego (Galician)  •  עברית (Hebrew)  •  हिन्दी (Hindi)  •  Hrvatski (Croatian)  •  Magyar (Hungarian)  •  Ido  •  Bahasa Indonesia (Indonesian)  •  Íslenska (Icelandic)  •  Basa Jawa (Javanese)  •  한국어 (Korean)  •  Latina (Latin)  •  Lëtzebuergesch (Luxembourgish)  •  Lietuvių (Lithuanian)  •  Latviešu (Latvian)  •  Bahasa Melayu (Malay)  •  Plattdüütsch (Low Saxon)  •  Norsk (Norwegian Nynorsk)  •  فارسی (Persian)  •  Sicilianu (Sicilian)  •  Slovenčina (Slovak)  •  Slovenščina (Slovenian)  •  Српски (Serbian)  •  Basa Sunda (Sundanese)  •  தமிழ் (Tamil)  •  ไทย (Thai)  •  Tiếng Việt (Vietnamese)

1 000 +

Afrikaans  •  Asturianu (Asturian)  •  Беларуская (Belarusian)  •  Kaszëbsczi (Kashubian)  •  Frysk (Western Frisian)  •  Gaeilge (Irish)  •  Interlingua  •  Kurdî (Kurdish)  •  Kernewek (Cornish)  •  Māori  •  Bân-lâm-gú (Southern Min)  •  Occitan  •  संस्कृत (Sanskrit)  •  Scots  •  Tatarça (Tatar)  •  اردو (Urdu) Walon (Walloon)  •  יידיש (Yiddish)  •  古文/文言文 (Classical Chinese)

100 +

Nehiyaw (Cree)  •  словѣньскъ (Old Church Slavonic)  •  gutisk (Gothic)  •  ລາວ (Laos)