Codage des caractères chinois

Un article de Wikipédia, l'encyclopédie libre.

Sinogramme
漢字 - 汉字

Tracé :

Sémantique :

Emploi :

Pour d'autres régions :

Aide pour l'encodage
Bibliographie

Le sigle CJC désigne les écritures chinoise, japonaise et coréenne, qui utilisent toutes les trois les caractères Han, caractères chinois dits hanzi en chinois, kanji en japonais, ou hanja en coréen, ainsi que des caractères nationaux. La polémique concerne surtout le chinois simplifié (de République populaire de Chine et, officiellement Singapour et Hong-Kong), le chinois traditionnel (à Taiwan, Singapour, Hong-Kong et en Corée) et le japonais.

Ces caractères idéographiques ont évolué au fil des siècles dans ces différents pays et ont aujourd’hui des tracés bien différents. Les Chinois continentaux les ont beaucoup simplifiés, les Japonais y ont apporté des modifications mineures, tandis que les pays ou villes utilisant le chinois traditionnel ont gardé les caractères d’origine sans aucune modification. Les Japonais y ont ajouté leurs syllabaires hiragana et katakana et les Coréens leur alphabet hangûl, mais ceux-ci étant codés séparement dans Unicode, leur utilisation informatique ne pose pas problème.

Le sens ayant également devié, la prononciation elle-même étant différente, de nombreux linguistes asiatiques considèrent ces caractères comme étant bien différents.

Cependant, le Consortium Unicode et l’ISO (ainsi que le groupe de travail UniHan dont font partie les autorités de normalisations chinoises, japonaises et coréennes, et qui est en charge de l’identification et l’unification des très nombreux caractères idéographiques avant leur normalisation par l’ISO et Unicode...) considèrent que les caractères chinois, coréens et japonais sont les mêmes, que seuls les glyphes (œils en français) diffèrent. La différence serait comparable aux langues latines : traditionnellement en allemand la police de caractères gothique est privilégiée, en français une police à sérifs et en anglais une police sans sérifs. Par conséquent, ils sont codés de la même façon et il faut utiliser une police appropriée pour afficher les caractères dans le style qui convient le mieux aux habitudes locales.

Par conséquent :

  • Il est impossible de savoir dans quelle langue est écrit un caractère (donc quel glyphe utiliser pour le représenter), ce n’est d’ailleurs pas un problème unique au CJC (comment savoir si un A est allemand ou français ?),
  • mélanger japonais et chinois (par exemple, en citant une parole de Confucius dans sa langue dans un ouvrage japonais) dans un texte non balisé ou sans utiliser les étiquettes linguistiques d'Unicode peut poser des problèmes d'esthétique,
  • un ouvrage concernant le japonais ancien unifiera des caractères qui n'existent plus dans la langue moderne mais font appel à des concepts bien différents pour un spécialiste.

Pour cette raison, beaucoup de Japonais refusent de voir en Unicode un système de codage universel. Un professeur de l'université de Tokyo a d'ailleurs proposé un nouveau système de codage intégré à un système d'exploitation embarqué : TRON. Celui-ci permet de coder tous les caractères existant ou ayant existé, ce qui est utile pour les linguistes ou historiens japonais citant les caractères disparus dans leurs publications.

Face à ces critiques toutefois, Unicode vient d’ouvrir un répertoire de variantes normalisées, qui permettront de différencier (de façon optionnelle) les idéographes unifiés quand cela sera nécessaire. Ce répertoire additionnel ne nécessite pas d’ajout de caractères supplémentaires dans Unicode ou ISO/IEC 10646 et ne compromet pas le travail d’unification réalisé (la norme Unicode référence déjà des variantes graphiques pour les symboles à usage mathématique).

Mais ouvrir la porte complètement à des variantes graphiques codées différemment est inacceptable car cela poserait de nombreux problèmes d’interopérabilité des documents qui, dès lors, dépendraient de polices de caractères spécifiques, puisque les glyphes sont l’objet de protections de propriété intellectuelle. Cela compromettrait totalement la norme et rendrait quasiment impossible la conversion de données de sources différentes, chacune utilisant ses propres polices de caractères. La solution du codage de variantes graphiques est ouverte caractère par caractère, mais uniquement dans les cas où la différenciation est nécessaire pour permettre un rendu correct et lisible des textes codés.

[modifier] Voir aussi

[modifier] Blocs de caractères Unicode pour l’écriture idéographique CJC

Autres langues

Wikipedia HTML 2008 in other languages

100 000 +

Česká (Czech)  •  English  •  Deutsch (German)  •  日本語 (Japanese)  •  Français (French)  •  Polski (Polish)  •  Suomi (Finnish)  •  Svenska (Swedish)  •  Nederlands (Dutch)  •  Español (Spanish)  •  Italiano (Italian)  •  Norsk (Norwegian Bokmål)  •  Português (Portuguese)  •  Română (Romanian)  •  Русский (Russian)  •  Türkçe (Turkish)  •  Українська (Ukrainian)  •  中文 (Chinese)

10 000 +

العربية (Arabic)  •  Български (Bulgarian)  •  Bosanski (Bosnian)  •  Català (Catalan)  •  Cymraeg (Welsh)  •  Dansk (Danish)  •  Ελληνικά (Greek)  •  Esperanto  •  Eesti (Estonian)  •  Euskara (Basque)  •  Galego (Galician)  •  עברית (Hebrew)  •  हिन्दी (Hindi)  •  Hrvatski (Croatian)  •  Magyar (Hungarian)  •  Ido  •  Bahasa Indonesia (Indonesian)  •  Íslenska (Icelandic)  •  Basa Jawa (Javanese)  •  한국어 (Korean)  •  Latina (Latin)  •  Lëtzebuergesch (Luxembourgish)  •  Lietuvių (Lithuanian)  •  Latviešu (Latvian)  •  Bahasa Melayu (Malay)  •  Plattdüütsch (Low Saxon)  •  Norsk (Norwegian Nynorsk)  •  فارسی (Persian)  •  Sicilianu (Sicilian)  •  Slovenčina (Slovak)  •  Slovenščina (Slovenian)  •  Српски (Serbian)  •  Basa Sunda (Sundanese)  •  தமிழ் (Tamil)  •  ไทย (Thai)  •  Tiếng Việt (Vietnamese)

1 000 +

Afrikaans  •  Asturianu (Asturian)  •  Беларуская (Belarusian)  •  Kaszëbsczi (Kashubian)  •  Frysk (Western Frisian)  •  Gaeilge (Irish)  •  Interlingua  •  Kurdî (Kurdish)  •  Kernewek (Cornish)  •  Māori  •  Bân-lâm-gú (Southern Min)  •  Occitan  •  संस्कृत (Sanskrit)  •  Scots  •  Tatarça (Tatar)  •  اردو (Urdu) Walon (Walloon)  •  יידיש (Yiddish)  •  古文/文言文 (Classical Chinese)

100 +

Nehiyaw (Cree)  •  словѣньскъ (Old Church Slavonic)  •  gutisk (Gothic)  •  ລາວ (Laos)