INFO: Im dritten Artikel »Codes europäischer Sonderzeichen« geht es um die Unicodes und die HTML-Entitäten dieser. Im ersten Artikel »Europäische Sonderzeichen« habe ich aufgezeigt, wie vielfältig die Alphabete der europäischen Sprachen sind, die in lateinischen Buchstaben schreiben. Im zweiten Artikel »Eingabe europäischer Sonderzeichen« ging es die Eingabe per Tastatur dieser Zeichen. Wie immer unter dem Motto »Von Null auf …« stelle ich hier die Unicodes und die HTML-Entitäten vor. Das ist etwas für technisch interessierte »Feinschmecker«.
Am Ende des Artikel finden sie die Codes europäischer Sonderzeichen als Tabelle aller 198 diakritische Zeichen und Sonderbuchstaben, die vor allem Font-Designer helfen soll, die nötigen Zeichen in ihrem Zeichensatz zu erstellen.
(Download:) Die Artikelserie »Europäische Sonderzeichen« steht auch als PDF-Download (7,2 MB) hier zur Verfügung.
(Hilfe:) Probleme beim Download?
English: The article series »European Special Characters« is also available as a PDF download (7.2 MB) here.
ASCII-7 war der Anfang
ASCII-7 steht für »American Standard Code for Information Interchange« in der 7-Bit-Kodierung. So konnten Ab dem Jahr 1963 konnten so 27 = 128 Zeichen kodiert werden, wobei 33 nicht druckbare und 95 druckbare Zeichen enthalten war. Aus dem lateinischen Alphabet waren es die Kleinbuchstaben »a« bis »z« und die Großbuchstaben »A« bis »Z«, sowie die Ziffern »0« bis »9« und (mathematische) Sonderzeichen wie Klammern und Interpunktionszeichen.
ASCII-8 mit internationalen Zeichen
Mit Verbreitung der Personal Computers (PC) durch Apple, Atari, Commodore, IBM und anderen wuchs der Wunsch nach nationalen Zeichen aus den europäischen Ländern. Ab 1981 wurde dies mit Einführung von ASCII-8 in der 8-Bit-Kodierung möglich. IBM bot 18 unterschiedliche Kodierungen an, die auch nicht-lateinische Schriftzeichen umfassten.
Unicode – Zeichen für alle
Im Jahr 1991 wurde Unicode 1.0 vorgestellt, das zu nächst europäischen, nahöstlichen und indischen Schriften umfasst. Später kamen zahlreiche weitere Alphabete hinzu. Inzwischen gehören auch viele mathematische und anderen Zeichen dazu, genau wie Währungszeichen und Emojis.
Jedes Zeichen im Unicode hat seine Nummer und diese wird beim Font-Design dem Buchstaben (Glyphe) entsprechend zugewiesen. Es lassen sich theoretisch 1.114.112 verschiedenen Zeichen damit kodieren. Es gibt zwei wichtige UTF-Kodierungsverfahren: UTF-8 und UTF-16. Darunter finden sich auch die Codes europäischer Sonderzeichen.
UTF-8 basiert auf einem 8-Bit-System, in dem die ersten 128 Zeichen mit dem ursprünglichen ASCII identisch sind.
UTF-16 basiert auf einem 16-Bit-System und erlaubt die Darstellung von Zeichen in ein oder zwei 16-Bits. Letzte sind schon notwenig, um die deutschen Umlaute zu kodieren.
U+xxxx So kann jedes Unicode-Zeichen beschrieben werden. Dabei stehen die vier »xxxx« für die Hexadezimalzahlen von »0000« bis »FFFF«. Das kleine »ß« hat die Nummer »U+00DF«. Jenseits von UTF-8 können die Zahlen nach dem »U+« auch sechstellig sein.
Unicode in HTML und HTML-Entitäten
HTML (Hypertext Markup Language) ist die Auszeichnungsprache in der Internet-Seiten programmiert werden. In HTML können die Unicode-Zeichen ebenfalls dargestellt werden. Statt »U+« beginnen die Darstellung mit »&#x« gefolgt von vier hexadezimal Zahlen: »�« bis »«. Daneben gibt es noch die dezimale Schreibweise ohne das »x« und von dezimale Ziffern gefolgt. So ist das »ß« hexadezimal »ß« oder dezimal »ß«. Die HTML-Schreibweise »&#…;«, die mit einem Semikolon endet, wird als numerische HTML-Entität bezeichnet. Jedes Unicode-Zeichen läßt sich mit einer numerischen HTML-Entität beschreiben, so auch die Codes europäischer Sonderzeichen.
Als weitere Schreibweise in HTML gibt es noch die benannten HTML-Entitäten. Sie haben statt einer Nummer eine Abkürzung, die das Zeichen beschreibt. So ist das »ß« als HTML-Entität »ß«. Jedoch nicht jedes Unicode-Zeichen hat so eine HTML-Entität. Das deutsche Lang-S »ſ« Unicode »U+017F« oder HTML »ſ« bzw. »ſ« hat keine. – Warum? Fragen Sie das W3C 🙂
Codes europäischer Sonderzeichen in Unicode und als HTML-Entitäten
Die 19 diakritschen Zeichen der europäische Sonderzeichen, die vor allem für das Font-Design benötigt werden, sehen so aus:
Name | Unicode | dez. HTML | hex. HTML | named HTML |
---|---|---|---|---|
̈ | U+00A8; | ¨ | ¨ | ¨ |
¯ | U+00AF; | ¯ | ¯ | ¯ |
́ | U+00B4; | ´ | ´ | ´ |
˘ | U+02D8; | ˘ | ˘ | ˘ |
̧ | U+00B8; | ¸ | ¸ | ¸ |
̒ | U+031B; | ̛ | ̛ | ./. |
̋ | U+02DD; | ˝ | ˝ | ˝ |
̏ | U+030F; | ̏ | ̏ | &DiacriticalDoubleGrave; |
̀ | U+0060; | ` | ` | ` |
̌ | U+02C7; | ˇ | ˇ | ˇ |
̦ | U+02DB; | ˛ | ˛ | ˛ |
̊ | U+02DA; | ˚ | ˚ | ˚ |
· | U+00B7; | · | · | · |
̨ | U+0328; | ̨ | ̨ | ./. |
̣ | U+0323; | ̣ | ̣ | ./. |
˙ | U+02D9; | ˙ | ˙ | ˙ |
̷ | U+0337; | ̷ | ̷ | ./. |
̃ | U+02DC; | ˜ | ˜ | ˜ |
ˆ | U+02C6; | ˆ | ˆ | ˆ |
198 Codes europäischer Sonderzeichen
198 Codes europäischer Sonderzeichen in Unicode und HTML-Entitäte sehen so aus:
Name | Unicode | dez. HTML | hex. HTML | named HTML |
---|---|---|---|---|
Á | U+00C1; | Á | Á | Á |
á | U+00E1; | á | á | á |
Ă | U+0102; | Ă | Ă | Ă |
ă | U+0103; | ă | ă | ă |
 | U+00C2; |  |  |  |
â | U+00E2; | â | â | â |
Å | U+00C5; | Å | Å | Å |
å | U+00E5; | å | å | å |
Ä | U+00C4; | Ä | Ä | Ä |
ä | U+00E4; | ä | ä | ä |
Ǟ | U+01DE; | Ǟ | Ǟ | ./. |
ǟ | U+01DF; | ǟ | ǟ | ./. |
à | U+00C3; | à | à | à |
ã | U+00E3; | ã | ã | ã |
Ą | U+0104; | Ą | Ą | Ą |
ą | U+0105; | ą | ą | ą |
Ā | U+0100; | Ā | Ā | Ā |
ā | U+0101; | ā | ā | ā |
Æ | U+00C6; | Æ | Æ | Æ |
æ | U+00E6; | æ | æ | &aElig; |
Ć | U+0106; | Ć | Ć | Ć |
ć | U+0107; | ć | ć | ć |
Ĉ | U+0108; | Ĉ | Ĉ | Ĉ |
ĉ | U+0109; | ĉ | ĉ | ĉ |
Ċ | U+010A; | Ċ | Ċ | Ċ |
ċ | U+010B; | ċ | ċ | ċ |
Ç | U+00C7; | Ç | Ç | Ç |
ç | U+00E7; | ç | ç | ç |
Ď | U+010E; | Ď | Ď | Ď |
ď | U+010F; | ď | ď | ď |
Ḑ | U+1E10; | Ḑ | Ḑ | ./. |
ḑ | U+1E11; | ḑ | ḑ | ./. |
Đ | U+0110; | Đ | Đ | Đ |
đ | U+0111; | đ | đ | đ |
Ð | U+00D0; | Ð | Ð | Ð |
ð | U+00F0; | ð | ð | ð |
É | U+00C9; | É | É | É |
é | U+00E9; | é | é | é |
Ê | U+00CA; | Ê | Ê | Ê |
ê | U+00EA; | ê | ê | ê |
Ě | U+011A; | Ě | Ě | Ě |
ě | U+011B; | ě | ě | ě |
Ë | U+00CB; | Ë | Ë | Ë |
ë | U+00EB; | ë | ë | ë |
Ė | U+0116; | Ė | Ė | Ė |
ė | U+0117; | ė | ė | ė |
Ę | U+0118; | Ę | Ę | Ę |
ę | U+0119; | ę | ę | ę |
Ē | U+0112; | Ē | Ē | Ē |
ē | U+0113; | ē | ē | ē |
Ğ | U+011E; | Ğ | Ğ | Ğ |
ğ | U+011F; | ğ | ğ | ğ |
Ĝ | U+011C; | Ĝ | Ĝ | Ĝ |
ĝ | U+011D; | ĝ | ĝ | ĝ |
Ġ | U+0120; | Ġ | Ġ | Ġ |
ġ | U+0121; | ġ | ġ | ġ |
Ģ | U+0122; | Ģ | Ģ | Ģ |
ģ | U+0123; | ģ | ģ | &gcedil; |
Ĥ | U+0124; | Ĥ | Ĥ | Ĥ |
ĥ | U+0125; | ĥ | ĥ | ĥ |
Ħ | U+0126; | Ħ | Ħ | Ħ |
ħ | U+0127; | ħ | ħ | ħ |
İ | U+0130; | İ | İ | İ |
ı | U+0131; | ı | ı | ı |
Í | U+00CD; | Í | Í | Í |
í | U+00ED; | í | í | í |
Ì | U+00CC; | Ì | Ì | Ì |
ì | U+00EC; | ì | ì | ì |
Î | U+00CE; | Î | Î | Î |
î | U+00EE; | î | î | î |
Ï | U+00CF; | Ï | Ï | Ï |
ï | U+00EF; | ï | ï | ï |
Ĩ | U+0128; | Ĩ | Ĩ | Ĩ |
ĩ | U+0129; | ĩ | ĩ | ĩ |
Į | U+012E; | Į | Į | Į |
į | U+012F; | į | į | į |
Ī | U+012A; | Ī | Ī | Ī |
ī | U+012B; | ī | ī | ī |
IJ | U+0132; | IJ | IJ | IJ |
ij | U+0133; | ij | ij | ij |
Ĵ | U+0134; | Ĵ | Ĵ | Ĵ |
ĵ | U+0135; | ĵ | ĵ | ĵ |
Ķ | U+0136; | Ķ | Ķ | Ķ |
ķ | U+0137; | ķ | ķ | ķ |
Ĺ | U+0139; | Ĺ | Ĺ | Ĺ |
ĺ | U+013A; | ĺ | ĺ | ĺ |
Ļ | U+013B; | Ļ | Ļ | Ļ |
ļ | U+013C; | ļ | ļ | ļ |
Ł | U+0141; | Ł | Ł | Ł |
ł | U+0142; | ł | ł | ł |
Ŀ | U+013F; | Ŀ | Ŀ | Ŀ |
ŀ | U+0140; | ŀ | ŀ | ŀ |
Ń | U+0143; | Ń | Ń | Ń |
ń | U+0144; | ń | ń | ń |
Ň | U+0147; | Ň | Ň | Ň |
ň | U+0148; | ň | ň | ň |
Ñ | U+00D1; | Ñ | Ñ | Ñ |
ñ | U+00F1; | ñ | ñ | ñ |
Ņ | U+0145; | Ņ | Ņ | Ņ |
ņ | U+0146; | ņ | ņ | ņ |
Ŋ | U+014A; | Ŋ | Ŋ | Ŋ |
ŋ | U+014B; | ŋ | ŋ | ŋ |
Ó | U+00D3; | Ó | Ó | Ó |
ó | U+00F3; | ó | ó | ó |
Ò | U+00D2; | Ò | Ò | Ò |
ò | U+00F2; | ò | ò | ò |
Ô | U+00D4; | Ô | Ô | Ô |
ô | U+00F4; | ô | ô | ô |
Ö | U+00D6; | Ö | Ö | Ö |
ö | U+00F6; | ö | ö | ö |
Ȫ | U+022A; | Ȫ | Ȫ | ./. |
ȫ | U+022B; | ȫ | ȫ | ./. |
Ő | U+0150; | Ő | Ő | Ő |
ő | U+0151; | ő | ő | ő |
Õ | U+00D5; | Õ | Õ | Õ |
õ | U+00F5; | õ | õ | õ |
Ȯ | U+022E; | Ȯ | Ȯ | ./. |
ȯ | U+022F; | ȯ | ȯ | ./. |
Ø | U+00D8; | Ø | Ø | Ø |
ø | U+00F8; | ø | ø | ø |
Ǫ | U+01EA; | Ǫ | Ǫ | ./. |
ǫ | U+01EB; | ǫ | ǫ | ./. |
Ō | U+014C; | Ō | Ō | Ō |
ō | U+014D; | ō | ō | ō |
Ọ | U+1ECC; | Ọ | Ọ | ./. |
ọ | U+1ECD; | ọ | ọ | ./. |
Œ | U+0152; | Œ | Œ | Œ |
œ | U+0153; | œ | œ | œ |
ĸ | U+0138; | ĸ | ĸ | ĸ |
Ř | U+0158; | Ř | Ř | Ř |
ř | U+0159; | ř | ř | ř |
Ŕ | U+0154; | Ŕ | Ŕ | Ŕ |
ŕ | U+0155; | ŕ | ŕ | ŕ |
Ŗ | U+0156; | Ŗ | Ŗ | Ŗ |
ŗ | U+0157; | ŗ | ŗ | ŗ |
ſ | U+017F; | ſ | ſ | ./. |
Ś | U+015A; | Ś | Ś | Ś |
ś | U+015B; | ś | ś | ś |
Ŝ | U+015C; | Ŝ | Ŝ | Ŝ |
ŝ | U+015D; | ŝ | ŝ | ŝ |
Š | U+0160; | Š | Š | Š |
š | U+0161; | š | š | š |
Ş | U+015E; | Ş | Ş | Ş |
ş | U+015F; | ş | ş | ş |
Ṣ | U+1E62; | Ṣ | Ṣ | ./. |
ṣ | U+1E63; | ṣ | ṣ | ./. |
Ș | U+0218; | Ș | Ș | ./. |
ș | U+0219; | ș | ș | ./. |
ẞ | U+1E9E; | ẞ | ẞ | ./. |
ß | U+00DF; | ß | ß | ß |
Ť | U+0164; | Ť | Ť | Ť |
ť | U+0165; | ť | ť | ť |
Ţ | U+0162; | Ţ | Ţ | Ţ |
ţ | U+0163; | ţ | ţ | ţ |
Ț | U+021A; | Ț | Ț | ./. |
ț | U+021B; | ț | ț | ./. |
Ŧ | U+0166; | Ŧ | Ŧ | Ŧ |
ŧ | U+0167; | ŧ | ŧ | ŧ |
Ú | U+00DA; | Ú | Ú | Ú |
ú | U+00FA; | ú | ú | ú |
Ù | U+00D9; | Ù | Ù | Ù |
ù | U+00F9; | ù | ù | ù |
Ŭ | U+016C; | Ŭ | Ŭ | Ŭ |
ŭ | U+016D; | ŭ | ŭ | ŭ |
Û | U+00DB; | Û | Û | Û |
û | U+00FB; | û | û | û |
Ů | U+016E; | Ů | Ů | Ů |
ů | U+016F; | ů | ů | ů |
Ü | U+00DC; | Ü | Ü | Ü |
ü | U+00FC; | ü | ü | &Uuuml; |
Ű | U+0170; | Ű | Ű | Ű |
ű | U+0171; | ű | ű | ű |
Ũ | U+0168; | Ũ | Ũ | Ũ |
ũ | U+0169; | ũ | ũ | ũ |
Ų | U+0172; | Ų | Ų | Ų |
ų | U+0173; | ų | ų | ų |
Ū | U+016A; | Ū | Ū | Ū |
ū | U+016B; | ū | ū | ū |
Ŵ | U+0174; | Ŵ | Ŵ | Ŵ |
ŵ | U+0175; | ŵ | ŵ | ŵ |
Ý | U+00DD; | Ý | Ý | Ý |
ý | U+00FD; | ý | ý | ý |
Ŷ | U+0176; | Ŷ | Ŷ | Ŷ |
ŷ | U+0177; | ŷ | ŷ | ŷ |
Ÿ | U+0178; | Ÿ | Ÿ | Ÿ |
ÿ | U+00FF; | ÿ | ÿ | ÿ |
Ȳ | U+0232; | Ȳ | Ȳ | ./. |
ȳ | U+0233; | ȳ | ȳ | ./. |
Ź | U+0179; | Ź | Ź | Ź |
ź | U+017A; | ź | ź | ź |
Ž | U+017D; | Ž | Ž | Ž |
ž | U+017E; | ž | ž | ž |
Ż | U+017B; | Ż | Ż | Ż |
ż | U+017C; | ż | ż | ż |
Þ | U+00DE; | Þ | Þ | Þ |
þ | U+00FE; | þ | þ | þ |
ª | U+00AA; | ª | ª | ª |
º | U+00BA; | º | º | º |
ENDE