HTML kodok ?

Meszaros Istvan mesaros at FREEMAIL.C3.HU
2000. Jan. 21., P, 13:59:40 CET


At 12:00 u 1994.01.21.Z¿N, <Istvan> írta:

>
>Tegnap a kolleganom konvertalt egy WinWord97-es dokumentumot
>HTML Transittal, amelyik Latin 1-re definialta a karaktereket
>acute jelekkel, de egyeb szamos kodokkal is. A kis hosszu o"-t
>&#337; - re, a kis hosszu u"-t &#369; - re. Az 5.0-as Explorer
>meg is jelenitette szepen a helyes magyar karaktereket, a 4.7-es
>Netscape viszont mar nem, itt lett gyanus a dolog.

Ez a másik véglet:

Az egyik, amikor "éktelen" szöveget írnak, a másik, amikor még a kevesek által használt és kevés programban mûködõ Unicode kódolású szöveget produkálnak.


Unicode a legkülönfélébb írásrendszerek egységes normarendszere, beleértve a japán,
koreai, hindi, héber és arab írást is. Magában foglalja a cirill, görög és örmény ábécét
is. Tartalmazza latin ábécé minden betûjét, ideértve a lengyel, magyar, cseh, lett és
eszperantó ékezetes karaktereit. Minden egyes betûnek egyéni kódja van - ez az 1996-
os kiadásban 38885 betût jelent. Természetesen ezeket megjeleníteni természetesen
nem elég a nyolcbites ASCI 256 kódja. Az Unicode 16-bites kódszisztémája, ami
több, mint 65 ezer jelet jelent, gyakorlatilag elég az összes nyelv jeleinek
ábrázolásához, ideértve a technikai jeleket is, mint például a Nemzetközi Fonetikai
Szövetség által rendszeresített fonteikai jelek. Az Unicode kódkönyv vastag kötet,
összegezése elektronikus elérhetõ: http://www.unicode.org.

Az Unicode egy konzorcium terméke, amihez a legnagyobb számítástechikai cégek
tartoznak, IBM, Lotus, Microsoft, Sun, stb.

Az Unicode elsõ 128  (0-127) jele ugyanaz, mint az ASCI. A 128 és 255 közötti jelek
a Latin 1-es kódkiosztásnak felelnek meg. Vagyis a kiterjeszett ASCII az Unicode
alrendszere.

A Latin 2, Latin 3, Latin 4 és néhány kiegészítés foglalja el a 256 és 383 közötti
tartományt. Ezek a sorszámok felelnek meg a HTML kódolásnak: &#337, &#339.
Ezért lehet a hosszú õ és û betõ HTML száma 256-nál nagyobb. Maga az Unicode
minden karaktert hexadecimális formában jelöl. A karakterek képét meg lehet
tekinteni: http://www.unicode. org/Unicode.charts/. Az unikód egyharmada még
nincs kiosztva.

tábla     0-7                8-F
-------------------------------------------------
00        ASCII              Latina-1 (ANSI)
01        Eur. -latin        kiterjesztett latin
02        fonetikai (IPA)
03        jelek              görög
04        cirill
05        örmény             héber
06        araba
07-08     különféle, nem kiosztott
09-0F     hindi(félék)
10        mongol             kartvél (grúz)
11-2F     nincs kiosztva
30        japán (hiragana, katakana)
31-9F     kínai-japán-koreai
A0-AB     nincs kiosztva
AC-D7     koreai (hangul)
D8-F8     nincs kiostva
F9-FF     speciális változatok


Elméletileg az unikód kitûnõ lehetõséget biztosít a soknyelvûség problémájára a
hálózaton. Viszont a feltétele az, hogy a programok képesek legyenenk feldolgozni. A
Netscape és Internet Explorer 4-ig terejdõ változatai még nem képesek az unikódot
értelmezni.

A Microsoft egy WGL4 alcsoportot dolgozott ki, megközelítõleg az európai latin
csoportot fedi. Ez a Win.95-98-ban megtalálható unikód kiosztás
(www.microsoft.com/truetype/fontpack/default.htm).

(kivonat az Eventoj c. eszperantó nyelvû újság 1998 júniusi mellékletébõl)

(A www utalások esetleg elavultak!)

Üdv.

Mészáros István

--------------------------------------------------------------------
 Az egyenrangú kommunikációhoz semleges nemzetközi nyelv szükséges.  
 http://www.esperanto.hu      --    drótposta: eventoj at hungary.net 
 Por  egalrajta  komunikado  necesas  neutrala  internacia  lingvo. 
--------------------------------------------------------------------



További információk a(z) Mek-l levelezőlistáról