HTML kodok ?

2000. Jan. 21., P, 15:14:48 CET

Az alabbi levelet a temaban Zsadanyi Nagy Csaba kuldte nekem.
Remelem nem veszi zokon, hogy tovabbkuldom a listara, de
mindenkeppen erdemes ezt is elolvasni, hasznos, ha ezek
osszegyulnek az archivumban.

Udv

Istvan

-------- Original Message --------
Subject: Re: [MEK-L] HTML kodok ?
Date: Fri, 21 Jan 2000 13:32:01 +0000
From: Zsadányi Nagy Csaba <zsadanyi at tarki.hu>
To: Moldovan Istvan <istvan.moldovan at ELLA.HU>

Kedves István!

Bar regóta ados vagyok eppen egy html konverzioval, mert több dologban
megakadtam, eppen ezert irok leveledre.

> Kedves Kollegak,
>
> Volna itt egy kis modszertani problema ezekkel a pimasz HTML
> kodokkal specialis karakterek eseteben, bar lehet, hogy csak en
> nem tudom a megfejtest ;-)
>
> A napokban jelentkezett egy debreceni kollega, aki UNIX-os
> kornyezetben grafikus Xterminalt hasznal, hogy semmilyen beallitassal
> nem latja rendesen a Pallas-t, amely Latin 2-es ekezeteket hasznal
> es ezt metaadatkent is rogziti.

A Lyunix - amihez nem nagyon ertek - alatt egyetemi eveim alatt nekem is
voltak problemaim, viszont ha a szabvany &xjel; formatum mellet a
content="text/html; charset=iso-8859-2" meta bejegyzest adtam meg, akkor
szepen mukodött, viszont ha a ugyanezt windowsos Netscape alatt ujra
elmentettem, a karaktereket lecserelte a 256 karaktert tartalmazó
megfelelo kodtabla elemeire , acute helyett kirakta az ekezetet.

> Tegnap a kolleganom konvertalt egy WinWord97-es dokumentumot
> HTML Transittal, amelyik Latin 1-re definialta a karaktereket
> acute jelekkel, de egyeb szamos kodokkal is. A kis hosszu o"-t
> &#337; - re, a kis hosszu u"-t &#369; - re. Az 5.0-as Explorer
> meg is jelenitette szepen a helyes magyar karaktereket, a 4.7-es
> Netscape viszont mar nem, itt lett gyanus a dolog.

A WinWord alatt nagyon jol mukodnek a karatkerek kodszamai, egy rakás
ritkan hasznalt karaktert csepelek en is igy alt+0+xxx formaban be, az
viszont már hiba, hogy a WinWord ebben is tarolja konvertalaskor (a Word
2000-rol meg kesobb meg rosszabat is), sot, a kodkeszletet is
Windows-1250-re allitja, ami nem szabvanyos, s bizony a Netscape is csak
Latin-1 kodkiosztasra allitva jeleniti meg igy vagy ugy. Hogy az 5-ös
Explorerrol is mondjak fura dolgokat: az viszont a szabványos
iso-8859-2-es kodkiosztast nem jeleniti meg: az idezojelek, koto- és
gondolatjelek egyszeruen csak ures negyzetkent szerepelnek a kepernyon.

> A MEK-ben levo DOC anyagokat pedig - fokent a szoveges
> szepirodalmi anyagokat - fontosnak tartanam elobb-utobb
> HTML-re konvertalni, biztositva a szoveg megorzeset.

Ez szamomra is nagyon fontos, s en is hasonlo problemakba utkoztem.

> Fennall ezert a kerdes, hogy mit tartanatok celszerunek,
> nagyjabol megbizhato kodolasnak azert, hogy helyesen
> lehessen megjeleniteni a legkulonbozott kornyezetben
> az eltero karaktereket.
>
> Persze ha todithatom a dolgot, szo lehet, sot szo van
> - van olyan dokumentumunk is felkeszen - amelyben Latin 1-be
> tartozo pl. francia karakterek vannak, sot olyanok is,
> amelyekben vegyes karakterek.
>
> Megfelelo ezekben az esetekben a HTML acute kodolasa
> ugy, hogy a megfelelo betu, szavak megfelelo fontkeszletet
> megiscsak FONT FACE utasitassal ?

A font face az egy nagyon erdekes allatfaj: minthogy reszben tenyleg
megoldast kinál problemakra, reszben viszont ujakat eredmenyez. A
tobbnyelvuseg elvileg a html 4 leirasa szerint megoldott. Volna. Ugyanis
lehet, hogy csak en vagyok nagyon kutyauto lamer, de nekem egyszeruen
nem sikerult a lang és hasonlo abszolut szukseges tageket hasznalni az
uj bongeszok alatt, s egy sor tobbnyelvuseget szolgalo egyeb html 4
szabvany sem jon be, ezert azt merem mondani, hogy a mai napig, immar
ket evvel a html elfogadasa utan sincs ezt hasznalo bongeszo. A font
face itt kicsit segit: pl. teljes vagy szemi-unicode-os fontkeszletek (a
win alatt ilyen a tahoma) arab, heber, gorog, cirill, latin-1, latin-2
kodkiosztast egesz biztosan tudnak, viszont ez Unix alatt nem megoldas.
Az pedig a halalomat jelenti, ha font face="akarmi CE, akarmi" szerepel,
mert itt gyakran a kokanyolt fontok nyugati vagy ures karakterei
jelennek meg.

A Word 2000 mindezt egy erosen windows-centrikus xml-lel oldja meg, ami
nem volna baj (pl. stilusokat rendel a bekezdesekhez), amde a fontokat
ugyanugy windowsos fontokkent adja meg, raadasul nem lehet neki megadni,
hogy a nem hasznalt stilusokat ne irja be a doksiba, igy 40 kb-on
keresztul csak a normal.dot xml leirasa szerepel.

Udvozito megoldasokat nem tudok, titkon remenykedem a html 4 TELJES
elfogadasaba, de addig is:
1. csak Netscape es Wordpad utjan szerkesztek html-t
2. mindig iso-8859-2-t hasznalok (ez ugyan ekezetes betuket jelent, nem
128 karatter + kodot, de igy lenyegesen konnyebb Wordpadben hibát
javitani)
3. a nem kozep-europai karaktereknel a font face="tahoma" megoldast
hasznalom, esetleg a <tt> taget, ha be lehet allitani, hogy az irogepes
font eltero legyen a default fonthoz kepest.
4. eppen ezert teljesen megoldatlan a word konverzio. A w2000 ugyan a
labjegyzeteket, belso hivatkozasokat is lementi, de kezzel utana
piszkalni a file-nak mero mazochizmus, a word97 viszont legyalulja a
labjegyzetet, radasaul azutan is marad eppen eleg kezi utomunka
5. torom a fejem, nem kellene egy kicsi, gyors, okos, html4-et ismero
bongeszo/html szerkeszto progit irni? :)))

Zsadányi Nagy Csaba