Lehet-e szoveg tartalma't gepi modszerrel darabolni?

Bela Simonyi bsimonyi at FREEMAIL.C3.HU
1999. Sze. 27., H, 18:49:54 CEST


Mivel a MEK körül szövegekkel kapcsolatos hozzáértés koncentrálódik,
szeretnék ilyen jellegû ötletkérést feldobni,
- válasz megfelel a listán, ha mást is érdekelhet,
vagy akár a saját címemre.

Sok jó ötletet kaptam már, de a feladat gépiesítése még ma is
megoldhatatlannak tûnik.
Gyógynövény-adatbázist készítek, és ehhez rengeteg (magyar, német és angol)
szakirodalmat próbálok úgy tagolni, preparálni, 
hogy _minél_ _elemibb_ darabokban adódjanak belõle az információk.
Mivel hatalmas mennyiségrõl van szó, keresem a _gépi módszer_ lehetõségét.
Egy szemléltetõ példa a gyakorlatomban:
szövegszerkesztõ-macroval minden szövegdarab (általában: bekezdés) kap egy
"zsebet", amelybe különféle ismertetõjegyek alapján jelölések gyûlnek.
A jelölések arra vonatkoznak, hogy a bekezdés tartalma milyen jellegû.
Például ahol "mag", "virág", "szár", "gyökér", "levél" szavak elõfordulnak,
ott a zsebbe jórészt a morfológia, "a növény kinézete" jelölések gyûlnek. 
Ahol hatóanyag-nevek csoportosulnak, ott az, 
ahol a gyógyhatás jellemzõ szavai, ott az.
Sok-sok esetben persze nem lesznek egynemûek az egy zsebben összegyûlt
jelölések. A darabszámok aránya valószínûsíthet - de az egész nagyon
kezdetleges.

Tulajdonképpen gépi tartalomelemzésrõl van szó.
Példaként egy nagyon rövid mondat:
"Vörös színû naftokinonjai élelmiszerfestékek."
(Az, hogy az információ melyik növényre vonatkozik, a szövegben odébb
szerepel, de folyamatosan kapcsolni kell úgy, hogy ebben hibázni szigorúan
tilos!) 
A mondatból kioperálandó elemi tudnivalók:
- Az Alkanna tinctoria tartalmaz naftokinonokat.
- A naftokinonok vörös színûek (ebbõl még nem kizárt, hogy lehetnek más
színûek is).
- A naftokinonok élelmiszerfestékek.
A végeredmény tehát elemi szintre tisztult információ, mint pl.:
- a drog szaga frissen
- a drog szaga helyesen szárítva
- a drog szaga helytelen kezelés után
Egy növényrõl akár 2000 ilyen kérdés is feltehetõ.

A kérdés lényege tehát: hogyan lehet folyószöveget széria-módszerrel
tartalmi atomokra bontani? Csinált már valaki ilyesmit?
Köszönök minden ötletet: Simonyi Béla, bsimonyi at freemail.c3.hu
-----------------------------------------



További információk a(z) Mek-l levelezőlistáról