A Logana Termék-Stratégia
A
Logana Információ-Kutatási Központ tagjai elhatározták, hogy az
általuk kifejlesztett Logana Információ-Kutatási Technológia alapján
létrehozzák a Logana Termékcsaládot, melynek révén kívánják biztosítani
ezen új technológia elterjedését a világon.
E technológia bemutató
programja kipróbálható a Logana Webhelyen; www.logana.com.
Megjegyezzük, hogy e
bemutató program két (Analog1 és Analog2 nevű) működési oldallal rendelkezik,
és mindkettőnek van egy angol és egy magyar nyelvű változata. Az Analog1
oldalon a bemutató program belső névkészletéből kiválasztott valamelyik név
torzításaival végezhetjük a hasonlósági keresést. Az Analog2 oldal lehetőséget
ad, saját (legfeljebb 15 ezer szót tartalmazó) szöveg vizsgálatára (a
bemásolás történhet például a szövegkijelölés utáni Ctrl-C, majd Ctrl-V
használatával). Itt a hasonlósági szövegkeresésen kívül automatikus
kulcsszó-kigyűjtés is végezhető. (Célszerű a használat előtt a Help-eket elolvasni!)
Mi
az a Logana Információ-Kutatási Technológia?
A
Logana Információ-Kutatási Technológia olyan, a hasonlóság teljesen
újszerű értelmezésén alapuló szöveg- és adatfeldolgozási módszerek összessége,
mely a világon egyedülállóan hatékony, és (a betűírásos nyelvek körében) nyelvfüggetlen módon teszi lehetővé szövegkeresést, az
adatkigyűjtést, és a tartalom-elemzést.
További alkalmazásként
említhető az automatikus kulcsszó-kigyűjtés, az informatikai víruskeresés, és
segítséget nyújthat szöveges dokumentumok elemzésénél, összehasonlításánál,
plágium-vizsgálatánál, fonéma-alapú beszédfelismerésnél, mutáns génszekvenciák
DNS-láncban való keresésénél, stb.
Az alábbiakban
bemutatjuk a technológiánk főbb felhasználási területeit, potenciális
alkalmazásait. Ezek megvalósításával lényegesen meg fog változni világunkban a
szöveges (és általában a szekvenciális struktúrájú) adatok keresése,
értelmezése, elemzése, minősítése, kigyűjtése és feldolgozása.
1.)
Elsődleges alkalmazások
Ide az olyan
alkalmazások tartoznak, melyek használatát jól szemlélteti a bemutató programunk (www.logana.com),
és viszonylag kis infrastrukturális háttérrel már működtethetők.
1.a.) Logana Tartalom-Elemző
Rendszer (Logana TER)
(A dokumentum-feldolgozás
támogatása)
Állami és
biztonsági intézményeknél, nagyvállalatoknál, könyvtárakban gyakran van szükség
nagy mennyiségű szöveges dokumentum vizsgálatára, értelmezésére,
feldolgozására.
A Logana Termékcsalád
kiemelkedő eleme a Logana Tartalom-Elemző Rendszer, mely lehetővé
teszi a szövegek,
szöveges dokumentumok Automatikus Összehasonlítását,
Automatikus Tartalom-Elemzését
(Ellenőrzését), az
Automatikus Kulcsszó-Kigyűjtést, az Automatikus Témakör-Besorolást, stb. Így a "miről szól?",
"mennyire hasonlít?"
kérdések bármely dokumentummal (dokumentumokkal) kapcsolatban könnyen
megválaszolhatók.
E rendszer alapvető eleme a Hasonlósági SzövegKeresés, melynek segítségével az olyan, hibásan keresett, és/vagy hibásan tárolt, illetve
több alakú szavak is
megtalálhatók, melyekre a hagyományos web-keresők (Google, Bing, Ask, Yahoo,
stb.) teljesen alkalmatlanok (lásd pl. Solnoki[60%]→Cholnoky, Széscényi[80%]→Széchenyi a magyar Analog1 oldalon,
vagy Satöbrian[51%]→Chateaubriand, Feiszekker[60%]→Weizsäcker
az angol Analog1 oldalon). E módszer különösen hasznos a hosszú és könnyen
elírható szavak esetén.
Végül megjegyezzük, hogy ez az elemzési módszer
használható plágium-vizsgálatra, általános pszichológiai vizsgálat
előkészítésére, valamint a segítségével kiszűrhetők
a bűnöző-, vagy terrorista-gyanús információ-források is.
1.b.) Logana Fonetikus Oktató
Rendszer (Logana FOR)
(A nyelvtanítás támogatása)
A Logana Fonetikus Oktató Rendszer
a betűírásos nyelveket tanulók részére lehetővé teszi a kiejtés alapján leírt szavak hasonlósági keresését az adott nyelv
szótárában és tankönyveiben, ezáltal egyidejűleg biztosítva, egyrészt a
keresett szó helyesen írt alakjának megismerését, másrészt annak jelentését, és
alkalmazását az adott nyelvben.
1.c.) Logana Hasonlósági Könyvtári
Rendszer (Logana HKR)
(A könyvtárhasználat támogatása)
A
Logana Hasonlósági Könyvtári Rendszer biztosítja
– a könyvtári olvasók részére a fentiekben
bemutatott Hasonlósági SzövegKeresést
az adott könyvtár (vagy akár egy országos könyvtári hálózat!) dokumentumaiban,
– a könyvtárosok részére az Automatikus Kulcsszó-Kigyűjtést
különböző nyelvű dokumentumokban,
– a könyvtárosok részére tetszőleges nyelvhez
és szakterülethez tartozó Referencia Szógyűjtemény
létrehozását az automatikus kulcsszó-kigyűjtéshez.
2.)
Perspektivikus alkalmazások
Ezek működtetéséhez nagy
teljesítményű infrastrukturális (szerver) háttér szükséges.
2.a.) Logana Hasonlósági Tankönyvi
Kereső (Logana HTK)
Az országosan elérhető Logana Hasonlósági Tankönyvi Kereső
az általános iskolai tanulók részére lehetővé teszi az esetleg hibásan leírt szavak hasonlósági keresését a tankönyvekben,
ezáltal egyidejűleg biztosítva, egyrészt a keresett szó helyesen írt alakjának
megismerését, másrészt az ahhoz tartozó tananyag megtalálását. E rendszer
bevezetését célszerű az Irodalom, a Történelem, és a Földrajz tankönyvekkel
kezdeni.
2.b.) Logana Hasonlósági Web-Kereső
(Logana HWK)
Ez a leglátványosabb alkalmazás, hiszen a
Logana Hasonlósági Web-Keresővel az olyan, hibásan keresett, és/vagy hibásan tárolt, illetve több
alakú szavakat tartalmazó web-helyek is megtalálhatók az interneten, melyekre a
hagyományos web-keresők (Google, Bing, Ask, Yahoo, stb.) teljesen alkalmatlanok
(lásd az 1.a. pont példáit).
Mivel ehhez rendkívül nagyteljesítményű
szerverpark szükséges, ezért az alkalmazását kezdetben célszerű korlátozni valamilyen
szakterületre. (Például "Kulturális programok az országban",
"Magyar írók", "Nobel-díjas tudósok a világban",
"Ételreceptek", stb.)
2.c.) Logana Hasonlósági
Szemantikus Kereső (Logana HSzK)
Lehetővé teszi, hogy ne csupán a keresett szó
szerint történjen a Hasonlósági Szövegkeresés, hanem annak összes RokonÉrtelmű, vagy éppen Ellentétes Jelentésű társszava
szerint is, így biztosítva a Tartalom Szerinti Keresést
is a felhasználó által kiválasztott nyelv(ek)en.
[Példa Többjelentésű és Rokonértelmű szóra: Kar: (→Felső végtag, Kéz),
(→Énekkar, Kórus, Dalárda), (→{oktatási} Kar, Fakultás). Leegyszerűsítve; ha
a keresőszó "daláda" (helyesen írva "dalárda"), akkor
találjuk meg az "énekkar" szót is!]
Ennek módja:
– első lépésben felkínálja a
felhasználónak az általa keresett szó különböző jelentésű, de a keresett szóhoz
"elegendően hasonló" alakú változatait, azok
jelentés-leírásával, annak érdekében, hogy közülük kiválaszthassa a számára
megfelelőt, majd a
– második lépésben megadja (a vizsgált
dokumentumra, vagy adatbázisra vonatkozóan) az első lépésben kiválasztott
jelentésű szó összes, kiválasztott nyelvű Szinonimájához
(rokonértelmű változatához), vagy éppen Antonimájához (ellentétes jelentésű változatához)
tartozó, vagy azokhoz "elegendően hasonló" találatot, attól
függően, hogy a felhasználó melyik opciót (a szinonima, vagy az antonima
üzemmódot) választja.
Végül megjegyezzük, hogy noha a
Logana Hasonlósági SzövegKereső nyelv-független, a szemantikai
kereséshez szükség van a kiválasztott nyelv(ek)hez tartozó
– értelmező szótárra (az
első lépésnél), hogy a felhasználó kiválaszthassa a számára megfelelő
jelentésű szót, valamint
– egy szinonima, vagy egy antonima szótárra
(a második lépésnél).
2.d.) Logana Hasonlósági Szemantikus
Web-kereső (Logana HSzW)
A fenti két rendszer (Logana HWK és
Logana HSzK) egyesítésével létre lehet hozni (a világon egyedülálló
módon!) a Hasonlósági Tartalom Szerinti
Keresést az Interneten.
3.)
További alkalmazások
Ezek létrehozása más
szakterületek képviselőivel való intenzív együttműködést igényel.
3.a.) Logana Gén-Kereső Rendszer
(Logana GKR)
A Logana Gén-Kereső Rendszer lehetővé
teszi mutáns génszekvenciák automatikus keresését
DNS láncban.
E módszer lényege az, hogy program a
DNS láncot leíró karakter- (azaz triplet-) sorozaton egy, a keresendő
génszekvenciával egyező méretű keretet mozgat végig karakterenként, és minden
kerethez megállapítja a keretben lévő DNS láncrésznek a vizsgált (például
mutáns) génszekvenciához való hasonlóságát.
A genetikusnak így csak azokat a DNS lánc részeket
kell megvizsgálnia (értelmeznie), ahol ennek a Keretrelatív Hasonlításnak az eredménye egy előre megadott Határhasonlóság értéket elér, vagy
annál nagyobb. Ezt a Határhasonlóság értéket természetesen a genetikus adja meg
(százalékban), és a keresést egymás után többször is elvégezheti különböző Határhasonlóság
értékek esetén.
Ez egy meglehetősen erőforrás igényes folyamat
(egy DNS lánc sokmilliárd tripletből áll!), ám egyrészt egy ilyesmihez
szükséges számítógép ma már nem csillagászati költségű, másrészt e folyamat az
automatikus jellege miatt lényegesen hatékonyabb, és megbízhatóbb, mint a hagyományos
kémiai módszer.
3.b.) Logana Beszéd-Felismerő
Rendszer (Logana BFR)
A Logana Beszéd-Felismerő Rendszer
jelentős mértékben elősegíti a hibás (dadogós, pösze, stb.) beszéd felismerését
is. Használatának előfeltétele a vizsgálandó beszéd fonéma-szekvenciává való
konvertálása. A fonémák a beszélt nyelv "betűi", és nyilván nem csak
nyelvenként, de nyelvjárásonként is különbözhetnek, továbbá egy beszédhibás
személy esetén még egyéb torzulások is keletkezhetnek.
Az eljárás a következő két lépésből áll:
– Az első lépésben a vizsgálandó beszéd
kezdeti, valamely nem túl hosszú részének egy általános beszéd-fonéma
konvertálást követő hasonlósági feldolgozásával megállapítja, hogy milyen
nyelvű (és nyelvjárású) a beszéd.
– A második lépésben a vizsgálandó
beszédnek, az első lépésben kijelölt nyelvhez (nyelvjáráshoz) tartozó
beszéd-fonéma konvertálása után alkalmazott hasonlósági feldolgozással, még a
beszédhibás fonéma-szekvenciák is sikeresen értelmezhetőek.
3.c.) Logana Hasonlósági Előszűrő
Hardver (Logana HEH)
A szekvenciális struktúrák hasonlósági keresését
(pl. dokumentumban, táblázatban, vagy adatbázisban való szövegkeresést) egy
hardveres (FPGA, vagy GPGPU eszközzel való) előszűrés lényegesen gyorsíthatja.
Ennek eredményeként a hasonlóság-vizsgálatnak az erőforrás-igényesebb részét
már egy lényegesen kisebb szekvencia-halmazra vonatkozóan kell csupán
elvégezni.
Egyéb potenciális alkalmazások: dallamok összehasonlítása, hasonló dallamok keresése,
szövegek plágium-ellenőrzése, hasonlóság-alapú szövegjavítás,
morfológiai szótár, automatikus szöveg-értelmezés, általános
pszichológiai szövegelemzés stb.