Interjú: PolyMeta kereső

A tavaly megszakadt interjúsorozatot folytatom most, ezúttal a PolyMeta kereső fejlesztőinek tettem fel nagyrészt szokásos kérdéseimet. Erről a keresőről röviden annyit kell tudni, hogy egyszerre keres több keresővel, majd a találatokat egy találati listában, súlyozva kínálja fel számunkra, különböző segítségekkel, képekkel.

Pontosan ki, kik vagytok, milyen cég/magánszemély/társaság áll az oldal mögött? A K-Prog Bt-re láttam linket az oldalról. Mutassátok be egy kicsit magatokat!

A K-PROG Informatikai és Szolgáltató Betéti Társaság 2001 óta létezik. Szerződéses partnerekkel együttműködve internet, intranet szoftverek fejlesztésével foglalkozunk a legmodernebb (Java alapú) technológiák alkalmazásával.

Mikor, és miért merült fel bennetek az oldal elkészítésének ötlete?

A PolyMeta háttértörténete azzal indult, hogy a National Library of Medicine (az USA nemzeti egészségügyi intézeteinek egyike) számára kezdtünk el fejleszteni egy toxikológiai metakeresőt, ami jelenleg is fut éles rendszerként a http://toxseek.nlm.nih.gov címen.

A fenti bevezetőn kívül írnál még egy kicsit az oldalról? Miket tud, milyen szolgáltatásokat nyújt? Miben gondolod, hogy többet nyújt más keresőknél?

A PolyMeta.hu jelenleg elsősorban nyilvános demóként funkcionál, hiszen bevételünk nem származik belőle. Amiben magyar nyelvterületen egyedülállónak számítunk az a baloldalon megjelenített tartalomjegyzék, ami segítséget jelent abban, hogy ne csak az első 10 találatot tudja a felhasználó áttekinteni, hanem egyből átláthassa melyek azok a témák, amelyek a találatokban előfordultak. A tartalomjegyzék egy elemén kattintva nézhetjük csak az azt tartalmazó találatokat, illetve rájöhetünk arra is, hogy talán pontosíthatjuk a keresőkérdésünket, mert meglátjuk azt a kifejezést ami igazán érdekelt bennünket, amikor a keresést kezdtük.

Amikor egy magyar nyelvű kifejezést keres valaki a PolyMetán akkor annak a kifejezésnek a nyelvi variánsait is elküldjük a forrásokhoz így olyan találatok is előjöhetnek amelyek az általunk keresett források közvetlen keresése esetén nem találnánk meg. Pl. az “esőerdő” szóra keresve, mi 87400 találatot érünk el a Google-ben, közvetlenül keresve csak 38800 találatot láthatnánk. De a Tango.hu esetében is duplája a megtalált találatok száma a közvetlen kereséshez képest. De itt nem is annyira a találatok száma érdekes, hanem, hogy olyan oldalakat érhetünk el, ahol a keresett kifejezésnek csak valamilyen magyar nyelvi változata fordul elő. Másfelől nézve, a felhasználónak nem kell nyelvi variációkon és azokból felépített összetett kereső kifejezéseken törnie a fejét, hogy a legértékesebb találati oldalakra leljen.

Talán nem is tűnik fel mindenkinek elsőre, de az eredeti keresők találati oldalai is közvetlenül elérhetők az oldalunkról a keresés után, ha a „Források megjelenítése” linkre kattintunk a PolyMeta logó alatt. Így azok számára is hasznos lehet a PolyMeta.hu akik nem “hisznek” a metakeresőkben, hiszen rajtunk keresztül keresve több találathoz juthatnak az általuk preferált keresőhelyen is.

Legújabb alkalmazásunkkal a „dokim.hu” egészségügyi keresővel szeretném illusztrálni a metakeresők egy másik előnyét.
A betegségekkel kapcsolatban, érthető módon, nem mindegy, hogy a megtalált információ milyen forrásból származik. Hiszen az interneten akár én is írhatok egy cikket a rák kezeléséről, de kérdés mennyiben megbízható egy ilyen információ. Tehát a „dokim.hu” esetében nem cél a teljes web keresése, hanem csak néhány megbízható egészségügyi forrást keresünk és azokról mutatunk egy összesítést.

Persze mondhatja valaki, hogy a „normál” keresők is törekszenek az oldalakat rangsorolni és ezért előre fognak kerülni a releváns találatok. Ezzel kapcsolatban egy példa: próbáljátok ki a “hírességek nevei” keresést a Google-ban. Talán meglepődtök az első találaton, ahogy mi is meglepődtünk. Igazán nem mondható túl relevánsnak az oldalunk a hírességek témája kapcsán, mégis mi lettünk az elsők. Megvagyunk arról győződve, hogy több kereső együttes információja alapján azt állítani valamely oldalról, hogy valóban releváns az adott témában, jobban eldönthető mint ha csak egy keresőt próbálunk ki. Én sajnálatosnak tartom, hogy Magyarországon kialakul az a szemlélet, hogy a Google egyszerűen úgy tökéletes ahogy van. A helyzet az, hogy a legtöbb esetben úgymond elég jó oldalakat találhat valaki a segítségével és eszébe sem jut, hogy van-e ennél jobb eredmény is.

Hadd mondjak el egy másik érdekes összefüggést. Az elmúlt év egyik érdekes híre volt, hogy elperelték a google.hu domain nevet a Kurzor-tól. Nézzétek meg, hogyan változott a kurzor.hu használati statiszikája ezután:

http://www.alexa.com/data/details/traffic_details?site0=kurzor.hu/&url=kurzor.hu/

Mit mutat ez? Azt, hogy rengetegen használták úgy a google.hu domainen keresztük a Kurzor keresőt, hogy közben észre sem vették, hogy nem a Google szolgáltatását használják. Most akkor a Google valóban a legjobb magyar nyelvű keresőszolgáltatás vagy egyszerűen csak a legismertebb név?

A második dolog, hogy egy információ megbízhatóságát nem minősíti abszolút mértékben az, hogy hányan hivatkoznak rá, hiszen lehet, hogy különböző ún. alternatív gyógymódokat propagáló oldalak hivatkoznak egymásra, és így komoly „page rank”-re tesznek szert (ami a Google sorrendezésének egyik alapja), de ez még nem mond semmit arról, hogy valóban jó ez a információ amit ott olvasok, és nem teszem esetleg kockára az egészségemet, ha rábízom magamat.

Amikor az oldal elindult, eléggé nehézkesen volt használható, a keresési találatokra sokat kellett várni. Mi a helyzet ezzel most?

A kezdeti időkben nem a sebesség volt az elsődleges szempontunk, mivel projekt nagyrészt kutatási feladat volt, ahol igyekeztünk fejlett nyelvi funkciókat beépíteni és sokat kísérleteztünk. Mára azonban nagyban javult a helyzet, azt hiszem. Bár azt tudni kell, hogy egyetlen metakereső sem lehet gyorsabb, mint a keresett források közül a leglassabb.

Milyen funkciókat terveztek még megvalósítani?

Szeretnénk a MorphoLogic-kal közösen tovább dolgozni a nyelvi technológiák hasznosításán. Ott is főleg a gépi fordítási vonalat erősíteni, vagyis elképzelhető, hogy rövidesen az angol nyelvű találatok esetén a rövid szöveges összefoglalók magyarul jelenjenek meg, illetve az angol szövegű eredményoldalak a „webforditas.hu”-n keresztül szintén magyarul olvashatóvá váljanak.

Ezzel kapcsolatban szeretném kiemelni azt amit dr. Prószéky Gábor a MorphLogic ügyvezetője mondott, hogy bár lehet kritizálni jogosan a gépi fordítás minőségét, de azt kell látni, hogy ez azok számára jelenthet kimondhatatlan segítséget, akik maguk nem beszélik az adott idegen nyelvet. Egy olyan világ nyílik meg a számukra, ami egyébként teljesen elérhetetlen lenne.

Mekkora az oldal ismertsége, van-e valamilyen felmérésetek arról, hogy milyen felhasználói köre van?

Az elmúlt évben 241 ezer keresést hajtottak végre nálunk. Egy az index.hu-n áprilisban megjelent cikken túl, néhány további, kisebb sajtómegjelenésünk volt. Idén szeretnénk ezen változtatni és komolyabb energiát fordítani a szolgáltatásunk megismertetésére. Reklámra egy fillért sem költöttünk eddig, szerintem ezt számításba véve nem rossz eredmény.

Pontosan hogyan mûködik az oldal, miket használtok a háttérben?

Ha jól értem itt a technikai háttérre gondolsz. A PolyMeta metakereső motor alapvetően Java nyelven iródott, ez alól a nyelvészeti funkciók a kivételek, amelyek C nyelven készültek. Jelenleg 3 szerveren futtatott JBoss alkalmazásszerver szolgálja ki a kéréseket, a háttérben pedig egy PostgreSQL adatbázisban tároljuk az adatokat.

Szerintetek az oldal webkettes-e?

Nem. Ha csak azt nem veszi valaki annak, hogy AJAX-os a válaszoldal, tehát pl. lapozásnál csak az eredményrészek töltődnek újra és nem az egész oldal. Illetve a tartalomjegyzék is utólag töltődik be a lapba, amikor elkészül.

Mi a véleményetek a webkettőről, mit tartotok a legérdekesebb webkettes szolgáltatásnak?

Nagyon tetszik a video és fényképmegosztás, erre sokféle alkalmazás van. Persze én is használom az iwiw-et, bár az szerintem igazán még nem derült, hogy mire is való a közösségi háló. (Mondjuk hirdetések megjelnítésére nagyon alkalmas :o) ) A legjobb példája mégis a számomra a webkettőnek a Wikipedia. Hihetlen, hogy milyen információ mennyiség gyűlt össze, amelyik a legtöbb esetben jó minőségűnek is látszik. Természetesen ez a közreműködők számától nagymértékben függ, ezért például a magyar nyelvű tartalom biztosan nem fogja elérni azt a színvonalat, amit angol nyelven nyújt.

Köszönöm az interjút!


Erről a bejegyzésről