internet

Polska wyszukiwarka semantyczna Nekst

Trwają pracę nad stworzeniem polskiej semantycznej wyszukiwarki internetowej Nekst, która ma służyć do precyzyjnego przeszukiwania polskich tekstów znajdujących się w Internecie.

Wyszukiwarkę Nekst tworzy połączony zespół pracowników z Instytutu Podstaw Informatyki PAN w Warszawie oraz Politechniki Wrocławskiej. Według założeń projektu do czerwca ma zostać zeskanowanych w sumie 500 milionów dokumentów (artykułów, plików PDF i innych tekstów) – co stanowi połowę polskiego internetu. Po zindeksowaniu tych treści wyszukiwarka zostanie udostępniona użytkownikom. Celem projektu jest skanować i aktualizować na bieżąco wszystkie polskie teksty znajdujące się w intrnecie.

W rozmowie z PAP jeden z twórców wyszukiwarki, dr Dariusz Czerski z IPI PAN, stwierdził, że największym problem w tworzeniu polskiej wyszukiwarki nie jest przechowywanie tekstów na instytutowych serwerach, tylko bieżące opisywanie i uporządkowanie ich dla potrzeb wyszukiwania. Na razie wyszukiwarka Nekst zebrała 160 mln polskojęzycznych dokumentów, co stanowi 16 procent polskiego internetu.

Profesor Jacek Koronacki, dyrektor IPI PAN podkreśla, że Nekst będzie pierwszą w Europie wyszukiwarką semantyczną języka narodowego tak dużej wielkości. Wyszukiwarka ma działać inaczej niż Google, a jej algorytmy będą w stanie dokładniej sprawdzić zasoby polskiego internetu. Wyszukiwarka nie będzie wyszukiwała ciągu słów kluczowych znajdujących się na stronie, będzie natomiast analizować zgromadzone teksty pod kątem najczęściej pojawiających się w nich istotniejszych słów i wyrażeń wielosłownych (np. fraz rzeczownikowych). Ma to pozwolić na lepsze zidentyfikowanie tekstu i jego dokładniejszą klasyfikację.

Skuteczność wyszukiwarki Nekst będziemy mogli sprawdzić już w czerwcu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *