În această perioadă, am dezvoltat un sistem foarte eficient(cel puțin pentru cerințele noastre) de identificare și recunoaștere a entităților(Persoane, Organizații, Branduri, Locuri/localități) din text. Un sistem care învață în timp și care procesează un text în câteva milisecunde (~ 1/2 secundă).
În domeniul de cercetare această funcție/domeniu se numește Named-entity recognition sau Named Entity Extraction. Există multe servicii, aplicații, cod în această direcție dar majoritatea este pentru limbile cele mai mari și sunt destul de complexe(...) sau scumpe. În orice caz, nu întâlneau cerințele noastre.
Pentru proiectele noastre aveam nevoie de un sistem care:
- Funcționează bine pentru multe alte limbi în afară de engleză, germană, spaniolă și portugheză;
- Înțelege sinonimele unui concept/entitate(Adreei Marin=Andreea Marin; Москвой, Москву, Москвы=Москва);
- Funcționează contextual, ține cont de țară: de exemplu, dacă într-o știre din Moldova se scrie "Ministerul Muncii a decis...", atunci sistemul știe că e vorba de Ministerul Muncii din Republica Moldova și nu de cel din România.
- Oferă pentru fiecare entitate info de pe Wikipedia;
- Poate categoriza textul: politic, social, economic, știință, etc.
- Funcționează rapid și utilizează foarte puține resurse.
În prezent, sistemul nostru cunoaște 4 limbi: Româna, Rusa, Bulgara și Maghiara și crește zilnic.
De aici ne-a venit ideea de a oferi acestă funcționalitate ca serviciu pentru alte aplicații, siteuri.
Potențiali clienți
Sistemul ar putea fi utilizat cu succes, în special, în domeniul mass-media:
- Siteuri care vor să facă ordine în articole prin adăugarea tagurilor, categorii, etc.
- News/Blogs Aggregators
De asemenea, serviciul poate fi folosit în diferite analize și statistici.
Entitizer.com - acesta este siteul serviciului.
Voi reveni cu o descriere detaliată a serviciului.
Niciun comentariu:
Trimiteți un comentariu