luni, 4 noiembrie 2013

Aplicația Opinia - urmărește declarațiile din presă

Astăzi am lansat aplicația Opinia pentru android.

Opinia este o aplicație cu ajutorul căreia se poate de urmărit declarațiile din presă a persoanelor mediatizate din diferite domenii: politic, social, sport, divertisment, justiție, tehnică, știință.

Cu ajutorul Opinia putem vedea:

  • ce a spus persoana X;
  • cine și ce a spus despre persoana X;
  • ce părere are persoana X despre un anumit subiect.

Opinia oferă o metodă simplă pentru a urmări EXACT ce spun personalitățile, fără alt text care poate distorsiona mesajul inițial.

Versiunea curentă suportă 2 țări: România și Moldova. Nu este posibilă schimbarea țării!

De asemenea, fiecare declarație/citat a unei persoane, poate fi votată cu like/dislike.






În cel mai scurt timp posibil vom lansa și aplicația pentru iOS (iPhone, iPad).

Aplicația este la început, de aceea pot apărea anumite probleme. Vă rugăm să ne lăsați un mesaj dacă este cazul.

duminică, 15 septembrie 2013

Entity Extraction în Română, Rusă, Bulgară, Maghiară

În ultimii ani am creat câteva proiecte care procesau o mulțime de știri și încercau să ofere vizitatorului o experiență nouă: Pressactors.com (votarea actorilor din știri/evenimente) funcționalitate transferată azi la proiectele Ournet.ro, Click.md, Zborg.ru, Ournet.bg, etc.

În această perioadă, am dezvoltat un sistem foarte eficient(cel puțin pentru cerințele noastre) de identificare și recunoaștere a entităților(Persoane, Organizații, Branduri, Locuri/localități) din text. Un sistem care învață în timp și care procesează un text în câteva milisecunde (~ 1/2 secundă).

În domeniul de cercetare această funcție/domeniu se numește Named-entity recognition sau Named Entity Extraction. Există multe servicii, aplicații, cod în această direcție dar majoritatea este pentru limbile cele mai mari și sunt destul de complexe(...) sau scumpe. În orice caz, nu întâlneau cerințele noastre.

Pentru proiectele noastre aveam nevoie de un sistem care:

  1. Funcționează bine pentru multe alte limbi în afară de engleză, germană, spaniolă și portugheză;
  2. Înțelege sinonimele unui concept/entitate(Adreei Marin=Andreea Marin; Москвой, Москву, Москвы=Москва);
  3. Funcționează contextual, ține cont de țară: de exemplu, dacă într-o știre din Moldova se scrie "Ministerul Muncii a decis...", atunci sistemul știe că e vorba de Ministerul Muncii din Republica Moldova și nu de cel din România.
  4. Oferă pentru fiecare entitate info de pe Wikipedia;
  5. Poate categoriza textul: politic, social, economic, știință, etc.
  6. Funcționează rapid și utilizează foarte puține resurse.
În prezent, sistemul nostru cunoaște 4 limbi: Româna, Rusa, Bulgara și Maghiara și crește zilnic.

De aici ne-a venit ideea de a oferi acestă funcționalitate ca serviciu pentru alte aplicații, siteuri.

Potențiali clienți

Sistemul ar putea fi utilizat cu succes, în special, în domeniul mass-media: 
  • Siteuri care vor să facă ordine în articole prin adăugarea tagurilor, categorii, etc.
  • News/Blogs Aggregators
De asemenea, serviciul poate fi folosit în diferite analize și statistici.

Entitizer.com - acesta este siteul serviciului.

Voi reveni cu o descriere detaliată a serviciului.