vineri, 13 martie 2009

Presslook face următorul pas - știri asemănătoare

Cel de-al doilea pas important în dezvoltarea proiectului presslook.com este realizarea unui mecanizm simplu de identificare a știrilor asemănătoare.

Sarcina pare cât se poate de simplă, dar realizarea necesită destul de multe resurse...

Date de intrare
Deci, datele de intrare pentru a primi știri asemănătoare sunt:
  • URL - linkul știrii examinate (pentru care se caută știri asemănătoare);
  • LL - limba în care este scrisă știrea exeminată (de la url) - poate fi RO, RU, ES, EN și FR;
  • _CN - țara în care se caută știri asemănătoare - la moment poate fi RO, RU, ES, US, FR și MD;
  • _UL - limba în care se caută știri asemănătoare (poate primi aceleași valori ca și ll);
  • _MINDATE - data minimă din care se poate căuta știri - opțional;
  • _MAXDATE - data maximă din care se vor căuta știri - opțional.
Dacă nu se indică data maximă și cea minimă, se vor căuta știri din ultimele 14 zile.

Date de ieșire
La moment este disponibilă doar varianta pentru ieșiri în format RSS. Adresa care va genera RSS-ul este următoarea: http://www.presslook.com/share/context.aspx.
Este important de știut că încă nu s-a pus accent pe performanță, astfel la prima accesare a paginii de generare a RSS-ului timpul de procesare este de câteva secunde - în schimb următoarea accesare cu acceași parametri în decurs de 20 minute se va executa foarte rapid.

Să vedem un exemplu:

Voi căuta știri asemănătoare pentru Obamas mixing Everyman, high society (o știre din SUA în limba engleză). Mă interesează știri asemănătoare din Moldova scrise în română.
Vom obține următorul link:

Testare
Pentru testare am făcut o mică interfață disponibilă aici.

Important
Sistemul este în plină dezvoltare, deci nu merge vorba de o variantă care ar trebui să funcționeze super. Calitatea rezultatelor depinde mult de cuvintele cheie existente momentan în sistem. În timp, aceastea se vor acumula și rezultatele vor fi mai calitative.
Orice sugestii sunt bine venite.

Cum functioneaza
Pentru a putea analiza un url (o știre) este nevoie ca pagina analizat să fie corect HTML formatată. Adică, trebuie sa aibă setat un titlu și o descriere. Altă variantă posibilă este identificarea secțiunilor dintr-o pagină cu atributul class="press-share" - sistemul va analiza textul existent în aceste elemente (div, span, etc.).
După ce se identifică cuvintele cheie în știre, se caută știri cu aceleași cuvinte cheie. Cam aceasta este forma simplistă a mecanizmului.

Niciun comentariu:

Trimiteți un comentariu