Lucrând la un modul de căutare a știrilor asemănătoare m-am lovit de o realitate incomodă: siteurile de știri din Moldova sunt foarte nepreitenoase cu motoarelor de căutare.
Din curiozitate am început să analizez rând pe rând toate siteurile de știri. Le-am analizat din punct de vedere a formatului HTML:
- Titlul paginii include titlul articolului (+1 punct);
- meta description este o parte din articol (+1 punct);
- Are H1 relevant (+1 punct);
- Are H2 relevant (+1 punct);
- Lungimea titlului știrii (trebuie să fie minimă) (+1 punct);
- Formatul titlului știrii (trebuie să fie simplu) (0 punct).
În urma analizei am obținut următorul rating:
- TheNews.md (4 puncte)
- Protv.md (3 puncte)
- Timpul.md (3 puncte)
- Azi.md (2 puncte)
- Interlic.md (2 puncte)
- Jurnaltv.md (1 puncte)
- Ziarul de Garda (1 puncte)
- HotNews.md (1 puncte)
- Point.md (0 puncte)
- Info-prim.md (0 puncte)
- Literatura si arta (0 puncte)
- Civic.md (0 puncte)
- Unimedia.md (-1 puncte)
- Basa.md (-1 puncte)
- Flux.md (-1 puncte)
- Infotag.md (-2 puncte)
Cele mai rele: Infotag.md, Flux.md, Basa.md și Unimedia.md.
Acum despre modulul care m-a dus până aici
Să vedem câteva exemple:
- "Rusia încearcă să introducă..." - o știre de pe HotNews.md - Vezi știri asemănătoare - ve-ți vedea știri relevante.
- "Serafim Urechean: Am fost nevoit să..." - o știre de pe UNIMEDIA - Vezi știri asemănătoare - știri nerelevante :(