18.12.2012 Views

Roxana - Gabriela HORINCAR Refresh Strategies and Online ... - LIP6

Roxana - Gabriela HORINCAR Refresh Strategies and Online ... - LIP6

Roxana - Gabriela HORINCAR Refresh Strategies and Online ... - LIP6

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Résumé<br />

Avec l’expansion importante d’appareils connectés à l’Internet et l’essor du Web 2.0, le contenu web<br />

se diversifie et devient de plus en plus dynamique. Afin de faciliter la diffusion de flux d’informations<br />

évolutives et souvent temporaires (news, messages, annonces), des nombreuses applications web<br />

publient les items d’informations les plus récentes dans des documents RSS ou Atom qui sont ensuite<br />

collectés et transformés par des agrégateurs RSS comme Google Reader ou Yahoo! News. Nos<br />

recherches se placent dans le contexte d’agrégation de documents RSS dynamiques et se focalisent<br />

sur l’optimisation du rafraîchissement et de l’estimation en ligne du changement de contenu RSS<br />

hautement dynamique. Nous introduisons et formalisons deux mesures qualitatives spécifiques à<br />

l’agrégation de flux RSS qui reflètent la complétude et la fraîcheur moyenne du flux d’information<br />

agrégé. Nous proposons une stratégie de rafraîchissement du ”meilleur effort” qui maximise la<br />

qualité de l’agrégation par rapport aux autres approches existantes avec un nombre moyen de<br />

rafraîchissements identique. Nous présentons une analyse des caractéristiques générales de l’activité<br />

de publication des flux RSS réels en se focalisant surtout sur la dimension temporelle. Nous étudions<br />

différents modèles et méthodes d’estimation de changements d’activité et leur intégration dans les<br />

stratégies de rafraîchissement. Les méthodes présentées ont été implémentés et testés sur des<br />

données synthétiques et des flux RSS réels.<br />

Mots clés : flux RSS, stratégie de rafraîchissement, estimation de changements en-ligne, agrégateur<br />

RSS, web dynamique, qualité de données<br />

Abstract<br />

With the rapidly increasing number of sources <strong>and</strong> devices connected to the Internet <strong>and</strong> the<br />

growing success of the Web 2.0 services, the online available web content is getting more <strong>and</strong> more<br />

diverse <strong>and</strong> dynamic. In order to facilitate the efficient dissemination of the evolutive <strong>and</strong> often<br />

temporary information streams (news, messages, announcements), many web applications publish<br />

their most recent information items as RSS <strong>and</strong> Atom documents which are then collected <strong>and</strong><br />

transformed by RSS aggregators like Google Reader or Yahoo! News. Our research is placed in<br />

the context of content-based feed aggregation systems <strong>and</strong> is focused on the design of optimal<br />

refresh strategies for highly dynamic RSS feed sources. First, we introduce two quality measures<br />

specific to aggregation feeds which reflect the information completeness <strong>and</strong> average freshness of<br />

the result feeds. We propose a best-effort feed refresh strategy that achieves maximum aggregation<br />

quality compared with all other existing policies with the same average number of refreshes. We<br />

analyse the characteristics of a representative collection of real-world RSS feeds focusing on their<br />

temporal dimension. We study different online change estimation models <strong>and</strong> techniques <strong>and</strong> their<br />

integration with our refresh strategy. The presented methods have been implemented <strong>and</strong> tested<br />

against synthetic <strong>and</strong> real-world RSS feed data sets.<br />

Keywords: RSS feed, refresh strategy, online change estimation, content-based feed aggregation,<br />

dynamic web content, data quality

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!