Roxana - Gabriela HORINCAR Refresh Strategies and Online ... - LIP6
Roxana - Gabriela HORINCAR Refresh Strategies and Online ... - LIP6
Roxana - Gabriela HORINCAR Refresh Strategies and Online ... - LIP6
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Résumé<br />
Avec l’expansion importante d’appareils connectés à l’Internet et l’essor du Web 2.0, le contenu web<br />
se diversifie et devient de plus en plus dynamique. Afin de faciliter la diffusion de flux d’informations<br />
évolutives et souvent temporaires (news, messages, annonces), des nombreuses applications web<br />
publient les items d’informations les plus récentes dans des documents RSS ou Atom qui sont ensuite<br />
collectés et transformés par des agrégateurs RSS comme Google Reader ou Yahoo! News. Nos<br />
recherches se placent dans le contexte d’agrégation de documents RSS dynamiques et se focalisent<br />
sur l’optimisation du rafraîchissement et de l’estimation en ligne du changement de contenu RSS<br />
hautement dynamique. Nous introduisons et formalisons deux mesures qualitatives spécifiques à<br />
l’agrégation de flux RSS qui reflètent la complétude et la fraîcheur moyenne du flux d’information<br />
agrégé. Nous proposons une stratégie de rafraîchissement du ”meilleur effort” qui maximise la<br />
qualité de l’agrégation par rapport aux autres approches existantes avec un nombre moyen de<br />
rafraîchissements identique. Nous présentons une analyse des caractéristiques générales de l’activité<br />
de publication des flux RSS réels en se focalisant surtout sur la dimension temporelle. Nous étudions<br />
différents modèles et méthodes d’estimation de changements d’activité et leur intégration dans les<br />
stratégies de rafraîchissement. Les méthodes présentées ont été implémentés et testés sur des<br />
données synthétiques et des flux RSS réels.<br />
Mots clés : flux RSS, stratégie de rafraîchissement, estimation de changements en-ligne, agrégateur<br />
RSS, web dynamique, qualité de données<br />
Abstract<br />
With the rapidly increasing number of sources <strong>and</strong> devices connected to the Internet <strong>and</strong> the<br />
growing success of the Web 2.0 services, the online available web content is getting more <strong>and</strong> more<br />
diverse <strong>and</strong> dynamic. In order to facilitate the efficient dissemination of the evolutive <strong>and</strong> often<br />
temporary information streams (news, messages, announcements), many web applications publish<br />
their most recent information items as RSS <strong>and</strong> Atom documents which are then collected <strong>and</strong><br />
transformed by RSS aggregators like Google Reader or Yahoo! News. Our research is placed in<br />
the context of content-based feed aggregation systems <strong>and</strong> is focused on the design of optimal<br />
refresh strategies for highly dynamic RSS feed sources. First, we introduce two quality measures<br />
specific to aggregation feeds which reflect the information completeness <strong>and</strong> average freshness of<br />
the result feeds. We propose a best-effort feed refresh strategy that achieves maximum aggregation<br />
quality compared with all other existing policies with the same average number of refreshes. We<br />
analyse the characteristics of a representative collection of real-world RSS feeds focusing on their<br />
temporal dimension. We study different online change estimation models <strong>and</strong> techniques <strong>and</strong> their<br />
integration with our refresh strategy. The presented methods have been implemented <strong>and</strong> tested<br />
against synthetic <strong>and</strong> real-world RSS feed data sets.<br />
Keywords: RSS feed, refresh strategy, online change estimation, content-based feed aggregation,<br />
dynamic web content, data quality