17.12.2012 Views

Programmation PYTHON - Zenk - Security - Repository

Programmation PYTHON - Zenk - Security - Repository

Programmation PYTHON - Zenk - Security - Repository

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Points abordés<br />

urllib2.<br />

Solution<br />

Vérificateur de liens<br />

#!/usr/bin/python<br />

# -*- coding: utf8 -*import<br />

urllib2<br />

def check_url(url):<br />

req = urllib2.Request(url)<br />

try:<br />

url_handle = urllib2.urlopen(req)<br />

except urllib2.URLError:<br />

return None, None<br />

headers = url_handle.info()<br />

return headers['Content-Type'], headers['Date']<br />

Discussion<br />

Exercices corrigés<br />

CHAPITRE 11<br />

urllib2 récupère directement les en-têtes d’une URL pour analyse. Il le fait sans<br />

récupérer le contenu intégral de l’URL, ce qui permet de rendre la récupération du<br />

contenu conditionnelle. Par exemple, si la page est régulièrement récupérée, le programme<br />

peut vérifier si la date de modification a changé avant de récupérer le nouveau<br />

contenu.<br />

Extension<br />

Ce genre de fonctionnalité peut être couplé avec le prochain exercice, pour fournir un<br />

système de mise à jour de page, où le contenu n’est rapatrié que s’il diffère d’un contenu<br />

récupéré au préalable.<br />

Exercice 12 : aspirateur de page web<br />

Description<br />

Un aspirateur de page web doit :<br />

récupérer la page ;<br />

parcourir son contenu et récupérer toutes les composantes nécessaires à l’affichage<br />

de la page (images, feuilles de style, etc.).<br />

375

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!