Webscraping fácil con los módulos urllib y HTMLParser

Python es un potencial lenguaje para la programación en red, así como la programación web, principalmente gracias a su amplio panel de librerías disponibles. Webscrapping es una técnica que permite recuperar una página de un sitio web y analizar su contenido. Dos módulos son los protagonistas: urllib y html. Estos dos módulos sirven fundamentalmente para manipular las páginas web, es decir, recuperarlas desde un servidor y extraer de ellas la información pertinente.

Con el módulo urllib, la recuperación del contenido de una página y la petición al servidor se realizan en apenas, tres líneas. Es evidente que la Raspberry Pi debe estar conectada a Internet antes de empezar a utilizar el módulo y realizar peticiones a los sitios web. La URL (Uniform Resource Locator) de la página solicitada es el artículo sobre España (en español) del sitio web www.wikipedia.org:


>>> import urllib.request  
>>> respuesta =   
urllib.request.urlopen('https://es.wikipedia.org/wiki/España')  
>>> page = respuesta.read()
 

Aquí, la variable page almacena el contenido del artículo. Preste atención porque el valor devuelto por read() es una secuencia de tipo bytes, que será necesario convertir en una cadena de caracteres Unicode con la función decode():


>>> type(page)  
<class...
Si desea saber más, le proponemos el siguiente libro:
couv_RITRASPYT.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Conclusión
Siguiente
Desarrollar un servidor HTTP con el módulo http.server