En este post, vamos a trabajar la importación y exportación de documentos con varias funciones contempladas en las hojas de cálculo de Google: IMPORTDATA, IMPORTXML e IMPORTFEED, de gran utilidad para el almacenamiento masivo de información y las pasarelas de información para la elaboración de bases de datos.
IMPORTXML
Comenzaremos con IMPORTXML, esta instrucción te permite extraer la información existente en una url y además insertar filtrados en lenguaje XPATH para ajustar los parámetros de búsqueda, en el ejemplo se indica: «//li «, para obtener la información existente en los listados de la página cuya url se ha indicado:
A partir de aquí puedes almacenar los documentos en varios formatos y explotarlo según tus necesidades.
IMPORTDATA
Gracias a las hojas de cálculo de Google también podremos usar la instrucción IMPORTDATA.
IMPORTDATA es de gran utilidad para la captura de información, facilitando la elaboración de bases de datos a partir de información almacenada en Internet. Permite extraer información de ficheros: HTML, XML, CSV, Feeds XML, RRSS y Atom.
Esta pasarela de información es una herramienta completamente gratuita que te permitirá extraer los datos de muy diferentes fuentes y en variedad de formatos, al poder transformarlos en ficheros de extensión .xslx, ods, .pdf, .html, csv…
IMPORTFEED
Por otro lado vamos a hablar de la instrucción IMPORTFEED, que permite la exportación de un feed de cualquier web como el de database-academy, excelente recurso para el trabajo de sindicación de contenidos:
Para el almacenamiento y análisis de datos, y teniendo en cuenta el enorme volumen de información manejada en la actualidad, es importante tener mecanismos para la captura, importación y exportación de los datos disponibles en Internet. Debemos conocer herramientas para una extracción agil, segura y masiva. Google Docs nos ofrece este genial recurso para poder obtener información de Internet, fácilmente y de un modo completamente fiable y gratuito.
Dispones de más información sobre XML en database-academy.