En este post, vamos a trabajar la importación y exportación de documentos con varias funciones contempladas en las hojas de cálculo de Google: IMPORTDATA, IMPORTXML e IMPORTFEED, de gran utilidad para el almacenamiento masivo de información y las pasarelas de información para la elaboración de bases de datos.

IMPORTXML

Comenzaremos con IMPORTXML, esta instrucción te permite extraer la información existente en una url y además insertar filtrados en lenguaje XPATH para ajustar los parámetros de búsqueda, en el ejemplo se indica: «//li «, para obtener la información existente en los listados de la página cuya url se ha indicado:

Extracción de listado de Wikipedia con la función importXML

A partir de aquí puedes almacenar los documentos en varios formatos y explotarlo según tus necesidades.

IMPORTDATA

Gracias a las hojas de cálculo de Google también podremos usar la instrucción IMPORTDATA.

IMPORTDATA es de gran utilidad para la captura de información, facilitando la elaboración de bases de datos a partir de información almacenada en Internet. Permite extraer información de ficheros: HTML, XML, CSV, Feeds XML, RRSS y Atom.

Captura de pantalla de la extracción del sitemap XML de esta misma web: https://database-academy.eu/xmlsitemap.xml

Esta pasarela de información es una herramienta completamente gratuita que te permitirá extraer los datos de muy diferentes fuentes y en variedad de formatos, al poder transformarlos en ficheros de extensión .xslx, ods, .pdf, .html, csv…

Vista de exportación de documentos en distintos formatos desde Google Docs

IMPORTFEED

Por otro lado vamos a hablar de la instrucción IMPORTFEED, que permite la exportación de un feed de cualquier web como el de database-academy, excelente recurso para el trabajo de sindicación de contenidos:

Para el almacenamiento y análisis de datos, y teniendo en cuenta el enorme volumen de información manejada en la actualidad, es importante tener mecanismos para la captura, importación y exportación de los datos disponibles en Internet. Debemos conocer herramientas para una extracción agil, segura y masiva. Google Docs nos ofrece este genial recurso para poder obtener información de Internet, fácilmente y de un modo completamente fiable y gratuito.

Dispones de más información sobre XML en database-academy.

Autor: ignacio

Profesor de Sistemas de Gestión de Información

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *