OpenRefine – Calidad de los datos de nuestro repositorio y el MEC

¿De cuántas formas diferentes aparece el MEC en nuestros repositorios?

Si aparece menos de 3 ya nos podemos dar por satisfechos.
El MEC, actual Ministerio de Educación, Cultura y Deporte, ha ido cambiando sucesivamente de nombre pero acostumbramos a referirnos a él como MEC o Ministerio de Educación. Este hecho ha ocasionado que en una búsqueda simple nos podamos encontrar con muchas variantes

  • MEC
  • MECD
  • MINISTERIO DE EDUCACIÓN (MEC)
  • MINISTERIO DE EDUCACIÓN
  • MINISTRY OF EDUCATION
  • Ministerio de educación
  • Ministerio de Educación, Cultura y Deporte

en metadatos como: título, nombre de objeto, subdivisión nominal, palabras claves, notas, organización.
Lo mismo también acostumbra a pasar con otros organismos, unidades/oficinas productoras, estudios, facultades,…

Estas situaciones hacen bajar mucho la calidad de nuestros datos. Y ocasionan muchos problemas/errores en las búsquedas, informes y estadísticas.

Delante de esta situación es conveniente planificar periódicamente tareas de control de calidad de datos que nos permitan analizar y corregir los errores e inconsistencias que tengamos en el repositorio. Esta tarea se hace imprescindible antes de afrontar un cambio de plataforma, migración o update.

Afortunadamente existen herramientas que nos ayudan a descubrir estos errores e inconsistencias. Desde

  • el socorrido MS-Excel o Google Drive;
  • a herramientas que pueden hacer cambio directamente contra el repositorio;
  • a herramientas de tipo ETL (Extract, Transform and Load – «extraer, transformar y cargar» es el proceso que permite mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio).

Hoy os presentamos la utilidad opensource gratuita OpenRefine  (antes conocido como Google Refine) “una poderosa herramienta para trabajar con datos desordenados: limpiarlo; Transformándolo de un formato a otro; Y ampliarlo con servicios web y datos externos.” Podéis utilizarla como ETL o incorporarlo al sistema de gestión documental como un webservice.

Para que podáis ver cómo funciona OpenRefine os dejamos el siguiente video, que pese a estar en inglés, es muy fácil de seguir

Video #01 – Explore Data (OpenRefine can help you explore large data sets with ease)

En la web de OpenRefine podéis más vídeos, información e instrucciones para instalar y configurarlo.

 

Anuncios