Extraer conocimiento desde datos cuantiosos es una técnica aplicable en diversas disciplinas, como la bibliotecología. Por suerte, existe una potente herramienta de código abierto que es muy útil y que facilita, en parte, la difícil tarea de limpiar y preparar la data.
Data Mining (DM)
La Minería de Datos es el conjunto de técnicas y tecnologías que permiten analizar grandes cantidades de información depositados en bases de datos; mediante la extracción y depuración de datos se pueden identificar patrones, clases, grupos, tendencias y asociaciones que expliquen su comportamiento en un contexto y periodo de tiempo determinado.
El proceso de minería de datos empieza con la selección y filtrado de las fuentes y el tipo de dato. Utilizar un filtrado correcto es fundamental para evitar datos ambiguos, desconocidos e innecesarios que tomen más tiempo de análisis y expresen patrones poco precisos. El resultado es una estructura de datos adecuada a la que aplicaremos la fase de modelado y normalización. Con esto se logra obtener un modelo final con patrones válidos para interpretar y evaluar los resultados obtenidos.
Bibliomining
Si aplicamos la minería de datos al campo de la bibliotecología, estaríamos hablando de Bibliomining o Bibliominería. El término fue utilizado por primera vez en el 2003 por Nicholson & Stanton. Ambos autores la definen como «la combinación de minería de datos, bibliometría, estadística y herramientas de elaboración de informes y extracción de patrones de comportamiento, basados en sistemas bibliotecarios».
En un estudio realizado en el 2015 por Siguenza-Guzmán, Saquicea, Ávila-Ordoñez, Vandewalle y Cattrysse sobre la aplicación de las técnicas de minería de datos a bibliotecas universitarias, se evidenció que su uso para la toma de decisiones estratégicas es bajo y que los temas de aplicación se relacionan con la usabilidad web y los estudios de categorización de usuarios basados en su interacción con el sistema y la colección de la biblioteca. En el contexto que nos desarrollamos hoy en día, podemos aplicar la minería de datos a las bibliotecas digitales, repositorios institucionales y nacionales, sistemas CRIS, portales de revistas y estudios bibliométricos sobre el desarrollo de la investigación en nuestro país.
Un ejemplo de la aplicación de Bibliomining es el proyecto Elogim desarrollado por la Biblioteca Fundadores de la Universidad CES de Colombia. Elogim es una aplicación informática que automatiza el proceso de almacenamiento y recuperación de los datos estadísticos registrados por sus recursos de código abierto (sesiones y descargas de sus bases de datos, libros electrónicos, repositorios digitales, catálogo en línea, etc.) generando almacenes de datos (data warehouse) que posteriormente serán preparados, analizados estadísticamente y se les aplicará un logaritmo que permita gestionar el conocimiento, definir patrones de comportamiento de los usuarios de los recursos electrónicos, definir indicadores de gestión, innovar en los servicios y actualizar los procesos.
OpenRefine: una herramienta poderosa
Una de las herramientas que se utilizan para la minería de datos es OpenRefine. Es de código abierto y desarrollado por la comunidad de usuarios que genera nuevos módulos y publica las actualizaciones en el repositorio GitHub. Se utiliza para la limpieza, transformación y enriquecimiento de datos. Trabaja con datos importados en TSV, CSV, XLS, XLSX, XML, JSON y Google Spreadsheets que se analizan mediante facetas que definen los criterios del filtrado. Las funciones se realizan en el Lenguaje de Expresión de Refinación General (GREL), Jython (Python) o Clojure y permite conectar los datos a través de web services y base de datos.
Una característica importante de OpenRefine es la limpieza de datos. Permite normalizar contenido mediante el análisis de similitudes, corregirlos de manera masiva y unificar campos. Esta característica hace que esta herramienta también sea utilizada para la edición y normalización de metadatos en repositorios institucionales.
Las bibliotecas a través de sus recursos en acceso abierto generan diariamente grandes cantidades de datos que representan una oportunidad para acercarse a sus usuarios mejorando e innovando sus procesos y servicios. “El hecho de desarrollar habilidades tecnológicas no hace perder el humanismo de la profesión bibliotecaria, antes bien, se reconoce la identidad social de nuestro papel y agregamos valor a la misión de interceder entre el usuario y su información aprovechando las fortunas de la ciencia” (Belmont-Luna, 2017).
Referencias
1. Belmont-Luna, G. (2017). La minería de datos y el catálogo abierto en las bibliotecas: hacia una sociedad del conocimiento. Revista de Tecnologías Computacionales. 1(3), 23-47.
2. Nicholson, Scott (2006). The basis for bibliomining: Frameworks for bringing together usage-based data mining and bibliometrics through data warehousing in digital library services. Information Processing & Management, 42(3), 785-804.
3. Quiroz, Nora & Valencia, C. (2012). Aplicación del proceso de KDD en el contexto de bibliomining: el caso Elogim. Revista Interamericana de Bibliotecología. 35(1), 97-108.
4. Siguenza-Guzmán, L., Saquicea, V., Ávila-Ordoñez, E., Vandewalle, J. & Cattrysse, D. (2015). Literature Review of Data Mining Applications in Academic Libraries. The Journal of Academic Librarianship.41(4), 499-510.
Artículos relacionados
Licenciada en Bibliotecología y Ciencias de la Información por la Universidad Nacional Mayor de San Marcos. Estudiante del Máster en Bibliotecas, Archivos y Continuidad Digital por la Universidad Carlos III de Madrid. Ex-becaria del Programa Iberex de Prácticas Formativas para Profesionales Iberoamericanos en Repositorios Digitales en Bibliotecas del Ministerio de Educación, Cultura y Deporte de España. Con experiencia profesional en repositorios digitales, metadatos, datos abiertos y digitalización en la Pontificia Universidad Católica del Perú (PUCP), Banco Interamericano de Desarrollo (BID), Autoridad Nacional del Agua (ANA), Organismo de Evaluación y Fiscalización Ambiental (OEFA).
EXCELENTE POS