
En el país existen 455 revistas académicas publicadas por las universidades estatales y privadas licenciadas por la Sunedu (Urbizagástegui, et al., 2021). La paquetería que ofrece el Proyecto R para Computación Estadística (R Core Team, 2021) podría muy bien complementar y/o guiar la construcción de palabras clave en los artículos publicados por estas revistas. Las palabras clave adecuadamente construidas son importantes porque en la búsqueda de artículos sobre un asunto específico, tanto en internet como en bases de datos bibliográficas, posibilita que estos puedan ser encontrados, leídos y citados. Por lo tanto, es importante incluir en los artículos las palabras clave más relevantes y pertinentes que ayudarán a otros autores a encontrar el asunto procurado.
Para mostrar las ventajas de su uso se tomó como prueba un artículo publicado por la Revista Peruana de Medicina Experimental y Salud Pública de autoría de Olano, et. al. (2021). En este artículo, los editores de la revista y/o los propios autores ofrecen como palabras clave los siguientes términos: Helicobacter pylori / Prevalence / Diagnosis / Drug Resistance / Drug Resistance Multiple. Sin embargo, los términos: Prevalence, Diagnosis, Drug Resistance y Drug Resistance Multiple, no parecen adecuados para este artículo por su poca capacidad para recuperar la temática pertinente.
Para hacer una prueba de la construcción de las palabras clave más adecuadas y/o complementarias que los editores de esta revista bien podrían utilizar para describir este artículo se tomó la versión publicada en inglés. Para construir las palabras clave automáticamente se usó los siguientes paquetes del Proyecto R: tidytext (Silge & Robinson, 2016) y Quanteda (Benoit, et al., 2018).
El paquete tidytext construyó las palabras clave mostradas en la Tabla 1. Claramente, las palabras clave subsidiadas por este paquete son: Helicobacter pylori, Resistencia antimicrobiana, Hospital Cayetano Heredia, Pacientes infectados y Amoxicilina. No hay duda de que estos asuntos son explorados y comunicados en el artículo de Olano, et al. (2021). También expresan adecuadamente la temática del texto.
El resultado obtenido usando el paquete Quanteda se muestra en la Tabla 2. Nuevamente, las palabras clave subsidiadas por este paquete son: Helicobacter pylori, Resistencia antimicrobiana, Hospital Cayetano Heredia, Susceptibilidad a infección, Pacientes infectados y Gastroenterología. Estos asuntos también son descritos y comunicados por el artículo de Olano, et. al (2021).
Con ambos paquetes se puede construir también una nube de palabras que se muestra en la Figura 1, solo para ratificar la pertinencia de las palabras clave construidas por ambos paquetes.

En conclusión, ambos paquetes subsidian con las siguientes palabras clave que mejor representan el contenido temático del artículo aquí analizado: Helicobacter pylori, Resistencia antimicrobiana, Hospital Cayetano Heredia, Pacientes infectados, Amoxicilina, Susceptibilidad a infección, Gastroenterología.
Bien merecería la pena explorar la capacidad de estos paquetes para subsidiar y/o “sugerir” a los autores o a los editores de esa prestigiosa revista peruana, con palabras clave más adecuadas a los artículos comunicados a los pares académicos. Otra plausible opción sería contratar bibliotecólogos especializados en la organización del conocimiento para hacerse cargo de estos avatares.
Similar a estos paquetes existen muchos otros, como, por ejemplo, textrank, udpipe, tm, slowraker, rapidraker, BTM, que merecen ser explorados y usados si fuesen pertinentes. No solo los editores de revistas sino también todos los comprometidos con la organización del conocimiento y la información, deberían explorar estos paquetes que son libres y gratuitos. Se evitaría así la pobreza de los descriptores usados en esas revistas y la sonrisa sarcástica de aquellos que intentan recuperar los artículos en algunos repositorios nacionales. La inadecuada asignación de las palabras clave afecta la recuperación de la información, hace que los resultados de búsqueda, ya sea en repositorios como en otras fuentes de información, sean altamente deficientes, como en este caso.
A propósito de repositorios, es una lástima que las autoridades peruanas no inviertan en la construcción de una base de datos bibliográfica nacional. Scielo Perú y Alicia son apenas repositorios de información académica y Alicia, hasta el momento, altamente deficiente. Los “dirigentes” de la Biblioteca Nacional del Perú no muestran hasta ahora interés alguno en esta dirección.
❂
Referencias bibliográficas
Benoit, K., Watanabe, K., Wang, H., Nulty, P., Obeng, A., Müller, S., & Matsuo, A. (2018). quanteda: An R package for the quantitative analysis of textual data. Journal of Open Source Software, 3(30), 774.
Olano, M., Chu, M., Guzmán, J., Castillo, D., y Sauvain, M. (2021). Rendimiento diagnóstico del cultivo y susceptibilidad de Helicobacter pylori en pacientes peruanos: resultados de un laboratorio centinela. Revista Peruana de Medicina Experimental y Salud Publica, 38(3), 406-411.
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. R version 4.1.2 (2021-11-01).
Silge et al, (2016). tidytext: Text Mining and Analysis Using Tidy Data Principles in R. Journal of Open Source Software, 1(3), 37.
Urbizagástegui Alvarado, R., Contreras Contreras, F., y Guerrero Olaya, C. (2021). Las revistas académicas en el Perú. Lima: Asociación de Bibliotecólogos del Perú.
Publicidad
Artículos relacionados
Doctor en Ciencia de la Información.
Bibliotecólogo Emérito por la Universidad de California en Riverside (EE. UU.). Participa regularmente en congresos y eventos de la especialidad presentando resultados de investigación en bibliometría, información e ideología, y sociología de la información. ORCID: 0000-0001-5014-801X. Contacto: ruben@ucr.edu
Interesante publicación. Algunas precisiones: La revista dentro de las indicaciones para los autores solicita que las palabras claves se definan utilizando los descriptores DECS y MESH (español e inglés). Hay herramientas automatizadas que me permiten definir de una forma rápida y exacta los descriptores:
https://meshb.nlm.nih.gov/MeSHonDemand
https://decs.bvsalud.org/es/
La revista en mención se encuentra dentro del catálogo de PUBMED con sus MeSH terms (por lo que sugiere que en el proceso de indexación en MEDLINE se revisaron las palabras claves que se ajusten al tema)
Para la búsqueda en PUBMED se realizan estrategias de búsqueda que pueden ir desde una simple hasta una sistematizada con palabras del lenguaje natural, etiquetas y términos MESH. Dentro de este campo la labor del bibliotecario es capacitar y alfabetizar a los usuarios en estos conceptos.
El análisis que se hace en el artículo muestra que “algunas” de las palabras claves otorgadas a ese artículo en especial no son adecuadas simplemente porque no “representan” el “asunto” del contenido del texto. No se supera el problema ajustándose a los descriptores DECS y MESH, que dicho sea de paso responden a las necesidades de usuarios de otras latitudes y no necesariamente a las necesidades de los usuarios nacionales. La revista en mención puede encontrarse en todos los catálogos del mundo y ser indexada por muchas bases de datos extranjeras, eso no significa que los términos que usan como descriptores específicos para este caso, sean deficientes y que los paquetes ofrecidos gratuitamente por el Proyecto R pueden funcionar muy bien como “complementarios” para mejorar la terminología hegemonizada en PUBMED y en MEDLINE. No tiene nada que ver con los tesauros o listas de encabezamientos que se les exige a los autores, cuyos términos impuestos no siempre se ajustan al vocabulario utilizado por sus creadores. Te sugiero que pruebes buscar el artículo de Olano, et. al. (2021) en las herramientas que mencionas, para te convenzas de los deficientes resultados.
La labor del bibliotecólogo no debe ser y de hecho no es solo “capacitar y alfabetizar a los usuarios en estos conceptos” sino también en tener una actitud crítica constructiva y propositiva de su labor profesional y en especial de la organización de la información ajustada al pensamiento de sus productores y no simplemente como una copia y calco creada en otras latitudes.
Se dijo que en el Perú existen circulando por allí 455 revistas académicas. Cualquiera de los editores de esas revistas bien podrían experimentar los paquetes de R para crear sus descriptores. A muchas de esas revistas no les servirán los DECS ni los MESH y menos los PUBMED y MEDLINE. A eso apunta el artículo. Sería recomendable una relectura del artículo.
Buenas tardes, la dirección de mi comentario iba por el ejemplo en mención (el artículo de Olano, et. al.) y sobre los criterios de la revista especializada en la que se publicó (https://rpmesp.ins.gob.pe/index.php/rpmesp/pages/view/instrucciones – véase sección palabras claves) sabemos que diversos artículos son observados por faltar a algunos de esos lineamientos, para las palabras claves hay algunas herramientas que pueden ayudar y que las comenté líneas arriba.
«A muchas de esas revistas no les servirán los DECS ni los MESH y menos los PUBMED y MEDLINE», es cierto ya que hay diversas disciplinas que manejan su propio vocabulario controlado y tesauros; así como diversas bases de datos que indexan según su análisis utilizando: MESH, EMTREE drug terms, EMTREE medical terms, etc. Para este tema hay mucho que revisar y seguir comentando, agradezco la respuesta ya que me permite apoyar su postura en cuanto al rol del bibliotecario crítico y analítico.
Excelentes el artículo y los comentarios.