El lenguaje es fundamental en la construcción del conocimiento, dice Rubén Urbizagástegui en esta nueva entrega. En ese afán, con su ya conocido estilo pedagógico, nos explica la ley de Zipf, pensada hace más de medio siglo para el análisis de ocurrencia de palabras.
❦
La «Ley de Zipf», lleva ese nombre como un homenaje a su formulador George Kinsley Zipf (1902-1950), un profesor de Filología en la Universidad de Harvard, quien afirmaba que en relación al esfuerzo medio necesario para lograr sus objetivos, el ser humano trata de minimizar la pérdida de energía, y en determinadas circunstancias donde le es permitido escoger alternativas, escoge aquellos procesos que resultan en el “menor esfuerzo” posible. Esto supone que en la conducta humana existiría el principio del menor esfuerzo, significando que los seres humanos siempre actúan racionalmente, y que sus padrones de conducta pueden ser analizados de acuerdo con este principio del menor esfuerzo. Se supone entonces que los seres humanos construirán edificios con el mínimo esfuerzo posible, construirán puentes con el mínimo esfuerzo posible, y por eso también escribirán un libro, una tesis, un artículo académico, con el mínimo esfuerzo posible; esto es, con una economía de palabras. Zipf (1949) analizó la frecuencia de ocurrencias de palabras diferentes en un texto y las ordenó en una tabla de modo que la primera palabra sea la más frecuente, la segunda palabra la segunda más frecuente, y así sucesivamente. Con esas observaciones formuló una ecuación del tipo:
R x F = C
donde,
R = es el rango de la palabra en la lista
F = es la frecuencia o el número de ocurrencias de esa palabra
C = es la constante para el texto
Esto significa que si se tiene un texto escrito, se hace un conteo de la frecuencia de las palabras usadas en el cuerpo de ese texto, y se ordenan esas palabras en orden de frecuencia descreciente de modo que la primera palabra más frecuente tenga el rango 1, la segunda palabra más frecuente tenga el rango 2, y así sucesivamente, se podrían identificar ciertos términos que pueden tipificar el asunto de un texto. En otras palabras, se puede identificar algunos términos de indización que expresen el contenido del texto; es decir, se puede indizar libros, artículos, tesis, etc. Como el proceso de indización consiste en el análisis del contenido del documento y la caracterización de ese contenido se hace a través del uso de ciertos términos descriptivos, la automatización de este proceso puede reducir la complejidad del análisis y la selección de términos a un conjunto de algoritmos, facilitando la operación y haciéndolo más rápido y también más fáciles; pero donde siempre el organizador de la información tendrá la última decisión.
Sin embargo, la Ley de Zipf tiende a polarizar la ocurrencia de las palabras. Si bien es cierto que identifica las palabras más frecuentes (artículos, preposiciones, adverbios, etc.) también identifica las palabras menos frecuentes, por consiguiente, las menos significativas en un texto. Por lo tanto, tal vez las palabras más significativas de un texto estarían en una región intermedia, es decir, cuando las palabras de alta frecuencia comienzan a transformarse en palabras de baja frecuencia. A esa región intermedia Lee Pao Miranda por sugerencia de William Goffman llama “región de transición”, por eso a esa formulación estadística se le conoce con el nombre de “Punto de Transición de Goffman”. Esta región de transición es lo más importante en la identificación de las palabras claves para la indización de textos vía la Ley de Zipf. La formulación estadística de este punto de transición es la siguiente:
donde,
I1 = es el número de palabras que ocurren solamente una vez.
A pesar de esta ventaja, la ley ha sido poco utilizada en el proceso de indización o elaboración de tesauros en bibliotecología y ciencia de la información (BCI). Su aplicación facilitaría el desarrollo de herramientas como los tesauros, más aún cuando los términos se extraen de la propia literatura y la frecuencia de ocurrencias de las palabras ayudarían a identificar los términos más usados en un área o especialidad del conocimiento, y por lo tanto identificarían el vocabulario corriente de un autor presentes en un corpus documental. El lenguaje es fundamental para construir el conocimiento y su comunicación es un proceso dinámico e inseparable del lenguaje.
Uno de los primeros en proponer que la indización debiera ser justificada por los propios documentos fue Luhn (1957) quien sostenía que la indización debería tener una “garantía literaria”. Esta garantía literaria significa que el vocabulario de los documentos indexados deberían ser aceptados como descriptores o términos preferidos en los tesauros, ya que éstos están garantizados por su uso real en los propios documentos. El método más simple de identificar los descriptores sería contar el número de veces que una palabra ocurre en un determinado documento, por esa razón los primeros experimentos volvieron los ojos hacia la ley de Zipf para crear una lista de palabras en orden descendiente de ocurrencias en un texto suficientemente extenso. El vocabulario existente en un documento debería constituirse en la base para el análisis de su contenido, pues esa sería la mejor manera de recuperarlo.
¿Cómo realizar un estudio de aplicación de la Ley de Zipf?
1.- Seleccionar un texto de interés.
2.- Eliminar del texto el resumen, las tablas, las figuras, números , nombres propios, nombres de organizaciones, la bibliografía, etc.
3.- Utilizando un software gratuito contar el número de ocurrencias de cada palabra en el texto seleccionado. En línea hay muchos y aquí se listan algunos: Browserling, Wordcounter, Codebeautify, Texfixer.
4.- Organizar las palabras por rangos de las más frecuentes a las menos frecuentes.
5.- Aplicar a esos resultados la ecuación del “Punto de Transición de Goffman”.
6.- Finalmente, analizar los diversos aspectos de los resultados.
❦
Referencias bibliográficas
Luhn, H. P. (1957). A statistical approach to mechanized encoding and searching of literary information. IBM Journal of Research and Development, v. 1, no. 4, p. 309-317.
Zipf, G. K. (1949). Human behaviour and the principle of least effort. Cambridge : Addison-Wesley.
Artículos relacionados
Doctor en Ciencia de la Información.
Bibliotecólogo Emérito por la Universidad de California en Riverside (EE. UU.). Participa regularmente en congresos y eventos de la especialidad presentando resultados de investigación en bibliometría, información e ideología, y sociología de la información. ORCID: 0000-0001-5014-801X. Contacto: ruben@ucr.edu