Los Hilos De Ariadna En El Laberinto Temático: Visualización Y Minado De Datos
Para Bibliotecas

Silvia Eunice Gutiérrez De la Torre

segutierrez@colmex.mx

El Colegio de México A.C., México

Julián Alberto Equihua Benítez

julian.equihua@gmail.com

CONABIO, México

Micaela Chávez Villa

mch@colmex.mx

El Colegio de México A.C., México

Introducción

Encontrar relaciones entre los encabezamientos que se asignan a una obra
monográfica es un problema histórico en el ámbito de búsqueda y recuperación
de información. Por un lado, los documentos rara vez pueden ser representados
con un solo tema; por otro, el número de temas que se puede asignar a una
obra es virtualmente infinito (Green, 2001). En la intersección de las
Humanidades Digitales y la Bibliotecología han existido diversos esfuerzos por
mejorar la calidad de las ontologías de estos temas (Nurmikko-Fuller et al,
2016), su evaluación (Harper, 2016) y visualización (Duguid, 2015). Sin
embargo, a nuestro conocimiento, no se han hecho estudios que aprovechen
métodos innovadores para indagar relaciones entre los encabezamientos de
materia. En esta comunicación breve, presentamos los resultados preliminares de
un primer acercamiento al tema, que aprovecha el área de especialidad de cada
participante del equipo --humanidades digitales, ciencia de datos y
bibliotecas-- para analizar 249,899 registros de una de las colecciones
más importantes de Ciencias Sociales y Humanidades de América Latina: la del
catálogo de la Biblioteca Daniel Cosío Villegas de El Colegio de México.

Metodología

A través del portal de analíticas del Grupo Ex Libris, se extrajeron los
encabezamientos de materia de todos los 249,899 registros de libros de la
colección de la Biblioteca Daniel Cosío Villegas. Los encabezamientos
de materia fueron subdivididos a su vez en tres niveles a partir de los
subencabezamientos, sin distinguir entre

sus tipos -geográficos, cronológicos y de forma (ver Salta et al., 2015)- sino
sólo tomando en cuenta su posición (primer subencabezamiento, segundo,
etcétera). Por ejemplo, México--Historia--1821-1861 fue dividido en: México,
Historia, 1821-1861.

Se estudió la relación entre temas utilizando técnicas de minería de reglas de
asociación. Estas procuran descubrir implicaciones de la forma I i donde I es
un conjunto de objetos y i es un objeto en particular, ambos tomados de un
universo de objetos, en este caso temas. El soporte de I se define como el
número de registros para los cuales I es subconjunto. La confianza se define
como el soporte de I U i entre el soporte de I (Leskovec, 2010).

Se debe notar que la frecuencia de los temas asociados a los registros es
sumamente baja como se puede observar en la Tabla 1, lo cual puede deberse a
que, tratándose de una biblioteca especializada en ciencias sociales y
humanidades los temas que se asignan son muy específicos, a fin de que el
usuario especializado pueda encontrar lo que realmente le sirve.

┌────┬───┬───┬───────────┬───┬───┐
│    │   │   │Percentiles│   │   │
├────┼───┼───┼─────┬─────┼───┼───┤
│Tema│25%│50%│75%  │85%  │95%│99%│
├────┼───┼───┼─────┼─────┼───┼───┤
│1   │1  │1  │3    │5    │22 │129│
├────┼───┼───┼─────┼─────┼───┼───┤
│2   │1  │1  │3    │6    │27 │219│
├────┼───┼───┼─────┼─────┼───┼───┤
│3   │1  │1  │3    │6    │28 │170│
└────┴───┴───┴─────┴─────┴───┴───┘

Tabla 1

Asimismo, es de notar que 231,052 (92.45%) de los registros tienen un
encabezamiento de materia; 152,414 (treinta por ciento menos) llega a tener
dos encabezamientos de materia y sólo 29.89% tuvo tres. Por este motivo, los
encabezamientos se concatenaron verticalmente para observar indistintamente las
relaciones entre éstos. Se utilizó el algoritmo a priori y la elección de los
umbrales se llevó a cabo de manera manual; se generaron 13 conjuntos de reglas
de asociación con variaciones en los umbrales de confianza y soporte. Cada uno
de estos conjuntos de reglas de asociación induce un grafo que se puede
visualizar y explorar como se muestra más adelante. Umbrales
demasiado permisivos inducen redes que tienen demasiadas relaciones como para
poderse explorar manualmente y umbrales demasiado restrictivos inducen redes
que no tienen suficientes relaciones como para poder decir algo interesante
sobre la estructura de los datos en su totalidad. Finalmente se eligió una red
que presenta un balance entre cantidad de información e interpretabi-lidad. El
‘soporte' mínimo fue de 0.0001 (ver Gráfico 1) y la ‘confianza' mínima de 0.4
(ver Gráfico 2) y la matriz de incidencia derivada de las reglas encontradas se
utilizó para generar un grafo para la exploración visual del conjunto de
asociaciones descubiertas. Para crear esta versión gráfica utilizamos la
exportación de R a Gephi (Yon and Yon, 2015), la ‘confianza' como un peso para
los vértices y Fruchterman Reingold (1991) como algoritmo para el diseño. Dimos
color a los nodos de acuerdo con su modularidad, es decir, de acuerdo a las
“comunidades” de nodos que se crean por la fuerza de sus relaciones (Blondel et
al, 2008). La alta modularidad de la red prueba lo conectados que están los
nodos en sus grupos y lo desconectados que están de nodos fuera de su red.

Resultados

Como hemos mencionado antes, los encabezamientos fueron divididos en los
subencabezamientos que los anidan. Retomando el ejemplo anterior:
“México--Historia--1821-1861” fue codificado como:

• Subject 1.1 - México • Subject 1.2 - Historia • Subject 1.3 - 1821-186

Este modelado de los datos, fue pensado para permitir una cierta exploración
“gramática” de la asignación temática. Es decir, que permitiera ver qué niveles
“sintácticos” se relacionan en qué orden con otros niveles. En números, la red
tiene 394 nodos (subencabezamientos) y 339 vértices (asociaciones). De los
nodos, 203 son del primer nivel, 109 del segundo, 33 de la combinación de un
encabezamiento del primer nivel con el tercero, y cuatro de la combinación del
primer nivel con el cuarto. El total asociaciones o reglas de implicación (si
encabezamiento I aparece también i) fue de 339. De éstas la mayoría ocurre sólo
en 25 registros, es decir, tuvieron un soporte bajo (ver Gráfico 1).
Sin embargo, esto no es tan poco considerando lo que hemos dicho antes de la
naturaleza especializada de esta biblioteca. Por otro lado, las confianzas
observadas presentan una distribución menos concentrada que la de los soportes
(ver Gráfico 2).

[446-1]

Gráfico 1

Distribución de las confianzas de las reglas encontradas

0.3    0.4    0.5    0.6    0.7    0.8    0.9    1.0

Confianza

Gráfico 2

De la red de grafo interactiva que obtuvimos con el

uso de Gephi y el plug-in de Sigma.js, pudimos identificar que el nodo con
mayores asociaciones o reglas es ‘Historia' en su posición como “Subject 1.2” y
que entre sus asociaciones existen dos nodos de distinta modu-laridad y nivel
(ambos “Subject 1.1”): ‘México' (ver Imagen 1) y ‘España' (ver Imagen 2).

[446-2]

Imagen 1

[446-3]

Imagen 2

A su vez, la plataforma permite explorar más a fondo el encabezamiento ‘España'
y darse cuenta, por ejemplo, de que este tema en primera posición tiene fuertes
relaciones con subencabezamientos de la tercera dimensión que corresponden a
los periodos históricos relevantes en la historia de ese país:

[446-4]

En resumen, este tipo de exploración permite al usuario familiarizarse con las
reglas “gramaticales” de la asignación temática pues puede “ver” tanto los
niveles “sintácticos” de los temas como las formas en que se relaciona con
otros, además de que incluye un botón

de búsqueda de encabezamientos que permite interactuar de manera directa con el
grafo (disponible en linea).

Reflexión final

Nosotros, como lo sugieren Nurmikko-Fuller et al., estamos conscientes de que
si las bibliotecas quieren dar acceso a recursos de información relevantes
para nuevas áreas de investigación, deben evolucionar a métodos más
sofisticados y semánticos de asignación temática para proporcionar nuevos
puntos de acceso que correspondan más al lenguaje natural y que permitan
identificar las relaciones temáticas con mayor claridad.

Sin embargo, en lo que este paso puede ser dado en México y Latinoamérica,
creemos que el uso de herramientas y métodos de las humanidades digitales
pueden ayudar a analizar los datos generados en la organización de la
información e incluso útil para la formación del catalogador, que aprende a
asignar-elaborar los temas y con esta herramienta podría tener un acceso visual
a la “sintaxis temática” de ciertos términos. En este mismo sentido, un
acercamiento así, podría ser usado como elemento pedagógico de los cursos de
investigación documental en el que los estudiantes deben aprender a
familiarizarse con los lenguajes controlados. Otra aplicación de este trabajo,
podría ser en la evaluación de colecciones para determinar las fortalezas y
carencias temáticas, de acuerdo con la especialidad que la biblioteca declara.
Análisis más detenidos pueden ayudarnos a determinar la
representación cronológica, autoral, lingüística o geográfica de un acervo. En
fin, consideramos que al continuar el análisis y desarrollo de este proyecto
podremos aportar otro tipo de metodología no sólo para evaluar las colecciones
sino para acercarse a ellas.

Bibliografía

Blondel, V., et al. (2008). “Fast unfolding of communities in large networks”, 
Journal of Statistical Mechanics: Theory and Experiment, P1008.

Duguid, T. (2015), "BigDIVA: Big Data, Big Visuals, Big Searches, and Big
Results." Texas Digital Humanities Conference 2015. University of Texas
Arlington, Texas.

Fruchterman, T. M., & Reingold, E. M. (1991). Graph drawing by force-directed
placement. Software: Practice and experience, 21(11), pp. 1129-64.

Green, R. (2001). “Relationships in the organization of knowledge: an
overview.” Relationships in the organization of knowledge. Springer
Netherlands, pp. 3-18.

Nurmikko-Fuller, T., Jett, J., Cole, T., Maden, C., Page, K., Downie, J. 
(2016). “A Comparative Analysis of Bibliographic Ontologies: Implications for
Digital Humanities”. Digital Humanities 2016: Conference Abstracts.
Jagiello-nian University & Pedagogical University, Krakow, pp. 639-42.

Leskovec, J., Rajaraman, A., Jeffrey, U. (2010). Mining of

Massive Datasets. Cambridge University Press, U.K., pp.

205-14.

Salta, G., Cravero C., Saloj, G. (2005) “Lista de encabezamientos de materia de
la Biblioteca del Congreso de los

Estados Unidos: características generales”. Información,

Cultura y Sociedad, 12. pp. 85-97

Yon, G. V., & Yon, M. G. V. (2015). Package ‘rgexf'.