Coruja Digital

Tecnologías de la información y la comunicación para el patrimonio y la ciencia abierta

Wikidata-IATEXT 2020: proyecto de humanidades y ciencia abierta

Ciencia abierta

Wikidata es una base de conocimiento libre con más de 90 millones de elementos (datos consultados en la página principal de Wikidata de Wikidata el 7 de diciembre de 2020). Cada elemento representa algo concreto: una persona, un objeto, un lugar, una máquina, un lenguaje, etc. Se puede decir entonces que Wikidata pretende almacenar cada pieza del conocimiento humano y enlazarlo entre sí.

Dentro del universo que supone Wikidata, tanto por su contenido como por su comunidad, se pueden crear wikiproyectos: grupos flexibles y abiertos en los que las personas interesadas se pueden involucrar para organizar y definir el modelo de datos sobre un tema específico. Entre los wikiproyectos hay varios que se dedican a tratar Wikidata como un conjunto de datos bibliográficos, como el WikiProject Source Metadata, parte de WikiCite.

Logo de WikiCite, una llave abierta y otra cerrada seguida del nombre de la iniciativa en minúscula
Logo de WikiCite, una iniciativa para favorecer el uso de Wikidata como un corpus de datos bibliográficos.

WikiCite es una iniciativa aún más amplia que el mencionado wikiproyecto. No solo actúa como una comunidad para desarrollar un corpus de datos bibliográficos y de citas abiertas, sino que también se organizan conferencias, talleres y se dan subvenciones. Todo esto con el objetivo de ampliar y mejorar el conocimiento libre de la humanidad y enlazarlo entre sí.

Wikidata y la ciencia abierta

Este tipo de proyectos no solo benefician el conocimiento libre (en inglés, open knowledge), si tenemos en cuenta este amplio concepto, sino que hacen una contribución directa a iniciativas basadas en el concepto de ciencia abierta: facilitar el acceso a la investigación científica, desde publicaciones hasta conjuntos de datos y software. Este concepto, que también se podría definir como movimiento, insiste también en que la difusión sea accesible por cualquier persona, ya sean investigadores o aficionados.

Proyectos como WikiCite y el WikiProject Source Metadata facilitan que Wikidata se utilice con el objetivo de facilitar el acceso a la ciencia. En 2018 Coruja Digital propuso al Instituto Universitario de Análisis y Aplicaciones Textuales (IATEXT) un proyecto con el que contribuir tanto a la ciencia abierta como a Wikidata, en el marco de la iniciativa WikiCite: el Wikidata-IATEXT.

Wikidata-IATEXT: humanidades, ciencia abierta, Wikidata y WikiCite

El proyecto propuesto se denominó Wikidata-IATEXT y tuvo los siguientes objetivos:

  1. Compilar datos sobre sus investigadores y sus respectivas publicaciones científicas.
  2. Introducir los datos compilados en Wikidata.

El proyecto comenzó en febrero de 2018, cuando en Wikidata había alrededor de 4300 institutos de investigación (Q31855), 86 de ellos con al menos 1 investigador enlazado con la propiedad "miembro de" (P463) y 25 institutos universitarios con al menos una publicación enlazada a uno de sus miembros.

El 20 de junio de 2019 publiqué una entrada en mi blog personal con el objetivo de difundir mi participación en los Wikidata Days 2019, un congreso al que fui invitado para presentar los resultados y conclusiones del proyecto Wikidata-IATEXT: "Wikidata-IATEXT, WikICite y Scholia en los Wikidata Days 2019".

A finales de diciembre de 2019 se publicó el artículo Wikidata, WikiCite y Scholia como herramientas para un corpus de datos bibliográficos enlazados. Curación y estructuración de la producción científica de los investigadores del IATEXT en el número 40 de Prisma.com (Revista de Ciências e Tecnologias da Informação e Comunicação). Está coautorizado por Manuel Ramírez Sánchez, antiguo coordinador de la división de Patrimonio Documental y Bibliometría del IATEXT, y Gregorio Rodríguez Herrera, director de dicho instituto, y se puede consultar en accedaCRIS, el repositorio institucional de la Universidad de Las Palmas de Gran Canaria.

El artículo presenta científica y detalladamente el proyecto Wikidata-IATEXT: las oportunidades de contribuir a la ciencia abierta y cómo, su motivación y estado previo, la metodología aplicada, los resultados obtenidos y sus posibles casos de uso y problemas que afrontar. Recomendamos su lectura para un análisis completo de los datos con los que se trabajó y el resto de cuestiones mencionadas.

También se creó un repositorio de datos en GitHub y en Zenodo para facilitar la consulta de los mismos y del exportador utilizado, una herramienta que tenemos pendiente mejorar. El repositorio de Zenodo proporciona un DOI, en caso de que se quiera citar o de que se utilice el repositorio de datos: 10.5281/zenodo.1461382

Wikidata-IATEXT 2020: introducción de nuevos datos

En 2020 el IATEXT ofreció a Coruja Digital realizar una revisión de las publicaciones de los investigadores, ya que en el paso de 2 años sus miembros habían publicado más obras (artículos, ponencias, capítulos de libros, libros, etc.).

La metodología utilizada fue similar a la de la primera edición de este proyecto, descrita en el artículo científico mencionado anteriormente. Sin embargo, en esta ocasión contamos con una fuente directa, un listado de publicaciones elaborado por el IATEXT, y pudimos utilizar y cotejar prácticamente todos los artículos con accedaCRIS. En la edición anterior también utilizamos este repositorio como fuente, pero no disponía de todos los artículos, por lo que la principal fuente fue Dialnet, una base de datos bibliográficos gestionada por la Fundación Dialnet, de la Universidad de La Rioja.

Además, quisimos comprobar que los elementos de los investigadores tuviesen un mínimo de propiedades concretas. Para ello elaboramos un esquema de entidad (en inglés, Entity Schema) para confirmar la integridad del modelo de datos de la edición anterior. El esquema en cuestión es el E220, "miembros del Instituto Universitario de Análisis y Aplicaciones Textuales". Estos esquemas de entidad se expresan con el lenguaje Shape Expressions (ShEx) y la sintaxis ShExC, y se encuentran en su propio espacio de nombres de Wikidata: el EntitySchema.

El proyecto se planteó a 2-3 meses y conllevó 8 315 ediciones, de las que 248 conllevo la creación de elementos.

Miembros

En cuanto a los miembros, se añadieron 4 nuevos que no constaban anteriormente y se creó el esquema mencionado previamente. Los elementos creados son los referidos a Luis Alberto Anaya Hernández (Q96243406), Jesús Alexis García Moreno (Q96243322), Aarón Moisés Santana Cordero (Q96243136) y José Manuel Rodríguez Herrera (Q96241945).

Publicaciones

Se crearon 244 elementos de publicaciones científicas de miembros del IATEXT o de sujetos relacionados con las mismas (revistas, actas, obras coordinadas, etc.). Estos sujetos relacionados son necesarios para crear elementos de publicaciones científicas que tengan un mínimo de completitud: debemos saber dónde se ha publicado la obra que representa el elemento. Si restamos este tipo de elementos, se obtiene la cifra de 205 elementos sobre publicaciones.

La creación de estos nuevos elementos también conllevó la revisión de elementos de la edición anterior, de manera que algunos se pudieron complementar con algunos aspectos adicionales, como es el caso de la adición de referencias entre elementos ya existentes gracias al uso de Dialnet Métricas como fuente.

Scholia: una herramienta efectiva para la consulta de los datos

Scholia es un servicio que permite visualizar los datos académicos y científicos de los que dispone Wikidata. Se pueden consultar perfiles de investigadores, temas, especies e incluso sustancia químicas. También de organizaciones, como puede ser el IATEXT.

Si se consulta el perfil del IATEXT en Scholia se pueden observar diferentes aspectos: sus miembros, un gráfico de coautoría (incrustado después de este párrafo), temas sobre los que publican sus investigadores, publicaciones recientes, producción en número de páginas (incrustado al final del subapartado anterior) y las citas de sus obras, entre otros aspectos.

Los dos gráficos incrustados en esta entrada son un ejemplo de cómo se pueden utilizar los datos introducidos en Wikidata con consultas predefinidas por Scholia. No solo se pueden incrustar en el HTML de un sitio web mediante iframes, sino que se pueden integrar en prácticamente cualquier lenguaje de programación, como Python, JavaScript o PHP, lo que permite su integración en sistemas de gestión de contenido.

Este servicio, creado por Daniel Mietchen, Egon Willighagen y Finn Årup Nielsen, tiene un gran potencial no solo por lo que nos ofrece, sino por la gran variedad de aspectos que puede abordar. Además, es software libre y abierto, por lo que cualquier persona puede contribuir a su desarrollo, hacer sugerencias o reportar problemas. Además, su proyecto Robustifying Scholia está subvencionado por la Fundación Alfred P. Sloan, un claro ejemplo de inversión en materia de software libre y abierto para contribuir al conocimiento libre.


La ciencia abierta es una oportunidad para las instituciones científicas y una necesidad para la sociedad. Wikidata nos proporciona el medio para transferir a la sociedad lo que las instituciones científicas producen. Y Scholia nos facilita consultar estos datos fácilmente.

En Coruja Digital tenemos experiencia con este tipo de proyectos y ofrecemos un servicio concreto dedicado a la transferencia de conocimiento y a la ciencia abierta con Wikidata como base de conocimientos.

Si quieres más información puedes consultar nuestro producto Ciencia abierta en Wikidata, disponible en nuestro catálogo de servicios.

Si tienes dudas o quieres más información, puedes contactar con nosotros. ¡Será un placer responderte!