Sammlungsdokumentation mit Referenzdaten

Verwendung von Referenzdaten in der Objektdokumentation

Relevante Informationen zu den Objekten einer (Universitäts-)Sammlung betreffen oft Sachverhalte, die über das einzelne Objekt hinausweisen. Während etwa der Titel, die Abmessungen oder der Erhaltungszustand eines Objekts für dieses spezifisch sind, teilt das Objekt die Information, dass es von einer bestimmten Urheberin erstellt wurde, dass es in einer bestimmten Technik produziert wurde, dass es von einem bestimmten Ort stammt (potenziell) mit zahlreichen weiteren Objekten in der eigenen und in anderen Sammlungen. Hier kann es sinnvoll sein, die Information nicht rein textlich festzuhalten (Urheberin: „Lise Meitner“) sondern durch die Referenz auf den entsprechenden Eintrag in einem Verzeichnis, etwa „https://d-nb.info/gnd/118580477, also den Eintrag für Lise Meitner aus der Gemeinsamen Normdatei (GND) der Deutschen Nationalbibliothek. Die Normung besteht in diesem Fall darin, dass die Identifikation der gemeinten Person von der Schreibung des Namens getrennt wird (Lise Meitner wurde gelegentlich auch Lisa oder Elise Meitner genannt). Und es ist eindeutig festgelegt, welche Lise Meitner gemeint ist, nämlich die 1878 geborene Kernphysikerin. Damit ist die neben der Normierung zweite wesentliche Funktion der Verwendung von Referenzdaten benannt: die eindeutige Identifikation eines erwähnten Gegenstandes, also die Disambiguation der Information.

Warum sollte man mit Referenzdaten arbeiten?

Die Verwendung von Referenzdaten sollte immer in Erwägung gezogen werden, wenn eine Information darin besteht, dem Objekt etwas „aus der Welt“ zuzuordnen, das unabhängig vom Objekt als Person, Ort, Sache, Sachverhalt ... existiert. Z.B. Ist die Erkrankung Tuberkulose, an der ein Patient verstorben ist, von dem ein anatomisches Präparat angefertigt wurde, nicht spezifisch für das Objekt. Hier wäre es günstig, den entsprechenden Eintrag in der Systematik der humanmedizinischen Erkrankungen zu erfassen, womit die Erkrankung eindeutig identifiziert ist und eine valide, sprachunabhängige Nomenklatur zur Verfügung steht.

Im Übrigen ist dieses Datum, wenn man die Dokumentation für die Nachnutzung freischaltet, damit auch semantisch explizit ausgewiesen und in beliebigen anderen Kontexten ohne Informationsverlust verwendbar.

Wann sollte man mit Referenzdaten arbeiten?

Die Verwendung von Referenzdaten wirkt sich prinzipiell positiv auf die Qualität und Nachnutzbarkeit der dokumentierten Daten aus. Es kann gleichwohl Gründe geben, warum es im konkreten Fall nicht sinnvoll erscheint, bei der Dokumentation Referenzdaten zu verwenden, etwa:

·       Weil es aus technischen, datenstrukturellen, infrastrukturellen oder kapazitären Gründen nicht praktikabel erscheint.

·       Weil es an geeigneten Verzeichnissen fehlt, auf deren Einträge man referenzieren könnte.

Fragen der Praktikabilität

In vielen Fällen macht die Arbeit mit Referenzdaten die Datenerfassung deutlich komplexer und zeitaufwendiger. Das gilt in erster Linie, wenn die verwendete Infrastruktur dabei keine Unterstützung bietet. Erfasst man die Daten zu den Objekten seiner Sammlung beispielsweise in einer Excel-Tabelle, ist es selbstverständlich einfacher und schneller, „Lise Meitner“ in eine Zelle einzutragen als nach der GND-Nummer (der richtigen) Lise Meitner zu suchen und diese in die Zelle zu kopieren. Hinzu kommt, dass der Eintrag „https://d-nb.info/gnd/118580477“ keinen unmittelbar lesbaren Hinweis enthält, welche Person hier referenziert wird. Man müsste also beides, den Term („Lise Meitner“) und die URI (https://d-nb.info/gnd/118580477“) erfassen. Wie noch zu zeigen sein wird, kann man die Ermittlung der URIs in einem nachgelagerten Arbeitsschritt bündeln (Reconciliation, z.B. mit OpenRefine), damit wird aber wiederum der Workflow der Datenerfassung komplexer.

Wenn die verwendete Infrastruktur, etwa eine Objektdatenbank mit Referenzdatenanbindung oder ein externes Tool (s.u. ...), die Referenzierung unterstützt, kann die Arbeit mit Referenzdaten die Erfassung der Daten allerdings auch erheblich erleichtern. Wenn beispielsweise komplexe taxonomische Bezeichnungen wie Pflanzenspezies erfasst werden sollen, kann ein Eingabefeld, das bei der Eingabe eine Vorschlagsliste anzeigt (Autosuggestfeld) eine große Arbeitserleichterung sein und für ein sehr viel bessere Datenqualität sorgen.

Fehlen geeigneter Repositorien

Der zweite Aspekt, das Fehlen geeigneter Repositorien, erweist sich in der Praxis häufig als Ausschlusskriterium für die Verwendung von Referenzdaten. Uneingeschränkt verwendbar für die eigene Datenerfassung sind nur Verzeichnisse (Repositorien), die folgende Kriterien erfüllen:

·       Das Repositorium ist online öffentlich zugänglich.

·       Die in der eigenen Datenhaltung vorkommenden Gegenstände und Sachverhalte sind dort vollständig verzeichnet.

·       Das Repositorium wurde mit der geforderten fachlichen Expertise erstellt, idealerweise von einem Konsortium von für den Gegenstandsbereich relevanten Institutionen.

Klassische Beispiele für Repositorien, die diese Anforderungen weitgehend erfüllen sind etwa das Ortsverzeichnis GeoNames (https://www.geonames.org/) oder der vom Getty Research Institute erstellte Art & Architecture Thesaurus (https://www.getty.edu/research/tools/vocabularies/aat/). Beide haben den Anspruch, ihren jeweiligen Gegenstandsbereich – Orte auf der Welt bzw. die Terminologie zur Beschreibung von Kunst- und Bauwerken – ohne räumliche oder zeitliche Einschränkungen zu erfassen, und sie werden diesem Anspruch auch annähernd gerecht.

Bei der im deutschsprachigen Raum dominierenden Referenzdatenquelle Gemeinsame Normdatei (GND) sind die genannten Kriterien bei genauerer Betrachtung nur eingeschränkt erfüllt. Der Ausgangspunkt für die Entstehung der GND war der Wunsch, die Normansetzungen für Autorinnen und Autoren für alle Bibliotheken zu vereinheitlichen. Deshalb sind Personen immer noch der vorrangige Gegenstandsbereich der GND, und hier ist die Abdeckung entsprechend hoch. Der geographische Schwerpunkt auf dem deutschsprachigen Raum liegt in der Natur der Sache, aber man findet in der GND selbstverständlich auch Mark Twain (https://d-nb.info/gnd/118624822) oder Pierre Loti (https://d-nb.info/gnd/118780522), nicht aber den rumänischen Thronprätendenten und Verfasser von Liebeslyrik Costache Conachi. Das Beispiel für eine Fehlstelle mag etwas weit hergeholt erscheinen, aber gerade in Universitätssammlungen befinden sich häufig Objekte, die im Hinblick auf Region und Zugehörigkeit zu einem Kanon sich außerhalb der Abdeckung der GND befinden.

Aktuell wird die GND um eine große Zahl weitere Gegenstandbereiche ausgebaut mit dem Ziel, ein zentrales und übergreifendes Referenzdatenrepositorium zu schaffen. Das erscheint zunächst praktisch, weil man für unterschiedliche Sachverhalte und Gegenstandsklassen immer dasselbe Repositorium verwenden kann. Es müsste allerdings für jeden Gegenstandsbereich abgeschätzt werden, ob die genannten Kriterien (schon) erfüllt sind.

Kein erkennbarer Mehrwert oder Missverhältnis von Aufwand und Ertrag

Die Arbeit mit Referenzdaten führt zu einer höheren Komplexität von Arbeitsabläufen und Datenstrukturen. Dem sollte immer ein konkreter Mehrwert gegenüberstehen. Konkret bedeutet das: ein Mehrwert bezogen auf den Sinn und Zweck der unternommenen Objektdokumentation und möglicher Nutzungsszenarien. Während es abstrakt betrachtet immer besser ist, Informationen durch eine öffentlich zugängliche URI zu identifizieren und überinstitutionell genormte Ansetzung zu verwenden, kann es im konkreten Fall einer Objektdokumentation irrelevant sein. Will man beispielsweise bei einer Sammlung wissenschaftlicher Instrumente das Land erfassen, in dem das Instrument hergestellt wurde, könnte man zu der Auffassung kommen, dass es nicht den Aufwand lohnt, die Angaben Deutschland, Großbritannien, Frankreich und Tschechoslowakei durch Referenzierungen aus GeoNames zu disambiguieren. Der Konjunktiv ist hier bewusst gewählt, denn die Frage, ob die Verwendungen von Referenzdaten den damit verbundenen Aufwand rechtfertigt, ist in der Regel eine schwierige Abwägungsentscheidung. Man kann beispielsweise sagen, dass eine Referenzierung eher sinnvoll erscheint, wenn die Dokumentation als Daten, also über eine öffentliche Schnittstelle, veröffentlicht werden soll, weil sie dann sehr viel besser nachnutzbar sind. Dabei ist allerdings zu bedenken, dass Daten, die aktuell aus infrastrukturellen oder rechtlichen Gründen nur für den internen Gebrauch erhoben werden, in Zukunft durchaus veröffentlicht werden können und sollen. Disambiguation über eine identifizierende URI mag verzichtbar erscheinen, wenn beispielsweise klar ist, dass mit dem Herstellungsort eines Apparats „Berlin“, die heutige deutsche Hauptstadt, gemeint ist, nicht Berlin in Connecticut. Andererseits ist, zumal bei weniger evidenten Fällen, zu bedenken, ob dieses implizite Wissen nachhaltig gesichert ist, also auch noch in 10, 20 oder 30 Jahren bei den Nutzenden vorausgesetzt werden kann.

Entscheidungskriterien

Auf der Grundlage der zuletzt angestellten Überlegungen könnte man nun zu dem Schluss kommen, dass Referenzdaten wo immer möglich verwendet werden sollten, weil auf lange Sicht keines der Argumente, die sie überflüssig erscheinen lassen, mit Sicherheit Bestand haben wird. Diese Sichtweise ignoriert allerdings den Umstand, dass im Normalfall – und für Universitätssammlungen ist dies meist gegeben – der Aufwand, der für die Dokumentation insgesamt betrieben werden kann, limitiert ist. Ein höherer Aufwand bedeutet dann nicht einfach höhere Gesamtaufwendungen (für Infrastruktur, vor allem aber an Arbeitszeit), sondern eine Reduktion des Aufwands an anderer Stelle. Meist betrifft dies den Umfang und die Tiefe der Erschließung. Mit anderen Worten: Wer zu großzügig bei der Verwendung von Referenzdaten ist, muss Abstriche bei der Erfassung anderer relevanter Informationen machen und/oder kann nicht seine gesamte Sammlung erfassen.

Auf welche Repositorien soll ich referenzieren?

Die Verwendung von Referenzdaten erscheint, wie bereits erwähnt, immer dann sinnvoll, wenn die Information nicht spezifisch für das zu dokumentierende Objekt ist, sondern Personen, Dinge oder Sachverhalte „aus der Welt“ betreffen. Entsprechend vielfältig ist das Spektrum der in Frage kommenden Verzeichnisse, auf deren Einträge man referenzieren könnte. Die wichtigsten Gegenstandsbereich sind:

·       Fachbegriffe und kontrollierte Vokabulare

·       Klassifikationen und Taxonomien

·       Geografische Namen

·       Personen von enzyklopädischer Relevanz

·       Institutionen und Körperschaften

Die Gemeinsame Normdatei als universelles Repositorium (?)

Aus technischer und organisatorischer Sicht wäre es günstig, möglichst viele dieser Gegenstandbereiche in einem universellen Repositorium abdecken zu können. Dann wüsste man stets, wo man nachzuschlagen hat, und wenn die Referenzierung in ein Datenbanksystem integriert werden soll, kann man für viele Felder dieselbe Schnittstelle verwenden. Die von der Deutschen Nationalbibliothek gepflegte Gemeinsame Normdatei (GND) entwickelt sich in diese Richtung. Nicht zuletzt im Rahmen des Förderprogramms Nationale Forschungsdateninfrastruktur (Link: https://www.nfdi.de) wurde die GND in den letzten Jahren massiv erweitert und ist inzwischen weit mehr als die Vereinheitlichung bibliothekarischer Normansetzungen.

Gerade diese erfreulich dynamische Entwicklung der GND macht es allerdings nicht einfach, ihre Eignung für die Referenzierung in Dokumentationsprojekten im Hinblick auf verschiedene Arten von Informationen einschätzen zu können. Die wichtigste Frage ist dabei: Ist die Abdeckung der GND ausreichend für die bei der Dokumentation zu erwartenden Informationen? Dabei sind wiederum zwei Aspekte zu bedenken:

·       Ist die GND konzeptionell darauf ausgelegt, die geforderte Abdeckung zu leisten?

·       Ist der Datenbestand schon heute bzw. in absehbarer Zeit ausreichend vollständig, um die geforderte Abdeckung zu leisten?

Hinzu kommt, und für Universtitätssammlungen gilt das in besonderer Weise, dass bei der Planung einer Dokumentation oft nicht absehbar ist, mit welchen Informationen man es im Einzelnen zu tun haben wird.

Wikidata für einen enzyklopädischen Ansatz und als Referenzdatenhub

Für eine technisch und konzeptionell kompakte Lösung, bei der alle Sachverhalte auf ein einziges Repositorium referenzieren, bietet sich Wikidata an. Wikidata ist, etwas vereinfacht gesagt, als Datenextrakt aus den Artikeln in allen einzelsprachlichen Wikipedia-Versionen gestartet. Es gilt: Zu allem, wozu es einen Wikipedia-Artikel gibt, gibt es in aller Regel auch ein Wikidata-Item, das man referenzieren kann. Der enzyklopädische und internationale Charakter von Wikipedia sorgt damit für eine größtmögliche disziplinäre und geografische Abdeckung von Wikidata. Wikidata ist aber inzwischen über seine ursprüngliche Funktion hinausgewachsen. Während es weltweit ca. 25 Millionen Wikipedia-Artikel gibt (reine Sprachversionen von Artikeln nicht mitgezählt), verzeichnet Wikidata rund 120 Millionen Items. Viele davon wurden und werden automatisiert aus Fachverzeichnissen (darunter auch die GND und GeoNames) eingespielt, unabhängig davon, ob ein korrespondierender Wikipedia-Artikel vorhanden ist.

Mit guten Gründen wird allerdings auch die Eignung von Wikidata als Ziel von Referenzierungen infrage gestellt. Wikidata ist, wie Wikipedia und alle Teile des Wikiversums, ein Community-Projekt, basiert also auf der Arbeit einer großen Zahl von Freiwilligen. Auch wenn es zahlreiche Mechanismen der Qualitätssicherung und der Vandalismusprävention gibt, ist die Expertise der Beitragenden prinzipiell nicht geprüft oder gar garantiert. Inwiefern dieser Umstand die Brauchbarkeit des Datenbestandes von Wikidata beeinträchtigt, ist eine komplexe Frage, die an dieser Stelle nicht pauschal beantwortet werden kann.

Sehr viel weniger problematisch ist es, Wikidata nicht als primäre Datenquelle für die Referenzierung zu nutzen, sondern als Referenzdaten-Hub. In vielen Fällen werden in einem Wikidata-Item in der Rubrik „Identifikatoren“ Referenzen auf die verfügbaren Referenzdatenrepositorien zu dem betreffenden Objekt. Ziel des Ansatzes „Wikidata als Referenzdaten-Hub“ ist es, die allumfassende fachliche und geografische Abdeckung von Wikidata zu nutzen und dennoch die hohen Qualitätsstandard klassischer Referenzdatenrepositorien beizubehalten. Auf die fachlich nicht immer zuverlässigen Daten aus dem Wikidata-Item müsste man dann nur zurückgreifen, wenn keine Referenzierungen in diesem Wikidata-Item gelistet sind.

Wie die Einbindung von Wikidata als Referenzdaten-Hub konzeptionell realisiert werden kann, wir Gegenstand eines Weiteren Beitrags in der Sektion „Wissen“ auf unserer Sammlungsplattform sein.