Speichergigant
Die steigende Zahl an Netzpublikationen verändert viele Prozesse in der Deutschen Nationalbibliothek. Generaldirektor Frank Scholze und Cornelia Diebel aus der Abteilung Informationsinfrastruktur über aktuelle Herausforderungen.
Die steigende Zahl an Netzpublikationen verändert viele Prozesse in der Deutschen Nationalbibliothek. Generaldirektor Frank Scholze und Cornelia Diebel aus der Abteilung Informationsinfrastruktur über aktuelle Herausforderungen.
Frank Scholze: Am wichtigsten war es für mich, die Kolleginnen und Kollegen an den Standorten in Frankfurt am Main und in Leipzig kennenzulernen. Glücklicherweise hatte ich dazu noch bis Mitte März Gelegenheit, bevor der erste Lockdown kam und wir eine bisher unbekannte Situation meistern mussten. Wir haben sehr schnell einen Krisenstab eingerichtet und intern eine große Offenheit und Vertrauen erlebt. In den seither üblichen Videokonferenzen konnten wir bei aller persönlichen Betroffenheit über weitreichende Entscheidungen sachlich diskutieren. Schwerer war die Kommunikation mit den für mich neuen externen Gremien und Institutionen, weil die digitale Kommunikation nicht das gleiche Ambiente bieten kann wie physische Treffen.
Cornelia Diebel: Die Zusammenarbeit per Video läuft gut, und wir konnten auch gut neue Mitarbeiter*innen in das Team integrieren. Zu den Kolleginnen und Kollegen in Leipzig haben wir jetzt per Video sogar einen besseren Kontakt als vor der Pandemie. Ich freue mich trotzdem darüber, dass jetzt wieder eine Phase mit mehr physischen Begegnungen kommt.
Wie konnten Sie den Betrieb aufrechterhalten?
Frank Scholze: Es ging trotz Einschränkungen weiter, obwohl viele unserer Fachleute im Homeoffice arbeiteten. Bei den analogen Medien gab es allerdings durch den ersten sehr weitreichenden Lockdown bald Rückstände. Mithilfe eines Hygienekonzepts konnten wir dann an beiden Standorten so viele Mitarbeiter*innen wie möglich in den Präsenzbetrieb zurückholen. Die Bearbeitung der physischen Bücher und die Betreuung des Lesesaalbetriebs musste ja weitergehen – auch wenn die Zahl der Leseplätze wegen der Abstandsregeln limitiert war und wir Kapazitätsengpässe hatten. Inzwischen hat sich der Betrieb trotz der Beschränkungen wieder weitgehend normalisiert.
Diebel: Die Menge der abgelieferten Onlinepublikationen ist nicht das Problem, weil die Erfassungsprozesse weitgehend automatisiert sind und wir bei unseren Speicherkapazitäten enorm aufgerüstet haben. Aktuell erreichen uns im Schnitt 3 700 Medien täglich. Wichtig ist es, die Ablieferungspflichtigen möglichst umfassend zu erreichen, um die Sammlung so vollständig wie möglich zu gestalten. In einem unserer Projekte sind wir gerade dabei, die Verfahren zu optimieren.
Scholze: Ich kenne diese Diskussion. Mittlerweile wird dieser Automatisierungsschritt angesichts der Mengen, die verarbeitet werden müssen, akzeptiert. Das bezieht sich auch auf die inhaltliche Erschließung der Medien. Natürlich beobachten wir fortlaufend, ob die Ergebnisse der maschinellen Indexierung unserem Qualitätsanspruch genügen. Wir bauen gerade eine neue, modulare Technologie auf, die vielversprechende Ergebnisse liefert. Aber klar ist, dass eine intellektuelle Erschließung von Büchern immer eine andere Qualität hat.
Diebel: Die Qualitätssicherung findet auf allen Ebenen statt – auf der Ebene der Dateien bei Onlinepublikationen, der Metadaten und des Inhalts. Es kommen auch gezielt Fehlerprozeduren zum Einsatz, etwa dann, wenn eine Publikation nicht importiert werden kann.
Diebel: Da muss man zunächst zwischen den körperlichen Werken, also CDs und Kassetten etwa, und den unkörperlichen Werken aus dem Netz unterscheiden. Die Online-Publikationen liegen meist in PDF- und EPUB-Formaten vor, sodass bei ihnen aktuell noch nicht die technische Notwendigkeit für eine Migration besteht. Bei anderen Medien müssen wir Kopien anfertigen und in unserem Massenspeicher ablegen. In den vergangenen elf Jahren haben wir beispielsweise rund 700.000 Musik- und Hörbuch-CDs kopiert, von denen nur wenige nicht mehr nutzbar waren. Zurzeit überspielen wir Kassetten; bei Disketten haben wir noch einiges vor uns.
Scholze: Wir digitalisieren zur Bestandssicherung auch viele analoge Medien. Ein vollkommen anderes, aber wichtiges Thema ist die Frage, welche chemischen Eigenschaften Papier haben muss, um ohne Schadstoffemissionen archiviert werden zu können. Hier kollidiert unter Umständen das Interesse an einer nachhaltigen Buchproduktion mit dem Ziel der physischen Langzeitarchivierung.
Diebel: Wir haben ein schmales Kernset an Metadaten definiert, mit deren Hilfe wir bibliographische Angaben automatisiert übernehmen können. Da haben wir eine Lernkurve durchlaufen und sind immer wieder auch im Austausch mit dem Marketing- und Verlagsservice des Buchhandels, um die Qualität der Metadaten zu verbessern.
Diebel: Das ist sehr unterschiedlich und lässt sich nicht exakt ermitteln. Im monografischen Bereich sind wir bei Verlagsproduktionen gut aufgestellt. Nachholbedarf gibt es vor allem bei Zeitschriften aus dem Fach- und Special-Interest-Segment.
Scholze: Das ist ein Prozess, der vor mehr als 20 Jahren mit den digitalen Hochschulschriften begonnen hat. Der Anteil der Aufwände steigt jährlich, entsprechend der Wachstumsraten der analogen und digitalen Publikationen – wobei der Anteil analoger Medien auf hohem Niveau bleibt. Unsere Mittel würden tatsächlich nicht ausreichen, wenn wir in allen Bereichen 100-prozentige Vollständigkeit erreichen wollten. Hier gilt wie auf vielen anderen Feldern das Pareto-Prinzip zum günstigen Verhältnis von Aufwand und Ertrag: so viel wie möglich mit den verfügbaren Ressourcen einsammeln und bewahren. Beim "Web Harvesting", der Sammlung des "Deutschen Internets", liegen die Dinge noch mal anders. Da sprechen wir von "exemplarischer Vollständigkeit", aber auch hier werden wir in einem Projekt mit Wissenschaftseinrichtungen erkunden, wie wir den maximalen Nutzen für die Sicherung dieses Teils unseres kulturellen Gedächtnisses erzielen können.
Scholze: Das wird in der Tat immer wichtiger, macht aber bisher nur einen kleinen Anteil aus. In Zukunft werden Nutzerinnen und Nutzer darauf achten, welcher Korpus von Publikationen für welche Fragestellungen von Bedeutung ist. Hier müssen sich Bibliothekar*innen und Nutzende enger miteinander abstimmen. Im Gegensatz zum klassischen Handapparat ist eine digitale Sammlung zu einem bestimmten Thema wesentlich komplexer und kann wohl nur noch durch "Distant Reading", das heißt durch programmgenerierte Inhaltserschließung, erfasst werden. Hier kommen Werkzeuge zur Inhalts- und Datenanalyse zum Einsatz, ohne dass die Nutzer*innen jeden Text selbst lesen.
Diebel: Die Zahl der frei zugänglichen Publikationen wird größer, aber nicht immer ist von vornherein klar, ob sie auch frei genutzt werden dürfen. Hier müsste die Übermittlung von Rechte- und Lizenzinformationen durch die Verlage, am besten über die mitgelieferten Metadaten, verbessert werden, da die DNB ansonsten den Zugang nur in den Lesesälen erlauben kann.
Scholze: Die Wahrung des Urheberrechts steht außer Frage, aber es wäre aus meiner Sicht wünschenswert, den Anteil durch entsprechende Lizenzen offen zugänglicher Publikationen möglichst auszubauen. Hier setzen wir auf unsere gute Partnerschaft mit den Verlagen.
Die intellektuelle Erschließung von Büchern hat immer eine andere Qualität.
Frank Scholze