Blog der Hauptbibliothek

Dark Data in der Forschung

16. April 2019 | HBZ | Keine Kommentare |

This post is also available in: English

Eine Schätzung der IBM aus dem Jahr 2018 beziffert den Anteil von Dark Data am gesamten Datenbestand auf ca. 80%. Insgesamt werden gerade 0.5% der Daten überhaupt analysiert. Das Potential nutzbarer Dark Data wird auf ca. 35% veranschlagt (Quelle: https://www.ibm.com/blogs/think/be-en/2018/04/24/marketing-dark-dark-data/). Mögen die Angaben akkurat sein oder nicht: Feststeht, dass grosse Mengen an Daten produziert, aber niemals (weiter)verwendet werden. 

Dark Data wird gemeinhin als Untermenge von Big Data verstanden, einem ebenso populären wie unscharfen Begriff. Dazu zählen Video- und Audioaufnahmen menschlicher Sprache sowie unstrukturierte Textdaten, wie sie heute millionenfach in den Sozialen Medien erzeugt werden. Big Data Analysten haben es sich zur Aufgabe gemacht, Mittel und Wege zu finden, um neue Erkenntnisse zu erschliessen. Kommerzielle Firmen zielen meist auf Kapitalwertschöpfung ab und erhoffen sich bessere Vorhersagen von Marktentwicklungen und Benutzerverhalten. Dark Data liegen unbenutzt im Dunkeln und könnten wertvoll sein – und trotzdem: ein grosser Anteil davon ist es nicht.

Dark Data in der Forschung werden in Form von unstrukturierten Rohdaten, Logfiles und Notizen erzeugt, die nicht weiterverwendet werden, aber trotzdem wertvollen Speicherplatz beanspruchen und somit zu einem ständigen Datenwachstum beitragen. Bis unlängst waren selbst wertvolle strukturierte und gut dokumentierte Daten von Forschungsprojekten unter Verschluss gehalten und zu Dark Data degradiert worden. Erst durch die Neuausrichtung der Forschungsförderung hin zu Open Data werden wertvolle Forschungsdaten wieder aus der Versenkung geholt. Von Bedeutung für die Sichtbarmachung sind Data Repositories, in denen Forschende Daten verzeichnen und dokumentieren können.

Die Publikation von Forschungsdaten allein verhindert jedoch kaum das Problem. Während gewisse Repository-Betreiber den Forschenden Qualitätsschranken auferlegen, um Daten zu veröffentlichen, kann in anderen Repositories alles unselektiert publiziert werden – auch nicht oder schlecht dokumentierte Daten. Auch wenn die meisten Forschungsprojekte nicht unter den Begriff Big Data fallen, so doch die schiere Gesamtmenge an Forschungsdaten insgesamt, die in der Cloud verteilt werden. Die Forschenden stehen vor den Herausforderungen, erhaltenswerte und sozusagen „geschäftsrelevante“ Daten zu speichern, und der gezielten Löschung wertloser Daten.

Damit  Forschende sich gegenseitig auf Dokumentations- und Metadatenstandards verständigen können, fördert der Schweizerische Nationalfonds (SNF) im Rahmen des Programms „Scientific Exchange“ den Austausch zu diesen Fragen: http://www.snf.ch/de/foerderung/wissenschaftskommunikation/scientific-exchanges/Seiten/default.aspx

_
Bildnachweis: David Huang, Unsplash

Abgelegt unter: ForschungsdatenOpen Access
Tags: