Blog der Hauptbibliothek

Data on the long run: Tips for long-term storage

5. Juni 2019 | Martina Gosteli | Keine Kommentare |

This post is also available in: English

Quelloffene, gut dokumentierte Datenformate sind der Schlüssel für die Langzeitverfügbarkeit von Daten. Grundsätzlich gilt:

Offene und nicht-proprietäre Dateiformate sind geschlossenen und proprietären vorzuziehen, textbasierte Formate binären; je nach Forschungsbereich ist dies nicht immer möglich.

Gewisse Datenformate lassen sich in Formate konvertieren/exportieren, die für die Langzeitarchivierung geeignet sind:

  • Microsoft DOCX-Dateien in PDF exportieren: Im «Speichern unter»- bzw. «Exportieren»-Dialog zusätzliche «Optionen…» auswählen: Hier die Checkbox «ISO 19005-1-kompatibel (PDF/A)» aktivieren (vgl. S. 2).

    Wenn Sie Latex benutzen, können Sie z. B. das Paket «pdfx» einbinden, um ein PDF/A konformes Dokument zu erzeugen.

    PDF/A-Kompatibilität im Adobe Acrobat Reader DC überprüfen: In der linken Navigationsleiste erscheint ein entsprechendes Info-Icon. Eine gute Alternative bietet veraPDF (EU gefördert).
  • Bereits vorhandene PDF-Dateien in PDF/A konvertieren: Entweder mit dem lizenzpflichtigen Adobe Acrobat Professional oder mit gewissen Gratistools wie z. B. dem PDF24-Creator.
  • Microsoft XLSX-Dateien als CSV (Column Separated Values) exportieren: Sinnvoll, wenn es sich um einfache Zahlentabellen, z. B. aus Messungen, handelt. Dies kann entweder mittels «Speichern unter» oder «Exportieren» erreicht werden.
  • Text-Encoding: Unicode UTF-8 ist ein guter Standard, der Zeichen verschiedener Sprachen in einem einzigen Zeichensatz zusammenführt.

Eine allgemein Übersicht zum Thema Datenformate für die Langzeitarchivierung hat die ETH Bibliothek zusammengestellt.

Oft ermöglicht erst das Zusammenspiel verschiedener Parameter und Datenformate die Darstellung komplexer Sachverhalte: BIDS (Brain Imaging Data Structure) bspw. erreicht im Bereich des Magnetic Resonance Imaging die Darstellung mehrdimensionaler Bilder und orientiert sich dabei an einer vorgegebenen Naming Convention/Ordnerstruktur.

  • Gut dokumentierte Community Standards erlauben eine bessere Nachvollziehbarkeit, z. B: neuroimaging.
  • Allg. Informationen zu Naming Conventions und Datenorganisation finden Sie hier.

Bei Fragen rund um Forschungsdaten steht das Data Services Team gerne zur Verfügung. Wir sind unter per Mail und über unsere Website zu erreichen.

Abgelegt unter: Coffee LecturesForschungsdatenTipps für Ärzte und MTTB-BerufeTipps für Forschende
Tags: