Die National Archives and Records Administration (NARA) der USA pflegt seit 2018 eine kontinuierlich aktualisierte Liste von Format-Risikobewertungen für die digitale Langzeitarchivierung. Pro Dateiformat wird festgehalten:
- ein Risk Level (Low / Moderate / High)
- ein Preservation Plan (Retain / Transform / Replace)
- eine begründete Notiz, warum das Format so eingestuft ist
Die Liste ist als CSV im NARA-GitHub-Repository öffentlich, wird mehrmals jährlich nachgeführt und ist mit PRONOM-PUIDs verknüpft. Damit ist sie der operativ einsetzbare Brückenkopf zwischen Format-Identifikation (DROID/Siegfried/FIDO) und der Erhaltungsentscheidung.
Das Bewertungsschema
| Achse | Werte |
|---|---|
| Risk Level | Low Risk · Moderate Risk · High Risk |
| Preservation Plan | Retain · Transform to X · Replace |
| PRONOM PUID | Verknüpfung zur Format-Identifikation, z. B. fmt/19 |
NARA bewertet die Formate anhand klassischer Sustainability-Kriterien (vgl. Library of Congress Sustainability Factors):
- Disclosure / Documentation — ist die Spezifikation offen und vollständig?
- Adoption — wie weit verbreitet ist das Format?
- Transparency — kann der Inhalt mit einem Texteditor noch interpretiert werden?
- Self-Documentation — sind Metadaten eingebettet?
- External Dependencies — Plug-ins, Codecs, Schriften nötig?
- Patents / DRM — rechtliche oder technische Schutzmechanismen?
Beispiel-Einstufungen (Auszug)
Die folgende Auswahl zeigt typische Formate aus dem GLAM-Alltag. Für die aktuelle, vollständige Liste immer die Originalquelle prüfen — Einstufungen ändern sich.
Raster-Bilder
| Format | PUID | Risk | Plan |
|---|---|---|---|
| TIFF (uncompressed) | fmt/353 | Low | Retain |
| TIFF (LZW) | fmt/353 | Low | Retain |
| JPEG | fmt/43 | Moderate | Retain |
| JPEG 2000 (lossless) | x-fmt/392 | Low | Retain |
| PNG | fmt/13 | Low | Retain |
| BMP | fmt/116 | Moderate | Transform to TIFF |
| GIF (animated) | fmt/4 | Moderate | Retain |
Textuell / Office
| Format | PUID | Risk | Plan |
|---|---|---|---|
| PDF/A-1 | fmt/95 | Low | Retain |
| PDF (1.4–1.7) | fmt/18–fmt/276 | Moderate | Transform to PDF/A |
| Plain Text (UTF-8) | x-fmt/16 | Low | Retain |
| Microsoft Word (DOCX) | fmt/412 | Low | Retain |
| Microsoft Word (DOC) | fmt/40 | Moderate–High | Transform to PDF/A or DOCX |
| WordPerfect | x-fmt/268 | High | Transform to PDF/A |
| HTML | fmt/96 u. a. | Low | Retain |
Audio
| Format | PUID | Risk | Plan |
|---|---|---|---|
| WAV (PCM) | fmt/141 | Low | Retain |
| FLAC | fmt/279 | Low | Retain |
| MP3 | fmt/134 | Moderate | Retain |
| AAC | fmt/415 | Moderate | Retain |
| RealAudio | fmt/135 | High | Transform to WAV/FLAC |
Bewegtbild
| Format | PUID | Risk | Plan |
|---|---|---|---|
| FFV1 in MKV | fmt/569 | Low | Retain |
| Motion JPEG 2000 in MXF | fmt/200 | Low | Retain |
| MP4 (H.264) | fmt/199 | Moderate | Retain |
| MP4 (H.265 / HEVC) | fmt/1156 | Moderate | Retain |
| AVI | fmt/5 | Moderate | Transform to FFV1/MKV |
| QuickTime MOV | fmt/199 | Moderate | Retain |
| RealVideo | fmt/118 | High | Transform to FFV1/MKV |
Daten / Tabellen
| Format | PUID | Risk | Plan |
|---|---|---|---|
| CSV | x-fmt/18 | Low | Retain |
| XLSX | fmt/214 | Low | Retain |
| XLS | fmt/61 | Moderate | Transform to XLSX/CSV |
| Lotus 1-2-3 | x-fmt/114 | High | Transform to XLSX/CSV |
Workflow im OAIS-Kontext
Die NARA-Liste schliesst die Lücke zwischen Identifikation und Erhaltungsentscheidung:
1. Format identification → Siegfried/DROID/FIDO → PUID
2. NARA Risk lookup → Risk Level + Preservation Plan
3. Triage / Priorisierung → High Risk zuerst
4. Normalization / Migration → gemäss Plan
5. PREMIS-Event erfassen → migration / normalization / replication
Praktisch heisst das: jeder Bestand bekommt nach dem Format-ID-Scan einen Risiko-Report, in dem die High-Risk-Formate sichtbar werden — der Input für Migrations-Sprints und Antrags-Begründungen.
Verhältnis zu anderen Standards und Bewertungen
- PRONOM — liefert die PUIDs, an denen NARA seine Bewertung aufhängt. Ohne PUID kein Risk-Level-Match.
- Siegfried / FIDO / DROID — die Werkzeuge, die PUIDs in der Praxis vergeben.
- PREMIS —
significantPropertiesoder einrisk-assessment-Event kann das NARA-Level pro Objekt persistieren. - Library of Congress — Recommended Format Statement — verwandte, ähnlich strukturierte Empfehlung mit Schwerpunkt auf Akquisitions-Empfehlungen.
- Library of Congress — Sustainability Factors — die theoretische Grundlage, an der NARA seine Bewertungen ausrichtet.
- PLATO (Planets) und DPC Risk Register — europäische Pendants mit eigenem Schwerpunkt.
Werkzeuge zum Einsatz
- Direkt-Lookup: NARA stellt die CSV im Repository bereit — am einfachsten via
pandasodercsvkiteinlesen und mit dem Output von Siegfried joinen. kraenzle-ritter/nara-risk— Laravel-Paket, das die NARA-CSV als Datenbank-Tabelle bereitstellt und PUID-Lookups direkt aus dem PHP-Code liefert. In unserer Sammlungs-Software Anton zur automatischen Risikobewertung nach jedem Format-Identification-Lauf eingesetzt; kombiniert sich nahtlos mitkraenzle-ritter/puidentify(Siegfried-/FIDO-Wrapper).- Archivematica — integriert NARA-Empfehlungen in den FPR (Format Policy Registry) und kann automatisch normalisieren.
- Brunnhilde — Reporting-Tool, das DROID-Output mit NARA-Risiken anreichert (Web-Bericht inkl. PII-Scan).
- Rosetta und Preservica — kommerzielle OAIS-Plattformen mit eingebauter NARA-Risk-Auswertung.
Mini-Pattern für ein Eigenbau-Lookup mit Siegfried + die NARA-CSV:
# 1. Identify
sf -csv /pfad/zu/bestand > formats.csv
# 2. NARA-Liste einmalig holen
curl -L -o nara-risk.csv \
https://raw.githubusercontent.com/usnationalarchives/digital-preservation/master/Digital_Preservation_Plan_Spreadsheet.csv
# 3. Join über PUID — z. B. mit csvkit
csvjoin -c "puid,PRONOM PUID" formats.csv nara-risk.csv > bestand-mit-risk.csv
Häufige Fallen
- Alte Snapshots verwenden: die NARA-CSV ändert sich. Wer eine Bewertung von vor zwei Jahren als Antrags-Grundlage zitiert, riskiert, dass das Format inzwischen anders eingestuft ist.
- PUID-Lücken: Formate ohne PRONOM-PUID (selten erkannte Container, frische Codecs) sind in NARA nicht gelistet — separate Bewertung nötig.
- Risk vs. Plan verwechseln: ein Format kann Low Risk sein und trotzdem einen Transform-Plan haben (z. B. wenn das Zielformat noch besser geeignet ist).
- NARA ist US-zentriert: bestimmte europäische Format-Varianten (z. B. Geodaten-Subtypen) sind unter- oder gar nicht abgedeckt. Für Schweizer/EU-Bestände ggf. mit eCH- oder DPC-Empfehlungen ergänzen.
- Eine Bewertung ist keine Politik: NARA-Levels sind Empfehlungen, keine Vorgaben. Eine institutionelle Format-Policy muss sie kuratieren — nicht 1 : 1 übernehmen.
Links
- NARA — Digital Preservation Framework (GitHub)
- NARA — Digital Preservation Risk Matrix (Behördenseite)
- LoC — Sustainability of Digital Formats
- LoC — Recommended Formats Statement
- Brunnhilde — DROID-/Siegfried-Reporting
- Archivematica FPR
kraenzle-ritter/nara-risk(GitHub)kraenzle-ritter/puidentify(GitHub)