Die National Archives and Records Administration (NARA) der USA pflegt seit 2018 eine kontinuierlich aktualisierte Liste von Format-Risikobewertungen für die digitale Langzeitarchivierung. Pro Dateiformat wird festgehalten:

  • ein Risk Level (Low / Moderate / High)
  • ein Preservation Plan (Retain / Transform / Replace)
  • eine begründete Notiz, warum das Format so eingestuft ist

Die Liste ist als CSV im NARA-GitHub-Repository öffentlich, wird mehrmals jährlich nachgeführt und ist mit PRONOM-PUIDs verknüpft. Damit ist sie der operativ einsetzbare Brückenkopf zwischen Format-Identifikation (DROID/Siegfried/FIDO) und der Erhaltungsentscheidung.

Das Bewertungsschema

AchseWerte
Risk LevelLow Risk · Moderate Risk · High Risk
Preservation PlanRetain · Transform to X · Replace
PRONOM PUIDVerknüpfung zur Format-Identifikation, z. B. fmt/19

NARA bewertet die Formate anhand klassischer Sustainability-Kriterien (vgl. Library of Congress Sustainability Factors):

  • Disclosure / Documentation — ist die Spezifikation offen und vollständig?
  • Adoption — wie weit verbreitet ist das Format?
  • Transparency — kann der Inhalt mit einem Texteditor noch interpretiert werden?
  • Self-Documentation — sind Metadaten eingebettet?
  • External Dependencies — Plug-ins, Codecs, Schriften nötig?
  • Patents / DRM — rechtliche oder technische Schutzmechanismen?

Beispiel-Einstufungen (Auszug)

Die folgende Auswahl zeigt typische Formate aus dem GLAM-Alltag. Für die aktuelle, vollständige Liste immer die Originalquelle prüfen — Einstufungen ändern sich.

Raster-Bilder

FormatPUIDRiskPlan
TIFF (uncompressed)fmt/353LowRetain
TIFF (LZW)fmt/353LowRetain
JPEGfmt/43ModerateRetain
JPEG 2000 (lossless)x-fmt/392LowRetain
PNGfmt/13LowRetain
BMPfmt/116ModerateTransform to TIFF
GIF (animated)fmt/4ModerateRetain

Textuell / Office

FormatPUIDRiskPlan
PDF/A-1fmt/95LowRetain
PDF (1.4–1.7)fmt/18fmt/276ModerateTransform to PDF/A
Plain Text (UTF-8)x-fmt/16LowRetain
Microsoft Word (DOCX)fmt/412LowRetain
Microsoft Word (DOC)fmt/40Moderate–HighTransform to PDF/A or DOCX
WordPerfectx-fmt/268HighTransform to PDF/A
HTMLfmt/96 u. a.LowRetain

Audio

FormatPUIDRiskPlan
WAV (PCM)fmt/141LowRetain
FLACfmt/279LowRetain
MP3fmt/134ModerateRetain
AACfmt/415ModerateRetain
RealAudiofmt/135HighTransform to WAV/FLAC

Bewegtbild

FormatPUIDRiskPlan
FFV1 in MKVfmt/569LowRetain
Motion JPEG 2000 in MXFfmt/200LowRetain
MP4 (H.264)fmt/199ModerateRetain
MP4 (H.265 / HEVC)fmt/1156ModerateRetain
AVIfmt/5ModerateTransform to FFV1/MKV
QuickTime MOVfmt/199ModerateRetain
RealVideofmt/118HighTransform to FFV1/MKV

Daten / Tabellen

FormatPUIDRiskPlan
CSVx-fmt/18LowRetain
XLSXfmt/214LowRetain
XLSfmt/61ModerateTransform to XLSX/CSV
Lotus 1-2-3x-fmt/114HighTransform to XLSX/CSV

Workflow im OAIS-Kontext

Die NARA-Liste schliesst die Lücke zwischen Identifikation und Erhaltungsentscheidung:

1. Format identification    →  Siegfried/DROID/FIDO  →  PUID
2. NARA Risk lookup         →  Risk Level + Preservation Plan
3. Triage / Priorisierung   →  High Risk zuerst
4. Normalization / Migration →  gemäss Plan
5. PREMIS-Event erfassen    →  migration / normalization / replication

Praktisch heisst das: jeder Bestand bekommt nach dem Format-ID-Scan einen Risiko-Report, in dem die High-Risk-Formate sichtbar werden — der Input für Migrations-Sprints und Antrags-Begründungen.

Verhältnis zu anderen Standards und Bewertungen

  • PRONOM — liefert die PUIDs, an denen NARA seine Bewertung aufhängt. Ohne PUID kein Risk-Level-Match.
  • Siegfried / FIDO / DROID — die Werkzeuge, die PUIDs in der Praxis vergeben.
  • PREMISsignificantProperties oder ein risk-assessment-Event kann das NARA-Level pro Objekt persistieren.
  • Library of Congress — Recommended Format Statement — verwandte, ähnlich strukturierte Empfehlung mit Schwerpunkt auf Akquisitions-Empfehlungen.
  • Library of Congress — Sustainability Factors — die theoretische Grundlage, an der NARA seine Bewertungen ausrichtet.
  • PLATO (Planets) und DPC Risk Register — europäische Pendants mit eigenem Schwerpunkt.

Werkzeuge zum Einsatz

  • Direkt-Lookup: NARA stellt die CSV im Repository bereit — am einfachsten via pandas oder csvkit einlesen und mit dem Output von Siegfried joinen.
  • kraenzle-ritter/nara-risk — Laravel-Paket, das die NARA-CSV als Datenbank-Tabelle bereitstellt und PUID-Lookups direkt aus dem PHP-Code liefert. In unserer Sammlungs-Software Anton zur automatischen Risikobewertung nach jedem Format-Identification-Lauf eingesetzt; kombiniert sich nahtlos mit kraenzle-ritter/puidentify (Siegfried-/FIDO-Wrapper).
  • Archivematica — integriert NARA-Empfehlungen in den FPR (Format Policy Registry) und kann automatisch normalisieren.
  • Brunnhilde — Reporting-Tool, das DROID-Output mit NARA-Risiken anreichert (Web-Bericht inkl. PII-Scan).
  • Rosetta und Preservica — kommerzielle OAIS-Plattformen mit eingebauter NARA-Risk-Auswertung.

Mini-Pattern für ein Eigenbau-Lookup mit Siegfried + die NARA-CSV:

# 1. Identify
sf -csv /pfad/zu/bestand > formats.csv

# 2. NARA-Liste einmalig holen
curl -L -o nara-risk.csv \
  https://raw.githubusercontent.com/usnationalarchives/digital-preservation/master/Digital_Preservation_Plan_Spreadsheet.csv

# 3. Join über PUID — z. B. mit csvkit
csvjoin -c "puid,PRONOM PUID" formats.csv nara-risk.csv > bestand-mit-risk.csv

Häufige Fallen

  • Alte Snapshots verwenden: die NARA-CSV ändert sich. Wer eine Bewertung von vor zwei Jahren als Antrags-Grundlage zitiert, riskiert, dass das Format inzwischen anders eingestuft ist.
  • PUID-Lücken: Formate ohne PRONOM-PUID (selten erkannte Container, frische Codecs) sind in NARA nicht gelistet — separate Bewertung nötig.
  • Risk vs. Plan verwechseln: ein Format kann Low Risk sein und trotzdem einen Transform-Plan haben (z. B. wenn das Zielformat noch besser geeignet ist).
  • NARA ist US-zentriert: bestimmte europäische Format-Varianten (z. B. Geodaten-Subtypen) sind unter- oder gar nicht abgedeckt. Für Schweizer/EU-Bestände ggf. mit eCH- oder DPC-Empfehlungen ergänzen.
  • Eine Bewertung ist keine Politik: NARA-Levels sind Empfehlungen, keine Vorgaben. Eine institutionelle Format-Policy muss sie kuratieren — nicht 1 : 1 übernehmen.