TEI (Text Encoding Initiative) ist ein XML-basierter Standard, mit dem sich Texte aller Art digital so kodieren lassen, dass ihre Struktur, Bedeutung und Materialität maschinenlesbar werden. TEI ist das De-facto-Standardvokabular der Digital Humanities — vor allem für Editionen, Handschriftenbeschreibungen, Korpora und sprachwissenschaftliche Annotationen.
Der Standard wird seit 1987 entwickelt; die aktuelle Version ist P5. TEI ist umfangreich (über 500 Elemente), aber modular: man wählt nur die Module, die man braucht, und passt sie projektspezifisch via ODD an.
Grundstruktur eines TEI-Dokuments
<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt><title>…</title></titleStmt>
<publicationStmt>…</publicationStmt>
<sourceDesc>…</sourceDesc>
</fileDesc>
<profileDesc>…</profileDesc>
<revisionDesc>…</revisionDesc>
</teiHeader>
<text>
<body>
<p>…</p>
</body>
</text>
</TEI>
Zwei Pflichtbereiche:
<teiHeader>— alle Metadaten zum Dokument (bibliografische Beschreibung, Quelle, Kodierungsentscheide, Revisionen).<text>— der eigentliche Inhalt, gegliedert in<front>,<body>und<back>.
Häufig genutzte Module
| Modul | Zweck |
|---|---|
| core | Basis-Tags: <p>, <list>, <note>, <quote>, <persName>, <placeName> |
| header | <teiHeader> und Metadaten |
| textstructure | <div>, <front>, <body>, <back> |
| msdescription | Handschriftenbeschreibung: <msDesc>, <msIdentifier>, <physDesc> |
| namesdates | Personen, Orte, Daten: <persName>, <placeName>, <orgName>, <date>, <origDate> |
| transcr | Transkription: <lb>, <pb>, <cb>, <gap>, <unclear>, <supplied>, <add>, <del> |
| textcrit | Apparat: <app>, <lem>, <rdg> |
| linking | Querverweise: <ref>, <link>, <ptr>, <join> |
| corpus | Korpus-Header für Sammlungen |
Inline-Auszeichnungen mit @ref
Personen, Orte, Körperschaften und Sachbegriffe werden im Fliesstext getaggt und per @ref mit ihren Normdatensätzen verknüpft:
<persName ref="lub-actors-42">Vogt Hans Schwarzhans</persName>
zu <placeName ref="lub-places-7">Vaduz</placeName>,
am <date when="1545-10-24">24. Oktober 1545</date>
ODD — Customization
Jedes ernsthafte TEI-Projekt definiert eine eigene ODD-Datei (One Document Does it all) — eine Schema-Customization, die festlegt, welche Module/Elemente erlaubt sind, welche Constraints gelten und welche Schematron-Regeln greifen. Aus der ODD generiert man Schema (RELAX NG, XSD oder DTD) und projektspezifische Dokumentation.
Verwandte Spezifikationen
- EpiDoc — TEI-Customization für epigraphische Texte.
- DTABf (Deutsches Textarchiv-Basisformat) — strenges TEI-Profil für historische deutsche Korpora.
Werkzeuge
- TEI Publisher — Open-Source-Plattform zur Präsentation von TEI-Editionen (eXist-DB-basiert).
- oXygen XML Editor — kommerzieller Editor mit guter TEI-Unterstützung.
- roma — Web-Tool zum Bauen einer ODD-Customization aus dem Browser.
Aus unserer Praxis
Wir setzen TEI in mehreren Editionsprojekten ein — siehe die Übersicht unter Wissenschaftliche digitale Editionen, insbesondere Edition St. Galler Missiven und Liechtensteinisches Urkundenbuch III.