TEI (Text Encoding Initiative) ist ein XML-basierter Standard, mit dem sich Texte aller Art digital so kodieren lassen, dass ihre Struktur, Bedeutung und Materialität maschinenlesbar werden. TEI ist das De-facto-Standardvokabular der Digital Humanities — vor allem für Editionen, Handschriftenbeschreibungen, Korpora und sprachwissenschaftliche Annotationen.

Der Standard wird seit 1987 entwickelt; die aktuelle Version ist P5. TEI ist umfangreich (über 500 Elemente), aber modular: man wählt nur die Module, die man braucht, und passt sie projektspezifisch via ODD an.

Grundstruktur eines TEI-Dokuments

<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>
    <fileDesc>
      <titleStmt><title>…</title></titleStmt>
      <publicationStmt>…</publicationStmt>
      <sourceDesc>…</sourceDesc>
    </fileDesc>
    <profileDesc>…</profileDesc>
    <revisionDesc>…</revisionDesc>
  </teiHeader>
  <text>
    <body>
      <p>…</p>
    </body>
  </text>
</TEI>

Zwei Pflichtbereiche:

  • <teiHeader> — alle Metadaten zum Dokument (bibliografische Beschreibung, Quelle, Kodierungsentscheide, Revisionen).
  • <text> — der eigentliche Inhalt, gegliedert in <front>, <body> und <back>.

Häufig genutzte Module

ModulZweck
coreBasis-Tags: <p>, <list>, <note>, <quote>, <persName>, <placeName>
header<teiHeader> und Metadaten
textstructure<div>, <front>, <body>, <back>
msdescriptionHandschriftenbeschreibung: <msDesc>, <msIdentifier>, <physDesc>
namesdatesPersonen, Orte, Daten: <persName>, <placeName>, <orgName>, <date>, <origDate>
transcrTranskription: <lb>, <pb>, <cb>, <gap>, <unclear>, <supplied>, <add>, <del>
textcritApparat: <app>, <lem>, <rdg>
linkingQuerverweise: <ref>, <link>, <ptr>, <join>
corpusKorpus-Header für Sammlungen

Inline-Auszeichnungen mit @ref

Personen, Orte, Körperschaften und Sachbegriffe werden im Fliesstext getaggt und per @ref mit ihren Normdatensätzen verknüpft:

<persName ref="lub-actors-42">Vogt Hans Schwarzhans</persName>
zu <placeName ref="lub-places-7">Vaduz</placeName>,
am <date when="1545-10-24">24. Oktober 1545</date>

ODD — Customization

Jedes ernsthafte TEI-Projekt definiert eine eigene ODD-Datei (One Document Does it all) — eine Schema-Customization, die festlegt, welche Module/Elemente erlaubt sind, welche Constraints gelten und welche Schematron-Regeln greifen. Aus der ODD generiert man Schema (RELAX NG, XSD oder DTD) und projektspezifische Dokumentation.

Verwandte Spezifikationen

  • EpiDoc — TEI-Customization für epigraphische Texte.
  • DTABf (Deutsches Textarchiv-Basisformat) — strenges TEI-Profil für historische deutsche Korpora.

Werkzeuge

  • TEI Publisher — Open-Source-Plattform zur Präsentation von TEI-Editionen (eXist-DB-basiert).
  • oXygen XML Editor — kommerzieller Editor mit guter TEI-Unterstützung.
  • roma — Web-Tool zum Bauen einer ODD-Customization aus dem Browser.

Aus unserer Praxis

Wir setzen TEI in mehreren Editionsprojekten ein — siehe die Übersicht unter Wissenschaftliche digitale Editionen, insbesondere Edition St. Galler Missiven und Liechtensteinisches Urkundenbuch III.