Kapitel 8: Datenformate & maschinenlesbare Inhalte
Im klassischen Webdesign galt: “Sieht es gut aus, konvertiert es gut.” Im LLMO gilt: “Ist es sauber strukturiert, wird es synthetisiert.” Informationen, die in proprietären Formaten oder hinter komplexen JavaScript-Hürden gefangen sind, existieren für die KI schlichtweg nicht.
8.1 Markdown: Das native Gold der LLMs
Warum bevorzugen ChatGPT, Claude und Gemini Markdown gegenüber komplexem HTML? Die Antwort liegt in ihren Trainingsdaten. Ein massiver Teil des Wissens dieser Modelle stammt aus technischen Dokumentationen (GitHub, Stack Overflow, Readme-Dateien), die fast ausnahmslos in Markdown verfasst sind.
Die Vorteile von Markdown für die KI-Verarbeitung:
- Token-Effizienz: Markdown benötigt deutlich weniger Zeichen (und damit Tokens) als HTML, um Strukturen wie Listen oder Überschriften abzubilden. Das spart Platz im begrenzten Context Window der KI.
-
Hierarchische Eindeutigkeit: Ein
#für H1 oder ein##für H2 ist ein universelles Signal, das keine Interpretation von CSS-Klassen erfordert. - Extraktions-Freundlichkeit: Wenn eine KI eine Antwort generiert, nutzt sie intern oft Markdown. Wenn Ihre Quelle bereits so vorliegt, kann sie die Information ohne “Übersetzungsverlust” übernehmen.
/artikel?format=md), der den Content in reinem Markdown ausgibt, macht Ihre Seite
zum bevorzugten Ziel für KI-Agenten.
8.2 JSON-LD: Das Rückgrat des Wissensgraphen
Während Markdown ideal für unstrukturierte Texte ist, ist JSON-LD (JavaScript Object Notation for Linked Data) das Format für harte Fakten. Es erlaubt uns, Informationen so zu übermitteln, dass kein Spielraum für Halluzinationen bleibt.
Präzision durch maschinelle Semantik:
Wenn Sie schreiben: “Unser Gerät wiegt wenig”, muss die KI raten, was “wenig” bedeutet. Wenn Sie im JSON-LD definieren:
{
"@type": "Product",
"weight": {
"@type": "QuantitativeValue",
"value": "1.2",
"unitCode": "KGM"
}
}
...dann ist der Fakt mathematisch fixiert.
Die wichtigsten JSON-LD-Bestandteile für LLMO:
| Property | Verwendung | LLMO-Effekt |
|---|---|---|
mainEntityOfPage |
Sagt der KI exakt, welches das Hauptthema ist | Besseres Entity-Matching |
isBasedOn |
Verweist auf die Primärquelle Ihrer Daten | Erhöht den Trust-Score |
significantLink |
Markiert weiterführende Ressourcen | KI empfiehlt den Link dem Nutzer |
knowsAbout |
Verknüpft Autor/Marke mit Wissens-Clustern | Positioniert als thematische Autorität |
sameAs |
Verbindet mit Wikidata, LinkedIn etc. | Konsistente digitale Signatur |
8.3 Multimodale Optimierung: Bilder und Videos “lesbar” machen
Modelle wie GPT-4o oder Gemini können Bilder “sehen”, aber sie interpretieren sie immer noch im Kontext der umgebenden Texte.
Strategien für das visuelle LLMO:
- OCR-Optimierung: Wenn Sie Infografiken nutzen, verwenden Sie kontrastreiche serifenlose Schriften. KIs nutzen Optical Character Recognition, um Text aus Bildern zu ziehen.
- Detaillierte Beschreibungen: Nutzen Sie nicht nur Alt-Texte wie “Statistik 2025”, sondern: “Balkendiagramm zeigt den Anstieg der Effizienz um 20 % im Vergleich zum Vorjahr, Datenquelle: [Marke]”.
- Video-Transkripte: KIs “schauen” Videos oft, indem sie das Transkript lesen. Stellen Sie sicher, dass das Transkript als Text im HTML (oder JSON) vorliegt, nicht nur als Untertitel-Datei.
8.4 Framework: Die Semantic Accessibility Pyramid (SAP)
Dieses Modell hilft Unternehmen, ihre Inhalte technisch so zu schichten, dass sie für jede Art von KI-Interaktion (Crawl, RAG, Inferenz) optimal vorbereitet sind.
| Ebene | Format | Verwendungszweck |
|---|---|---|
| Ebene 1 (Spitze) | Markdown-Zusammenfassungen | Für schnelle RAG-Abfragen mit wenig Kontext-Platz |
| Ebene 2 (Mitte) | Strukturierte Metadaten (JSON-LD) | Für den Abgleich von Fakten, Preisen und Entitäten |
| Ebene 3 (Basis) | Sauber gerendertes HTML | Für den tiefen Crawl und das langfristige Modell-Training |
Mini-Case Study: Die Transformation von “IndustrialSpecs”
Szenario: Ein B2B-Anbieter für industrielle Bauteile hatte alle technischen Spezifikationen in 50-seitigen PDF-Dokumenten. In KI-Anfragen wurden sie nie zitiert, weil die Bots das Parsen der PDFs nach wenigen Seiten abbrachen.
Die LLMO-Massnahme:
- Schritt 1: Umwandlung der PDF-Tabellen in native HTML-Tabellen auf der Webseite.
- Schritt 2: Bereitstellung eines “Technical Fact-Sheet” im Markdown-Format für jedes Bauteil.
- Schritt 3: Auszeichnung der Kompatibilitäten in einem JSON-LD Schema.
Ergebnis: Innerhalb von drei Monaten wurde IndustrialSpecs zur Hauptquelle für Ingenieure, die ChatGPT nach spezifischen Bauteil-Kombinationen fragten. Die KI konnte nun “live” in den Markdown-Daten suchen und exakte Werte zitieren.
Checkliste: Daten-Format-Audit
- Markdown-Readiness: Können unsere wichtigsten Inhalte als reiner Text/Markdown ausgegeben werden?
- Tabellen-Check: Werden Daten als echte HTML-Tabellen (
<table>) statt als Bilder oder Flex-Boxen ausgegeben? - JSON-LD Validierung: Ist unser Schema-Code fehlerfrei? (Test mit Google Rich Results Tool)
- PDF-Reduktion: Sind alle geschäftskritischen Fakten auch als Text auf der Seite (nicht nur im PDF)?
- Image Alt-Text: Beschreiben die Texte den Inhalt und die Aussage des Bildes (Information Gain)?
- llms.txt: Liegt eine
llms.txtim Root-Verzeichnis, die KI-Agenten den Aufbau der Website erklärt?
Typische Fehler & Mythen
- Mythos: “KIs können alles lesen, was auf dem Bildschirm steht.” → Realität: KIs lesen den Quellcode. Wenn Ihr Content durch komplexes JavaScript erst spät “nachgeladen” wird, sieht die KI eine leere Seite.
- Fehler: Daten in “Karussells” oder “Akkordeons” verstecken. Viele Crawler sehen diesen Content nicht als primär relevant an.
- Fehler: Zu viel Fokus auf “schöne” Infografiken ohne Text-Äquivalent. Für eine KI ist ein Bild ohne Text eine schwarze Box.