Kapitel 4: Technische Optimierung – Die Infrastruktur der Sichtbarkeit
Im LLMO-Zeitalter ist die Technik die Eintrittskarte zur Synthese. KI-Modelle arbeiten hochgradig ressourceneffizient. Wenn das Parsen Ihrer Website zu viel Rechenleistung kostet oder die Datenstruktur uneindeutig ist, wird die KI Ihre Inhalte schlichtweg ignorieren – völlig ungeachtet der inhaltlichen Qualität.
4.1 Das Bot-Management: Den Türstehern den Weg weisen
Früher gab es primär den Googlebot. Heute interagieren wir mit einer spezialisierten Armee von KI-Crawlern. Diese Bots haben eine andere Mission: Sie suchen nicht nach Links, um ein Ranking zu erstellen, sondern nach Informationseinheiten, um ein Modell zu trainieren oder eine RAG-Abfrage zu bedienen.
Die wichtigsten KI-Agenten im Überblick:
| Bot-Name | Betreiber | Zweck |
|---|---|---|
GPTBot / OAI-SearchBot |
OpenAI | Training und Echtzeit-Suche für ChatGPT |
ClaudeBot |
Anthropic | Präziser Analyst für Claude |
Google-Other |
KI-Trainings-Bots für Gemini | |
CCBot |
Common Crawl | Basis für Open-Source-Modelle (Llama, Mistral) |
Strategische Steuerung via robots.txt
Blockieren ist im LLMO keine Lösung, sondern digitale Selbstisolation. Stattdessen nutzen wir die Granular Access Control.
# Best-Practice LLMO robots.txt
User-agent: GPTBot
Allow: /api/v1/product-specs/
Allow: /whitepapers/markdown/
Disallow: /marketing/ads/
User-agent: ClaudeBot
Allow: /technical-docs/
Disallow: /user-comments/
User-agent: *
Disallow: /admin/
Disallow: /intern/
Sitemap: https://llmo.andreasreisch.ch/sitemap.xml
/ai-specs/ oder /llm-data/.
4.2 Advanced Schema.org: Vom Rich Snippet zum Knowledge Graph
Schema.org (JSON-LD) ist die Muttersprache der KI. Während SEOs Schema nutzen, um “Sterne” in den Suchergebnissen zu bekommen, nutzen wir es im LLMO für das Entity-Anchoring. Wir müssen der KI explizit sagen, wer wir sind und worüber wir Expertise besitzen.
Die “Power-Tags” für LLMO:
-
knowsAbout: Verknüpfen Sie Ihre Marke oder Ihre Autoren mit spezifischen Wissens-Clustern (z. B. mittels Wikipedia-URLs). -
mentions: Definieren Sie, auf welche externen Entitäten oder Studien sich Ihr Content bezieht. Dies erhöht den Trust-Score im Modell. -
definedTerm: Wenn Sie proprietäre Fachbegriffe nutzen, definieren Sie diese im Code, damit die KI sie nicht “erraten” muss. -
sameAs: Verknüpfen Sie Ihre Website mit Ihren Profilen auf LinkedIn, Wikidata und Branchenverzeichnissen, um eine konsistente Digitale Signatur zu erzeugen.
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Andreas Reisch",
"url": "https://andreasreisch.ch",
"sameAs": [
"https://www.linkedin.com/in/andreasreisch/",
"https://www.wikidata.org/wiki/Q..."
],
"knowsAbout": [
"https://en.wikipedia.org/wiki/Search_engine_optimization",
"https://en.wikipedia.org/wiki/Large_language_model"
]
}
</script>
4.3 Content-Architektur: Markdown vs. HTML vs. PDF
KI-Modelle wurden zu einem grossen Teil auf Code-Repositories (GitHub) und Dokumentationen trainiert. Das dort vorherrschende Format ist Markdown. Markdown ist für LLMs extrem leicht zu parsen, verbraucht weniger Tokens als HTML und behält dennoch eine klare Hierarchie bei.
Die “AI-Readiness-Layer” Architektur:
| Layer | Format | Zielgruppe | Zweck |
|---|---|---|---|
| Layer 1 (Human) | HTML/CSS | Menschlicher Besucher | Visuelles Erlebnis, Conversion |
| Layer 2 (Semantic) | JSON-LD | Suchmaschinen & KIs | Struktureller Abgleich von Fakten |
| Layer 3 (Machine) | Markdown/API | KI-Agenten & RAG-Systeme | Direkte Datenextraktion |
4.4 Rendering & Speed: Die JavaScript-Falle
Viele moderne Webseiten (React, Vue, Next.js) verlassen sich auf Client-Side Rendering (CSR). Das Problem: Viele KI-Crawler führen JavaScript nur eingeschränkt oder gar nicht aus, um Ressourcen zu sparen.
- Gefahr: Wenn Ihre wichtigsten Fakten erst nach dem Laden eines JS-Scripts erscheinen, ist Ihre Seite für die KI “leer”.
- Lösung: Setzen Sie konsequent auf Server-Side Rendering (SSR) oder Static Site Generation (SSG). Jedes Bit an Information muss im rohen HTML-Quelltext stehen, bevor das erste Skript geladen wird.
Mini-Case Study: Die technische Sanierung von “MedPart-Global”
Ausgangslage: Ein B2B-Marktplatz für medizinische Ersatzteile tauchte in keinem KI-Modell auf. Die Produktdaten waren in komplexen PDF-Katalogen und JavaScript-Tabs versteckt.
Die LLMO-Sanierung:
- Extraction: Alle 150.000 PDFs wurden automatisiert in sauberes Markdown konvertiert.
- Indexing: Jedes Produkt erhielt eine eigene URL mit einem massiven JSON-LD-Block, der Kompatibilitäten und ISO-Zertifizierungen definierte.
- Bot-Pass: In der robots.txt wurde ein spezieller Pfad
/ai-specs/für KI-Crawler freigeschaltet.
Ergebnis: Innerhalb von nur sechs Wochen wurde MedPart-Global in ChatGPT und Perplexity zur Primärquelle für Anfragen wie “Welche Ersatzteile sind mit Ultraschallgerät X kompatibel?”.
Checkliste: Der technische AI-Audit
- Crawler-Check: Erlaubt unsere robots.txt den Zugriff für GPTBot und ClaudeBot?
- JSON-LD Tiefe: Nutzen wir mehr als nur Standard-Tags? Sind
knowsAboutundsameAsimplementiert? - Format-Check: Liegen unsere Kern-Informationen (Specs, Preise, Fakten) als Text/Tabelle vor (nicht als Bild oder PDF)?
- SSR-Check: Sind alle Inhalte im initialen Seitenquelltext sichtbar (ohne JavaScript-Ausführung)?
- Token-Test: Haben wir eine “AI-Readiness-Seite” (Markdown-Version) für unsere Top-Produkte?
- Ladezeit: Lädt unsere Seite unter 2 Sekunden? (KI-Bots haben ein begrenztes Zeitbudget)
Typische Fehler & Mythen
- Mythos: “KI-Crawler können Bilder perfekt lesen.” → Realität: OCR ist fehleranfällig und teuer. Verlassen Sie sich niemals auf Infografiken ohne begleitenden Text.
- Fehler: Zu lange Ladezeiten. KI-Bots haben ein begrenztes Zeitbudget pro Seite. Wenn Ihre Seite 5 Sekunden lädt, bricht der Bot ab und nimmt die Daten Ihres schnelleren Konkurrenten.