# robots.txt — https://app.gewerbecheck.at/ # # Policy: # - All crawlers allowed on all content (no gated paywall, no personal data). # - Sitemap declared für die schrittweise freigegebenen Pages. # Slow-Push via src/utils/release-gate.ts verhindert Google # "thin-content KI-only" Algorithmic-Penalty. # - Full page pool: 20 niche parents + 20×8 Bundesland + 20×23 Wien-PLZ # + 10 NUTS2 + 11 static (incl /methodik/ + /sitemap/) + 23 # Wien-Bezirks-Hubs = 674 Pages. # - Indexierungs-Phasen nach launch_date=2026-05-01 (src/data/release-schedule.json): # Tag 0: 9 Static + Friseur (~10 URLs) # Tag 38: +20 Niche-Parents (~29 URLs) # Tag 70: +10 Region-Hubs (~36 URLs) # Tag 120: +160 Bundesland-Detail (~196 URLs) # Tag 180: +460 Wien-PLZ-Detail (674 URLs voll) # - Noindex'd Pages senden # auf der Page selbst. Robots.txt blockt kein Crawling — wir WOLLEN dass # Google die Pages crawlt und den noindex-tag liest. Zwei unterschiedliche # Signale: robots.txt=crawl-ok, meta=don't-index-yet. # - Disallow 404.html, damit die 404-Seite selbst nicht indexiert wird. User-agent: * Allow: / Disallow: /404.html # IndexNow key-file ist reiner Key-String (kein content), soll nicht als # Search-result erscheinen. Disallow: /4b5875bfb6f255c941c7513d6ef40b14.txt # ============================================================= # AI / LLM Crawlers — GEO (Generative Engine Optimization) 2026 # ============================================================= # Wir erlauben explizit AI-Crawler, damit unsere Markt-Daten in # ChatGPT/Claude/Gemini/Perplexity-Antworten auftauchen (mit # proper citation). Für strukturierten Kontext: /llms.txt. # # Begründung: # - Zero paywall, zero-sensitive-data → no reason to block # - Unser Content ist bereits CC-BY 4.0 attribution-required # - AI-Traffic ist potenzieller Lead-Strom pre-launch User-agent: GPTBot Allow: / Disallow: /404.html Disallow: /4b5875bfb6f255c941c7513d6ef40b14.txt User-agent: ChatGPT-User Allow: / Disallow: /404.html User-agent: OAI-SearchBot Allow: / Disallow: /404.html User-agent: ClaudeBot Allow: / Disallow: /404.html Disallow: /4b5875bfb6f255c941c7513d6ef40b14.txt User-agent: Claude-Web Allow: / User-agent: anthropic-ai Allow: / User-agent: PerplexityBot Allow: / Disallow: /404.html User-agent: Perplexity-User Allow: / User-agent: Google-Extended Allow: / Disallow: /404.html User-agent: Applebot-Extended Allow: / User-agent: CCBot Allow: / Disallow: /404.html User-agent: Bytespider Allow: / User-agent: Meta-ExternalAgent Allow: / User-agent: FacebookBot Allow: / User-agent: Amazonbot Allow: / # Reference to machine-readable context index # (siehe llmstxt.org) # Nicht-standard directive, aber wachsende Adoption: Sitemap: https://app.gewerbecheck.at/sitemap.xml