sitemap-generator
Crawlt Websites und generiert standardkonforme sitemap.xml Dateien — mit Live-TUI, Seitenbaum und Crawl-History direkt im Terminal.
Ein vollwertiger Website-Crawler mit interaktiver Terminal-Oberfläche.
httpx für schnelles HTML-Crawling oder Playwright für JavaScript-Rendering — je nach Bedarf wechselbar.
Interaktive Terminal-Oberfläche mit Echtzeit-Fortschritt, URL-Tabelle, Statistiken und Tastenkürzel.
Hierarchische Baumansicht aller gecrawlten URLs — mit HTTP-Status und aufklappbaren Pfaden.
Respektiert standardmäßig die robots.txt — mit Option zum Deaktivieren für autorisierte Analysen.
Findet 404er und andere HTTP-Fehler automatisch beim Crawlen — inklusive der Quellseite, die den toten Link enthält.
Exportiert gefundene Fehler als JSON-Report oder JIRA-kompatible Tabelle — direkt in die Zwischenablage oder als Datei.
Anpassbare Farbthemen über textual-themes — die TUI-Oberfläche lässt sich visuell individualisieren.
Bei über 50.000 URLs automatisch Sitemap-Index mit Teil-Sitemaps. Priority und lastmod werden automatisch gesetzt.
Erkennt <form>-Tags auf jeder Seite, markiert sie in der Tabelle und exportiert sie als JSON.
Die Technologien hinter dem Projekt.
Alle Optionen für die Kommandozeile.
| Parameter | Beschreibung | Default |
|---|---|---|
URL |
Start-URL der Website | — |
--output -o |
Ausgabe-Pfad für sitemap.xml | sitemap_<host>.xml |
--max-depth -d |
Maximale Crawl-Tiefe | 10 |
--concurrency -c |
Parallele Requests | 8 |
--timeout -t |
Timeout pro Seite (Sekunden) | 30 |
--render |
JavaScript mit Playwright rendern | aus |
--ignore-robots |
robots.txt ignorieren | aus |
--cookie |
Cookie setzen (NAME=VALUE, mehrfach) | — |
One-Liner Installation — kein Python nötig.