sitemap-tracker
Crawlt Websites, generiert standardkonforme sitemap.xml Dateien — und trackt tote Links, Last-Modified-Dates und SEO-Probleme direkt im Terminal.
Ein vollwertiger Website-Crawler mit interaktiver Terminal-Oberfläche.
httpx für schnelles HTML-Crawling oder Playwright für JavaScript-Rendering — je nach Bedarf wechselbar.
Interaktive Terminal-Oberfläche mit Echtzeit-Fortschritt, URL-Tabelle, Statistiken und Tastenkürzel.
Hierarchische Baumansicht aller gecrawlten URLs mit HTTP-Status — eingebettet als Tab neben der Ergebnis-Tabelle, der Tabellen-Filter wirkt auf den Baum mit.
Respektiert standardmäßig die robots.txt — mit Option zum Deaktivieren für autorisierte Analysen.
Findet 404er und andere HTTP-Fehler automatisch beim Crawlen — inklusive der Quellseite, die den toten Link enthält.
Exportiert gefundene Fehler als JSON-Report oder JIRA-kompatible Tabelle — direkt in die Zwischenablage oder als Datei.
Anpassbare Farbthemen über textual-themes — die TUI-Oberfläche lässt sich visuell individualisieren.
Bei über 50.000 URLs automatisch Sitemap-Index mit Teil-Sitemaps. Priority und lastmod werden automatisch gesetzt.
Erkennt <form>-Tags auf jeder Seite, markiert sie in der Tabelle und exportiert sie als JSON.
Pro ausgewählter Seite: erkannter Tech-Stack (CMS, Frameworks, Server-Software), SEO-/Meta-Daten und HTTP-Header — übersichtlich in Panels gruppiert.
Markiert typische Schwachstellen pro Seite: HTTP-Fehler, fehlende SEO-Elemente, fehlende Mobil-Optimierung, langsame oder zu große Seiten.
Optionaler Screenshot der ausgewählten Seite, direkt im Terminal gerendert (Kitty-Grafik/Sixel mit Half-Block-Fallback) — abschaltbar in den Einstellungen.
Zu jedem Tastenkürzel erscheint beim Hovern ein ausführlicher Tooltip — auch zu den kryptischen wie JIRA-Tabelle, Sitemap-Diff oder Formular-Report.
Vergangene Crawls mit Datum, URL, Parametern und finalen Statistiken (gecrawlt / 200er / Fehler) — wieder aufrufbar und übernehmbar; Datum im Format der UI-Sprache.
Klick auf eine Spaltenüberschrift sortiert die Tabelle (Status, HTTP, Tiefe, Größe, Datum, URL …). Zweiter Klick kehrt die Richtung um, die aktive Spalte bekommt einen ▲/▼-Pfeil.
URLs im Log, Header und Detail-Panel öffnen mit einem einzelnen Klick ohne festgehaltenes Strg — mit Hover-Highlight. Lokale Ergebnisdateien (sitemap.xml, JSON-Reports) öffnen sich im OS-Standardprogramm.
Das Last-Modified-Datum und die Seitengröße stehen als eigene Spalten neben der URL — sortierbar, um z.B. die ältesten oder größten Seiten auf einen Blick zu finden.
Bei jeder 4xx/5xx-Seite öffnet sich auf Klick der HTML-Quelltext der verweisenden Seite — Pygments-eingefärbt, die Zeile mit dem defekten Link in warmem Gold hervorgehoben. Drei Aktions-Buttons: Im Browser öffnen, paste-fertiges Snippet kopieren, HTML als Beweisstück speichern.
Rechtsklick auf eine Ergebnis-Zeile öffnet die fünf Bulk-Aktionen (Nur-Fehler-Toggle, Sitemap/XML, Fehler-JSON, JIRA-Tabelle, Formular-Report). Bei 4xx/5xx-Zeilen zusätzlich ein direkter Einstieg in den Quelltext-Viewer.
Die Technologien hinter dem Projekt.
Alle Optionen für die Kommandozeile.
| Parameter | Beschreibung | Default |
|---|---|---|
URL |
Start-URL der Website | — |
--output -o |
Ausgabe-Pfad für sitemap.xml | sitemap_<host>.xml |
--max-depth -d |
Maximale Crawl-Tiefe | 10 |
--concurrency -c |
Parallele Requests | 8 |
--timeout -t |
Timeout pro Seite (Sekunden) | 30 |
--render |
JavaScript mit Playwright rendern | aus |
--ignore-robots |
robots.txt ignorieren | aus |
--cookie |
Cookie setzen (NAME=VALUE, mehrfach) | — |
One-Liner Installation — kein Python nötig.