Zum Hauptinhalt springen

Für manche ist KNIME wahrscheinlich schon ein alter Hut. Dass aber noch nicht alle mit dem Tool vertraut sind, zeigt mir der geplante Vortrag auf der Campixx "Datenanalyse mit KNIME für Einsteiger". Falls Du auch schon immer mal mit KNIME arbeitet wolltest, aber nicht bis zur Campixx warten möchtest, dann habe ich hier eine Kurzanleitung für Dich:

Wann lohnt sich KNIME?

KNIME lohnt sich vor allem, wenn Deine Datenmengen für Google Spreadsheets oder Excel zu groß sind. Google Spreadsheets verweigert regelmäßig den Import. Excel öffnet die Dateien meistens, allerdings kann das auch schon mal eine Weile dauern. (Ich will auch nicht wissen, wie viel Zeit ich schon beim Warten auf Tabellenprogramme verschwendet habe...)

KNIME lohnt sich aber auch bei kleineren Datenmengen. Zum Beispiel, wenn Du die Inhalte zweier Tabellen miteinander zusammenführen möchtest. Der größte Vorteil von KNIME ist neben der Geschwindigkeit aber: Die Workflows sind wiederholbar. Du investierst einmal Zeit für die Entwicklung des Workflows. Danach kannst Du das aber immer wieder verwenden.

Ein Beispiel:

Angenommen, Du hast einen Screaming Frog Crawl und der zeigt Dir 241 interne Weiterleitungen. Für die Korrektur ist es hilfreich zu wissen, wo die Weiterleitungen verlinkt sind. Das CSV-Dokument, das Screaming Frog in meinem Beispiel ausgespuckt hat, war mit 216.774 Zeilen und 15 Spalten aber zu groß für Google Spreadsheets. Deswegen kommt jetzt KNIME ins Spiel.

Dein 1. KNIME-Projekt

Starte KNIME, lege einen neuen Workflow an und wähle die Node "CSV Reader" aus. Wenn Deine Datei mehr als 10.000 Zeilen hat, bekommst Du diesen Hinweis angezeigt: "The suggested column types are based on the first 10000 rows only."

Screenshot aus Settings der Node "CSV-Reader": The suggested column types are based on the first 10000 rows only. See "Advanced Settings" tab.

Damit Du nicht nur 10.000 Zeilen einliest, musst Du in den Advanced Settings bei "Limit data rows scanned" das Häkchen rausnehmen und alles mit "ok" bestätigen.

Node CSV-Reader, die Daten aus Screaming Frog enthält und deren Ampel auf gelb steht.

Wenn die Ampel Deiner Node nun gelb zeigt, kannst du über Rechtsklick + "Execute" die Node ausführen. Wechselt die Ampel auf grün, ist Deine Datei in KNIME. Bekommt die Ampel ein Ausrufezeichen, hast Du einen Fehler bei der Konfiguration gemacht.

Was Du jetzt aus den Daten machst, liegt ganz bei Dir. Ich persönlich finde folgende Nodes für Anfänger (aber auch generell) sehr geeignet, denn damit kannst Du meistens alles filtern, clustern, mit Zusatzinfos versehen etc.:

  • Row Filter: Hiermit kannst Du nach Kriterien innerhalb der Zeilen einer Spalte filtern.

  • Rule based Row Filter: Hiermit kannst Du nach mehreren Kriterien in mehreren Spalten gleichzeitig filtern.

  • Column Splitter: Teilt Deine Tabelle in die Spalten auf, die Du behalten möchtest und solche, die Du nicht mehr brauchst.

  • Joiner: Über den Joiner kannst Du Daten aus zwei Tabellen zusammenführen. Gibt es Daten, die in beiden Tabellen vorkommen, kannst Du diese direkt miteinander matchen.

  • Concatenate: Mit dieser Node kannst Du beliebig viele Datensätze zusammenführen. Anders als beim Joiner kannst du die Datensätze allerdings nicht direkt anhand übereinstimmender Daten zusammenführen.

  • Constant Value Column: Diese Node ergänzt eine Spalte mit einer beliebigen Info. Hast Du vorher Parameter-URLs gefiltert, kannst Du zum Beispiel eine Spalte mit dem Namen "Parameter-URL" und dem Wert 1 ("Number (integer)" und nicht "String" auswählen) hinzufügen.

Aus den 216.774 Zeilen und 15 Spalten des Screaming-Frog-Exportes kannst Du mit dem Column Splitter zum Beispiel alle Spalten, die Dich nicht interessieren. Wenn Du zusätzlich die Zeilenanzahl reduzieren möchtest, kannst Du mit einem der Row-Filter zum Beispiel auch nach einzelnen Verzeichnissen filtern.

Um die Daten dann aus KNIME wieder herauszubekommen, gibt es Export-Nodes, zum Beispiel: Excel Writer, CSV Writer oder Google Sheets Writer.

Falls Du jetzt Dein Einsteigerwissen auf das Advanced-Level heben möchtest, habe ich hier ein paar Leseempfehlungen aus unserem Newsletter für Dich:

Du hast Fragen zum Artikel, zum Thema oder brauchst einen Tipp für Deine nächsten Schritte? Hier kannst Du Dir einen unverbindlichen Termin in meinem Kalender buchen. Ich freue mich auf Dich!
15-Minuten-Termin mit Sandra reservieren
Das ist ein Artikel aus unserem Newsletter. Wenn Du jeden Dienstag Morgen schlauer werden möchtest, melde jetzt kostenfrei für den SEO-Newsletter an

Kurze, praxisnahe SEO-Tipps – maximal 1× pro Woche. Keine Werbung, kein Spam.

Deine Daten sind bei uns in guten Händen und werden ausschließlich für diesen Newsletter genutzt.