Zum Hauptinhalt springen
Junior Consultant

Du hast unzählige CSVs und möchtest alle zu einer Tabelle machen. Richtig ätzend, wenn man nicht weiß wie. Vor allem, wenn man das häufig machen muss.

Ich saß auch im Boot und habe am Anfang umständige Wege gewählt, wie z. B. die Dateien in Sheets oder Excel zu importieren und nacheinander zusammenzukopieren.

Kostet Zeit und ist ein typischer Case für sinnvolle Automatisierung, um die gewonnene Zeit für wertvolle(re) Dinge zu nutzen.

Aus meiner Sicht gibt es 3 vernünftige Wege, viele CSVs miteinander zu verschmelzen. Mindestens ein SEO wird sagen “Habe einen vierten Weg, mach’ doch einfach mit KI”.

Nein, nein, nein, lass das sein.

  1. Dauert das meistens länger,
  2. einige KIs haben Limits bei Dateigrößen und
  3. der Output könnte falsch sein.

Viel Spaß bei der Prüfung von hunderten Dateien, die viele Gigabyte groß sind und Millionen an Zeilen haben.

Die 3 (vernünftigen) Wege sind:

  1. Python
  2. Knime
  3. Terminal/Command

Bei diesen kannst Du Dir sicher sein, dass Du bei einem korrekten Workflow immer valide und wiederholbare Ergebnisse hast.

Mit der Schlange CSVs verschlingen und zusammenwürgen

Python schreiben kann ich nicht. Den Code verstehe ich aber meistens. Wenn ich mal nicht weiterkomme, habe ich kluge Wingmenschen, die Python im Schlaf schreiben können. Ob Gus Pelogia Python selbst schreiben kann, weiß ich nicht. Er kann auf jeden Fall ChatGPT bedienen und hat ein Google Colab Skript für CSVs zusammenschnüren gebaut.

“Aber Du hast doch gesagt, ich soll keine KI benutzen?” – ja, nicht um die CSVs zusammenzubauen. Aber für einfache Python-Sachen taugt die KI. In einigen Fällen auch, wenn Dein Skript mal einen Fehler auswirft und Du Troubleshooting betreiben musst.

Das Skript von Gus ist sehr simpel und funktioniert so:

  1. Die notwendigen Libraries importieren,
  2. den richtigen Dateipfad für die CSVs angeben,
  3. alles aneinander kleistern und
  4. als neue, gebündelte CSV abspeichern.

Einfach, aber funktioniert mit dem bereitgestellten Skript nur in Google Drive. Alternativ könnte man diese Funktion, es lokal hochzuladen oder herunterzuladen, natürlich im Skript ergänzen.

Knime – das Datenmanipulationstaschenmesser

Der zweite Weg ist über Knime. Lass Dich von Knime nicht abschrecken. Es ist genial und hilft mir inzwischen jeden Tag, auch riesige Datenmengen zu schubsen und zurechtzuschneiden. Auch 100 Millionen interne Links verarbeiten ist kein Problem – es dauert nur länger.

Du brauchst 2 Nodes, um CSVs zusammen flicken zu können:

  1. CSV Reader
  2. CSV Writer

Im Reader gibst Du an, dass Du “Files in Folder” laden möchtest und in welchem Ordner die Dateien liegen.

Ein Screenshot aus Knime im CSV Reader Node. Markiert ist das Feld "Files in Folder" und die Folder-Adresszeile, in der man den Ordner auswählt, in dem die CSVs liegen. Im Writer gibst Du den Speicherort an. Alternativ, auch das geht, kannst Du Knime mit Google Sheets verbinden und die gebündelten CSVs direkt in ein Sheet schieben.

Optional: Im Advanced Tab kannst Du zusätzlich an die CSV malen, aus welcher ursprünglichen Datei die Reihe kommt.

Ein Screenshot aus dem CSV Reader Node. Der Advanced Tab ist ausgewählt und unter Path Column im unteren Bildbereich ist "Append path column" angehakt, sodass der Output die Pfadangabe enthält.

Wenn Du diesen optionalen Weg wählst, musst Du noch einen Path to String Node verwenden, um die Datei als CSV speichern zu können.

Wenn Du mehr zu Knime erfahren möchtest, hast Du hier hervorragenden Lesestoff:

P.S. Ja, ich habe die alte Benutzeroberfläche noch aktiviert. Sieht altbackener aus, aber habe mich daran gewöhnt. Lass’ mich! :D

Dein OS kann auch CSVs rumkommandieren

Über Python reden die meisten SEOs.

Über Knime sprechen weniger SEOS.

Fast keine SEOs kennen das Terminal.

Um CSVs mit dem Terminal bzw. Command bei Windows zu verketten kannst Du folgende Anleitung nutzen:

  1. Öffne das Terminal/Command.
  2. Tippe pwd ein, um zu wissen, wo das Terminal/Command gerade ist (optional).
  3. Mit cd \[Dateipfad\] kannst Du zu dem Ordner navigieren, in dem die CSVs liegen (z. B. auf dem Schreibtisch unter /CSVs, dann würde der Befehl cd /Users/\[Dein Benutzername\]/Desktop/CSVs heißen.
  4. Mit cat (für concatenate) kann man die Dateien dann verketten. Der Befehl würde cat \*.csv >  \[Dateiname\].csv heißen – mit dem > und dem folgenden Dateinamen gibst Du an, wie die neue verkettete Datei heißen soll. Das Sternchen vor .csv sagt, dass alle CSV-Dateien im Ordner berücksichtigt werden.

Eine Sache von Sekunden:

Das Mac Terminal mit ein paar Eingaben. wngmn_pg@Philipps-MacBook-Pro ~ % pwd
/Users/wngmn_pg
wngmn_pg@Philipps-MacBook-Pro ~ % cd /Users/wngmn_pg/Desktop/CSVs
wngmn_pg@Philipps-MacBook-Pro CSVs % cat *.csv > verkettete.csv
wngmn_pg@Philipps-MacBook-Pro CSVs %. Als Resultat sieht man darunter den Ordner CSVs, in dem die verkettete.csv-Datei abliegt.

Falls Du verhindern möchtest, dass die Zeile mit den Überschriften wiederholt wird, kannst Du:

  • Mit \cat verkettete.csv | uniq -u > unique\\_verkettete.csv\\ doppelte Zeilen entfernen. Das ist einfach, aber unter Umständen hast Du auch an anderer Stelle doppelte Zeilen. Beim Sortieren kann es außerdem passieren, dass der Header nicht mehr oben auftaucht, sondern mittendrin steht.
  • Erst den Header einfügen und dann alle Zeilen nach dem Header. Etwas mehr Tippaufwand, aber wenn man das mehrmals in die Tasten gehämmert hat, geht es auch schnell von der Hand.

Einfach, aber Du musst Dir

  • die Befehle merken können,
  • ein Cheat Sheet erstellen,
  • danach suchen oder
  • diesen Artikel als Lesezeichen speichern.

Wenn Du mehr über Dateimanipulation mit dem Terminal/Command wissen möchtet: Command Line Hacks for SEO von Tom Pool

Es gibt mehrere Wege, die nach Rom zur Verkettung von CSVs führen

Der für mich angenehmste Weg ist Knime, weil ich das ohnehin für alles mögliche verwende. Ich möchte aber auch noch mehr mit dem Terminal rumspielen und mir Python mehr aneignen.

Aber egal welchen Weg Du wählst: Sie alle führen Dich ans Ziel und sind mit 100 % Sicherheit wiederholbar und sparen Dir Zeit.

Kann sein, dass eine der KIs das kann. Ich teste immer mal wieder herum und stelle jedes Mal fest, dass es weiterhin an Wiederholbarkeit mangelt – ein Merkmal, das mir bei Produkten sehr wichtig ist, da es für Qualität steht.

Wenn Du noch mehr Zeit sparen möchtest oder produktiver sein willst, dann schau mal hier rein:

Florian hat in dieser Ausgabe auch was zu Suchoperatoren geschrieben.

Was sind Deine Tipps und Tricks zur Produktivität, die Dir im Alltag helfen, schneller zu arbeiten?

Junior Consultant

Das ist ein Artikel aus unserem Newsletter. Wenn Du jeden Dienstag Morgen schlauer werden möchtest, melde jetzt kostenfrei für den SEO-Newsletter an

Kurze, praxisnahe SEO-Tipps – maximal 1× pro Woche. Keine Werbung, kein Spam.

Deine Daten sind bei uns in guten Händen und werden ausschließlich für diesen Newsletter genutzt.