Reguläre Ausdrücke (kurz Regex) sind immer mal wieder Thema in unserem Newsletter und in unserer Arbeit für unsere Kunden kaum wegzudenken. Unsere Trainees lernen bereits in den ersten 3 Monaten spielerisch erste Schritte im Umgang mit dieser großartigen Form des komplexen Suchen und Ersetzens. Spätestens beim Konfigurieren von Custom Extracts für den Crawler oder bei Logfile-Analysen ist dieses KnowHow sehr wertvoll. Jedes Mal wenn ich Regex anwende denke ich "Hättste das mal schon in der Schule gekonnt". So sehr erleichtert es die Arbeit.
Wie bei so vielem schlauen Zeugs muss man es jedoch regelmäßig anwenden, um einigermassen flüssig einen regulären Ausdruck zu basteln. Zwar gibt es großartige Cheat Cheets, die man sich gut und gerne einlaminieren und unters Keyboard legen kann. Jedoch gelingen richtig gute und vor allem auch bei großen Dokumenten performante Ausdrücke nur mit Übung. Manchmal führen 2 kleine Schritte nacheinander schneller zum Ziel als ein grob verschachtelter Ausdruck. Manchmal aber eben auch andersherum: egal wie lange der Ausdruck zur Berechnung braucht, es muss alles in eine Anfrage gepackt werden, um zum Beispiel API-Credits zu sparen.
Hier hilft nur Erfahrung aus X-Mal die Rechnerkapazitäten zum Anschlag bringen und die regulären Ausdrücke neu zu denken.
Eine echte Hilfe, insbesondere für Einsteiger und Gelegenheitsregexer, hat Malte diese Woche aufgetan. Keine Sorge, ich meine nicht seine schick sortierte Sockenschublade samt Samt-Lavendel-Sack, sondern seinen Hinweis auf Autoregex. Mit diesem Tool lässt sich mittels GPT-3 Language-Processing ein regulärer Ausdruck auf Basis von einfachem Englisch erstellen und umgekehrt. Sehr genial!