Mit diesen Worten beschreibt Google seine auf der Google I/O vorgestellte Technologie MUM, kurz für Multitask Unified Model. Während Google selbst den Vergleich zu BERT (Bidirectional Encoder Representations from Transformers) zur Veranschaulichung des eigenen Potentials nutzt, ist MUM nicht nur ein verbessertes BERT-Modell. In einem Gespräch mit SearchEngineLand hat Pandu Nayak über die Pläne und Möglichkeiten von MUM gesprochen.
Was unterscheidet MUM von BERT?
Die Unterschiede beginnen bereits am Fundament. So verwendet MUM eine grundlegend andere Architektur, die Google Text-To-Text Transfer Transformer (T5) nennt. Für dieses Modell wurde wiederum ein eigenes Datenset für das Training entwickelt, der Colossal Clean Crawled Corpus (C4). Beachtenswert ist, dass es sich dabei nicht um ein ungefiltertes Datenset handelt.
Mit T5 kann Google verschiedene NLP-Aufgaben (Natural Language Processing) lösen, bei dem In- und Output immer Text Strings sind, wogegen BERT hier deutlichen Einschränkungen unterliegt. Was T5 schon alles gelernt hat? In diesem Quiz kannst Du gegen es antreten.
Durch diese grundverschiedenen Startvoraussetzungen ist MUM um einiges mächtiger als BERT:
- Ermöglicht paralleles Training in 75 Sprachen. Dadurch können Learnings von Sprachen mit mehr Content übertragen werden auf Sprachen mit weniger Content.
- Learnings können nicht nur aus Text, sondern auch aus Bildern/Videos gewonnen werden
- Anwendungsmöglichkeiten weit jenseits Relevanzbestimmung in der Suche vielseitigere Anwendbarkeit
Wohin geht es mit MUM?
Langfristig verspricht sich Google ein wesentlich verbessertes Verständnis von Sprache, beziehungsweise allen Sprachen. Einen ersten Geschmack von Ergebnissen unter der Hinzunahme von MUM liefert Google bei den COVID-19-Impfstoffen. Hier soll MUM in wenigen Sekunden 800 unterschiedliche Bezeichnungen in 50 Sprachen identifiziert haben.
Das bessere Verständnis von Sprache sollte insbesondere zu besseren Ergebnissen bei Longtail Queries führen. Laut Pandu Nayak soll es in Zukunft außerdem möglich sein, zum Beispiel ein Bild in der Suche hochzuladen und Anfragen zu diesem Bild zu formulieren. Eine Timeline dafür konnte er natürlich nicht verraten.
Im Gespräch wurde aber oft betont, dass MUM keine Entwicklung speziell für die Suche ist, sondern eine “Plattform”, die intern an unterschiedlichsten Stellen genutzt werden soll und an einigen bereits (wenn auch experimentell) genutzt wird. Intern scheint man voll hinter dieser Technologie zu stehen.
Das drückt sich auch darin aus, dass Nayak etwaige Kritikpunkte an der Entwicklung bereits im Vorfeld abzuschwächen versucht, so zum Beispiel Umweltsorgen hinsichtlich der Emissionen großer neuronaler Netze oder antrainierte Voreingenommenheiten. Am spannendsten ist aber sicherlich die Bemerkung, dass MUM selbst keine Fragen beantworten soll. Damit wird die Befürchtung aufgegriffen, dass Google bestimmte Inhalte wie zum Beispiel die eigenen bevorzugen könnte.
Und was machen wir jetzt?
Genau dasselbe, wie jeden Abend. Wir versuchen, die Weltherrschaft... - Moment. Nicht ganz. Aber unsere Reaktion fällt ähnlich zu anderen Entwicklungen in der Welt des SEO aus. Wir sollten uns die Fragen stellen:
Welche Auswirkung könnte diese Entwicklung auf das Suchverhalten der Nutzer haben? Gibt es darauf eine geeignete Reaktion? Welche neuen Möglichkeiten bieten sich uns?
Sollten die beschriebenen Möglichkeiten real werden, werden Suchanfragen mit der Möglichkeit Text und ein Medium wie Video oder Bild zu verbinden eine völlig neue Dimension gewinnen. Abgesehen von der Auswertungsfrage (Behrend kann schon mal GSC-Rants vorbereiten) wird der Longtail vermutlich noch diverser werden.
Schon jetzt besteht ein signifikanter Teil der täglichen Queries an Google aus Anfragen, die die Suchmaschine zum ersten Mal in dieser Form bekommt. Das wird sich durch die Möglichkeiten von MUM in der Suche voraussichtlich noch verstärken, der Longtail wird unübersichtlicher.
Umso wichtiger wird es sein, bei der Erstellung von Content die Nutzerintention und einen Schritt weiter die Problemsituation des Nutzers zu bedenken. Hochwertiger Content, insbesondere in Gestalt von Bildern und Videos, unterfüttert mit hilfreichen Umgebungsdaten, könnten einen noch größeren Stellenwert einnehmen.
Abgesehen von der Suche selbst wurde stark betont, dass MUM von unterschiedlichsten Teams intern bei Google genutzt werden soll. Es könnte also sein, dass sich in ganz anderen Bereichen bemerkenswerte Fortschritte einstellen. Womöglich führt das verbesserte Sprachverständnis zu einer effektiveren Spam-Erkennung, insbesondere in Sprachen wo das bisher schwer war.
Um die Entwicklungen einschätzen zu können, bleiben wir jedenfalls bei MUM am Ball. Es verspricht spannend zu bleiben.