Falls die Kosten für BigQuery-Daten ein Thema sind, das für Dich nicht relevant ist, dann brauchst Du diesen Artikel nicht zu lesen. Damit Du trotzdem was davon hast: Hier ein zur Headline passender Link. Wenn Du mit BigQuery arbeitest und die Kosten für Datenspeicherung für Dich eine relevante Frage sind, dann lies gerne weiter. Ansonsten viel Spaß mit dem Ohrwurm und scroll einfach zum nächsten Artikel!
Storage-Pricing Deep Dive
Für kleine Datensätze sind die Speicherkosten so gering, dass es kaum den Aufwand lohnt, sich darüber Gedanken zu machen. Selbst für große Properties sind es selten über 50€ im Monat. Mit dem richtig gewählten Abrechnungsmodell kannst Du die Speicherkosten allerdings nochmal um den Faktor zehn senken. Es sind nur die Speicherkosten, nicht die Query-Kosten, aber immerhin etwas.
Wenn Du kaum Speicherkosten hast, sind die Opportunitätskosten hier weiterzulesen vermutlich trotzdem höher, als die mögliche Einsparung – in dem Fall ist hier der Link von eben und auf Wiedersehen.
Wenn Du die Speicherkosten für Deinen BigQuery-Bulk-Export senken willst, wirf einen Blick auf die Abrechnungsmodelle nach Physical und Logical Storage! Default ist Logical, was natürlich in der Regel der teurere ist. Schließlich will Google Geld verdienen.
Laut Storage-Pricing-Tabelle für BigQuery ist der Preis für Physical-Abrechnung ungefähr das Doppelte pro (Gibi-)Byte. Das unterscheidet sich je nach Datencenter etwas, aber als grobe Faustregel kommt das hin. Außerdem muss gegebenenfalls Fail-Safe und Time-Travel Storage extra bezahlt werden (beides relevant, wenn Daten gelöscht oder geändert werden, aber idealerweise fummelt man an Bulk-Export-Daten nachträglich eh nicht rum).
Warum ist Physical trotzdem meistens günstiger?
Der Unterschied der Abrechnungsmodelle ist, ob die komprimierte (physische) Größe der Daten auf dem Datenträger oder die unkomprimierte (logische) Größe der Daten herangezogen wird. Das bezieht sich nur auf die Abrechnung und hat in der Benutzung sonst keinen Einfluss. Aber eben auf die Speicherkosten.
Hier ist ein Screenshot aus der BigQuery-Cloud-Console von den Storage Infos eines GSC-Bulk-Export Tables einer sehr kleinen Property (Die Storage Infos finden sich in der BQ-Cloud-Console => dataset auswählen => einen table auswählen => Details):
Wenn Du in den Screenshot guckst (oder die Storage-Infos Deiner BigQuery-Daten), wirst Du feststellen, dass die GSC-Bulk-Export Daten ziemlich gut komprimieren. In der Regel ist bei GSC-Bulk-Exports der physische Speicherbedarf 5-10 % des logischen Speichers. Das spart massiv, auch wenn pro Byte der doppelte Preis anfällt. Dazu kommt, dass die Free-10-GB sich auch auf das gewählte Abrechnungsmodell beziehen.
Wie gesagt, das Ganze hat keinerlei Auswirkung auf die Query-Kosten, aber es lohnt sich trotzdem einmal auf den Speicherbedarf Deiner BigQuery-Datasets, die Preise für das ausgewählte Datencenter und Deine Abrechnungseinstellungen zu gucken und je nach Ergebnis Dein Abrechnungsmodell umzuschalten.
Für das Beispiel aus dem Screenshot habe ich den Unterschied durchgerechnet:
Angenommen, die 10 GB for free wären anderweitig aufgebraucht, dann kommen wir von den bisherigen 0,008 $/Monat im Logical-Modell auf 0,001 $/Monat. Das sind 90 % weniger und übers Jahr fast 10 Cent. Für diese Tabelle wäre diese Umstellung der Abrechnung eine … sagen wir mal … eher langfristige Investition.
Aber wenn von den 10 GB noch etwas übrig ist, dann reicht das eben auch noch 10 mal so lange, bis sich irgendwer im Einkauf mit der Buchung von Centbeträgen rumschlagen muss.
Und wenn die 10 GB für Deine Properties nicht ausreichen, kannst Du auch den Zeitraum begrenzen, den Du BigQuery-Daten speichern willst. Beim Bulk-Export wird jeder Tag als eine “Partition” in BigQuery angelegt. Über die Partition Expiration kannst Du dafür sorgen, dass Daten älter als X Tage automatisch gelöscht werden. Damit lässt sich der Speicherbedarf einfach limitieren. Für einen kompletten Vorjahresvergleich würde ich Dir 25 Monate empfehlen, denn viel mehr rückwirkende Daten guckt kaum jemand an.
Falls Du, aus Sorge vor den Speicherkosten, bisher nicht mit BigQuery losgelegt hast, ist das für Dich vielleicht ein Anstoß, jetzt damit anzufangen. Dazu gibt es diese Anleitung zur Einrichtung des Bulk-Exports für Dich.