Blog

Wertvolle Impulse für deinen Online Shop

A/B-Tests über Umsatz: Eigentlich ganz einfach, oder?

2. Dezember 2014

Tessali Lacker

Technologie

Unser Data Scientist Steffen beschäftigt sich tagtäglich mit A/B-Tests und den Herausforderungen und Fragen die deren Auswertungen aufwerfen. Nun hat er sich die Zeit genommen einen amüsanten Beitrag für unseren Blog zu schreiben und sein Wissen zu teilen. Er schreibt über die Bedeutung von Conversion Rate und Umsatz und zeigt drei Stolpersteine auf, die einem bei der Interpretation des Umsatzes begegnen. Gleich vorweg: Es benötigt kein Expertenwissen um diesen Beitrag zu verstehen. Vielen Dank, Steffen! Und Ihnen wünschen wir viel Spaß beim Lesen.

Worum geht es in diesem Beitrag?

Um A/B-Tests basierend auf Umsatzzahlen. Wir betrachten Stolpersteine und diskutieren, welche Zahlen man sich am Besten anschaut. Denn: Umsatz ist nicht gleich Umsatz.

Dabei klären wir folgende Fragen/Punkte:


 

Warum sollten Sie diesen Beitrag lesen?

In kurz …

Sollten Sie jemals daran gedacht haben, Veränderungen auf Ihrer Webseite hinsichtlich des dadurch generierten Umsatzes zu beurteilen, dann ist dieser Artikel für Sie.

Benutzen Sie hingegen Zahlen nur als schmückendes Beiwerk, weil die anstehenden Entscheidungen aufgrund anderer Kriterien getroffen werden, dann wird Sie dieser Artikel eher langweilen.

Und in lang …

Um die Qualität einer Webseite quantitativ zu beurteilen und Entscheidungen zu treffen, schauen wir auf Zahlen. Diese nennen wir KPIs (Key-Performance-Indicator) oder Business-Metriken.

Leider können uns Zahlen auch trügen… Denn das Entdecken von Mustern oder das Verbinden von Ursache und Wirkung liegt mehr in unserer Natur, als das Erkennen von Zufällen. Sicher kommen Ihnen einige der folgenden Beispiele bekannt vor:

  • Kommt der Zug immer zu spät, wenn Sie es besonders eilig haben? Oder fällt es Ihnen an den anderen Tagen einfach nicht auf?
  • Ist die Kombination von Lottozahlen, die häufiger zu einem Gewinn geführt hat, tatsächlich erfolgreicher als die anderen? Obwohl die Lottokugel fair sein soll?
  • Hat die Optimierung der Checkout-Seite am Freitag tatsächlich die Verkäufe am Wochenende erhöht? Oder liegt es einfach daran, dass Wochenende ist und Sie an diesen Tagen immer mehr verkaufen als unter der Woche?

Besonders bei Umsatzzahlen ist die Gefahr groß „Opfer“ des eigenen Bauchgefühls zu werden. Denn Umsatzwerte streuen viel mehr, als es zum Beispiel eine Klickrate tut – entweder Sie haben einen Klick oder eben nicht. Um also die Verlässlichkeit von Zahlen zu erhöhen, müssen wir dem allzu menschlichen Bauchgefühl etwas entgegensetzen. Hier hilft die Statistik. Sie ist zwar langweilig, aber sie ist notwendig.

Am Rande: Wenn Sie sich etwas mit A/B-Tests auskennen und glauben, dass Sie zu den Menschen gehören, die Zufälle von Mustern gut unterscheiden können, dann empfehle ich Ihnen dieses lustige A/B-Test-Spiel von Lukas Vermeer. Unser Firmen-Bester schafft 6 Punkte bei 6 Entscheidungen. Probieren Sie es doch mal aus und twittern Sie uns Ihr Ergebnis an @epoqIS.

 

Warum Umsatz und nicht Conversion Rate?

A/B-Tests sind mittlerweile ein allgemein akzeptiertes Verfahren um zu testen, ob Veränderungen im Webshop tatsächlich eine Verbesserung bezogen auf vorher festgelegte KPIs bewirken.

Die üblicherweise überall im Internet diskutierte KPI ist die Conversion-Rate. Diese hat den Vorteil, dass man sie recht einfach ermitteln kann. Zum Beispiel durch das Zählen der Besuche im Webshop und der Besuche im Webshop, die mit einem Kauf abgeschlossen werden. Das Problem mit der Conversion Rate ist jedoch, dass sie zwar die Anzahl der Käufe messen kann, aber nichts über den damit erzielten Umsatz aussagt. Das ist insofern unbefriedigend, als dass der erzielte Umsatz letztendlich die entscheidende Größe ist.

Ist Ihr einziges Ziel die Steigerung der Conversion-Rate? Dann empfehle ich Ihnen einfach mal die Preise zu senken. Ob dies unter dem Strich jedoch immer noch positiv ist, ist eine andere Frage.

Fest steht also: Der Umsatz muss in einem A/B-Test einbezogen werden. Um den Umsatz zu messen, gibt es verschiedene Ansätze:

  • Gesamtumsatz: Summe über die erzielten Umsätze
  • Durchschnittlicher Warenkorb-Wert: Summe über die erzielten Umsätze geteilt durch die Anzahl der gekauften Warenkörbe
  • Umsatz pro Besuch: Summe über die erzielten Umsätze geteilt durch die Anzahl der Shopbesuche

 

Stolpersteine

Im Folgenden möchte ich Ihnen anhand von Beispielen gerne drei Stolpersteine bei der Interpretation von Umsätzen aufzeigen. Aus Datenschutzgründen sind die folgenden Beispiele alle fiktiv, aber realen, d.h. mit und bei epoq durchgeführten Tests, nachempfunden. Am Ende beantworte ich Ihnen auch die Frage, welche der oben genannten Umsatz-Kennzahlen sich denn nun am besten für A/B-Tests eignet.

Stolperstein 1: Fata Morgana Tendenz(ia)

Hier sehen Sie einen Graph mit den Zahlen der ersten 5 Tage eines A/B-Tests. Angezeigt wird der durchschnittliche Warenkorb-Wert pro Tag. Die Anzahl der verkauften Warenkörbe in Gruppe A und B ist gleich:

 

 

 

Sieht ziemlich eindeutig aus. Am 5. Tag ist Gruppe B mit der grünen Linie bereits um 4.6 % besser als Gruppe A mit der blauen Linie. Damit könnte man den Test eigentlich schon abschalten, oder?

Tatsächlich geht der Test aber wie folgt weiter …

 

 

 

Nach 30 Tagen ist Gruppe A mit der grünen Linie um fast 10 % besser!

Doch was ist hier passiert? Es handelt sich um einen zufällig auftretenden statistischen Effekt. Selbst wenn eine Gruppe im Mittel besser ist als eine andere, können doch einzelne Warenkorb-Werte auftreten, die die andere Gruppe kurzfristig besser aussehen lassen. Wie zu Beginn bereits geschrieben, sind wir Menschen besser darin Muster zu erkennen, als Zufälle. Wir führen die Kurve im Kopf einfach fort. Tatsächlich aber ist es gar nicht so selten, dass die Gewinner-Gruppe zu Beginn des Tests hinten liegt.

 

Stolperstein 2: Glück oder Können – Ausreißer

Hier eine Tabelle, die den aktuellen Stand eines A/B-Tests bezüglich der KPI „Durchschnittlicher Warenkorb-Wert“ anzeigt:

 

Gruppe

Durchschnittlicher Warenkorb-Wert

Anzahl verkaufter Warenkörbe

A

203.19 €

150

B

190.12 €

150

 

Gruppe A ist damit fast 7 % besser als B. Das sieht wieder ziemlich eindeutig aus. Also A/B-Test abschalten?

Nein, auch hier gibt es einen Stolperstein. Diesen sieht man allerdings erst, wenn man sich die einzelnen Warenkörbe bzw. die Verteilung der Warenkorb-Werte in beiden Gruppen anschaut:

 

 

 

Für diesen Graph reicht es Folgendes zu verstehen: Je höher die Kurve ist, desto mehr Warenkörbe wurden zum Wert auf der horizontalen x-Achse verkauft.

Die Warenkorb-Werte bei Gruppe A und Gruppe B treten nahezu gleich häufig auf. Sehen Sie jedoch den kleinen blauen Hügel auf der rechten Seite? Dieser repräsentiert einen Warenkorb-Wert von 2000 € und bildet damit eine Ausnahme.

Ist dieser Wert dafür verantwortlich, dass Gruppe A besser als Gruppe B abschneidet? Probieren wir es doch aus und tauschen die Maximalwerte bei beiden Gruppen einfach aus. Gruppe B bekommt den 2000 € Warenkorb und Gruppe A dafür den größten Warenkorb aus Gruppe B in Höhe von rund 779 €.

Damit sieht obige Tabelle nun so aus:

 

Gruppe

Durchschnittlicher Warenkorb-Wert

Anzahl verkaufter Warenkörbe

A

190,38 €

150

B

202,92 €

150

 

Gruppe B ist 6.5 % besser als Gruppe A. Das Bild hat sich komplett gedreht! Der Extremwert alleine entscheidet, welche Gruppe der „Sieger“ ist. In der Statistik bezeichnet man solche Extremwerte als Ausreißer.

Aber was bedeutet das für uns? In unserem Fall könnte hinter dem Ausreißer zum Beispiel eine Kundin stehen, welche einmal pro Saison alles kauft, was ihr in der aktuellen Kollektion gefällt. Diese Kundin ist ein – wenn auch für den Händler schöner – Einzelfall. Sie ist in den aktuell laufenden A/B-Test „reingeplatzt“ und wurde zufällig Gruppe A zugeteilt. Das sagt jedoch nichts darüber aus, ob die gewählte Änderung der Webseite hinter Gruppe A es tatsächlich schafft, systematisch solche hohen Warenkorb-Werte zu erzeugen.

Sie kennen das vielleicht vom Sport: Schafft ein Fußballer es einmal, einen Freistoß direkt ins Tor zu befördern, dann war es wohl Glück. Schafft er es hingegen mehrfach pro Saison, hat er es wohl „einfach drauf“.

Stolperstein 3: Keine Berechnungsbasis

Wir schauen wieder auf die Auswertung eines A/B-Tests, diesmal auf die KPI Gesamtumsatz:

 

Gruppe

Gesamtumsatz

A

16.396,76 €

B

18.662,45 €

 

Gruppe B setzt sich mit einer Umsatzsteigerung von fast 14 % eindeutig durch! Haben Sie diesen Beitrag jedoch bis hierhin verfolgt, dann wissen Sie, dass die Geschichte noch nicht zu Ende ist.

Etwas fehlt in der Tabelle, sehen Sie es? Genau: Die Anzahl der verkauften Einheiten/Warenkörbe.

Ergänzt um die Warenkörbe sieht die Tabelle so aus:

 

Gruppe

Gesamtumsatz

Verkaufte Warenkörbe

Durchschnittlicher Warenkorb-Wert

A

16396,76 €

86

190,66 €

B

18662,45 €

99

188,51 €

 

„Ist ja schön und gut“, höre ich Sie jetzt sagen, „aber was interessiert mich der durchschnittliche Warenkorb-Wert? Gruppe B hat mehr Warenkörbe verkauft und mehr Umsatz gemacht, passt doch!“

Das ist richtig. Aus diesem Grund betrachten wir noch die Anzahl der Shopbesuche und die damit verbundenen KPIs, Conversion-Rate und Umsatz pro Besuch:

 

Gruppe

Gesamtumsatz

Shopbesuche

Conversion-Rate

Umsatz pro Shopbesuche

A

16396,76 €

1000

8,6 %

16,40 €

B

18662,45 €

1300

7,6 %

14,36 €

 

„Noch mehr Zahlen“, höre ich Sie wieder sagen, „aber Gruppe B macht immer noch mehr Umsatz!“

Das ist richtig, Gruppe B macht absolut gesehen mehr Umsatz. Aber gemessen an der Anzahl der Shopbesuche, also der Größe, die bei einem A/B-Test 50/50 aufgeteilt wird, hat Gruppe B weniger Umsatz gemacht. Warum ist das in der Praxis so wichtig?

Die Zuteilung der Shopbesucher zu Gruppe A und B erfolgt zufällig. Es ist somit vollkommen natürlich, dass mal die eine, mal die andere Gruppe mehr Besucher hat und allein dadurch mehr Umsatz erzielt. Vergleichen Sie die Zuteilung mit einem Münzwurf: Wenn Sie 10 mal werfen, dann bekommen sie nicht immer 5 Kopf und 5 Zahl, sondern auch mal 7 Kopf / 3 Zahl, 4 Kopf / 6 Zahl usw..

Das bedeutet für Sie, dass man Umsätze nur auf der gleichen Basis vergleichen darf. Sonst entscheidet am Ende der Zufallsmechanismus bei der Gruppenaufteilung, wer den A/B-Test gewinnt.

Lassen sie uns den Wert in der Spalte ganz rechts auf 1000 Besuche normalisieren um es deutlich zu machen:

 

Gruppe

Gesamtumsatz

Shopbesuche

Umsatz pro Shopbesuch

Umsatz pro 1000 Shopbesuche

A

16396,76 €

1000

16,40 €

16396,76 €

B

18662,45 €

1300

14,36 €

14360,00 €


Geht man von der gleichen Berechnungsbasis aus, dreht sich das Ergebnis nochmal.

Was ist denn nun die richtige Umsatz KPI?

Zusammenfassend kann man sagen: Die KPI Umsatz pro Besuch hat am meisten Aussagekraft über den Gesamtumsatz. Wenn Sie in einem A/B-Test eine Steigerung dieser KPI nachweisen können, so haben Sie auch den Gesamtumsatz gesteigert.

Wie kann man diese Stolpersteine vermeiden?

Wie wir gesehen haben, ist Stolperstein 3 leicht zu vermeiden in dem man eine bessere KPI wählt. Stolperstein 1 und 2 hingegen kann man nur vermeiden, wenn man ein gutes statistisches Auswertungsprogramm zur Hand hat. Dieses muss die Unsicherheiten durch zu wenige Daten und/oder potenzielle Ausreißer miteinberechnen. So wird verhindert, dass nicht vorschnell ein Gewinner verkündet wird, der eventuell keiner ist. Tests dauern so im Schnitt zwar etwas länger, aber meiner Meinung nach ist eine korrekte Entscheidung doch immer noch besser als eine schnelle, aber möglicherweise falsche.

 

Fazit / TL;DR:

  • Umsatz-Betrachtung ist bei einem A/B-Test unabdingbar
  • Umsatz pro Besuch ist hierfür die beste Metrik
  • Gute statistische Programme sind notwendig um dem Bauchgefühl verlässliche Zahlen entgegensetzen zu können.

War dieser Beitrag hilfreich?

1 von 1 fanden dies hilfreich

Kommentare (0)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

e-Commerce Recommendations – via Cluster oder Personalisierung?

24. April 2017

Predictive Retailer – Realität oder Vision?

24. Januar 2017

How I increased Conversions 300% by doing absolutely nothing

15. April 2015

epoq Search – Neue Demo Teil 4 How I increased Conversions 300% by doing absolutely nothing

Beginne zu tippen und drücke Enter zum suchen