Test A/B: Guida Completa per Condurre Split Test Efficaci

OOgni singolo giorno, dopo esserci svegliati, ci troviamo di fronte a delle decisioni da dover prendere.

E sempre nello stesso giorno, non solo senza rendersene minimamente conto, ma spesso pensando di aver scelto la strada giusta da percorrere, prendiamo decisioni totalmente sbagliate.

Dovrei cambiare il design della home page del mio sito web?

Dovrei cambiare il testo dei miei annunci pubblicitari?

Il testo della lettera di vendita che ho scritto funziona davvero bene o potrei migliorarlo?

I miei clienti comprerebbero di più se proponessi loro un’offerta che risolve il problema X, oppure il problema Y?

Spesso tendiamo a risolvere le problematiche semplicemente applicando ciò che pensiamo sia giusto, e non ci questioniamo mai se ciò che stiamo facendo sia oggettivamente la cosa migliore da fare.

Il problema? Ciò che pensiamo sia giusto per noi, spesso è sbagliato per gli altri.

Hai idea di quante volte io abbia scritto annunci pubblicitari che secondo me erano dei capolavori e che poi, nel momento in cui sono stati pubblicati, non hanno funzionato come avrei sperato?

E sai quante volte ho modificato quegli annunci pubblicitari in qualcosa che personalmente non mi piaceva, ma che, all’atto pratico, in realtà ha funzionato?

In qualche rara occasione ho addirittura visto commettere errori totalmente involontari di battitura piuttosto gravi.

Il risultato? Quegli errori, contro ogni pronostico, hanno portato una quantità di vendite ed interazioni superiori alla media.

Immaginati di essere una ragazza chiamata Roberta, e di voler scrivere l’oggetto di un’email che dice:

“Come vendere un soffione con il copy!”

(“Copy” sta per Copywriting, l’arte della scrittura persuasiva pensata per le aziende)

Mentre stai scrivendo, però, il correttore automatico ti cambia il testo e tu, senza accorgertene, invii un’email ad una lista di circa 15.000 persone.

Ti rendi conto, solo a danno fatto, che l’oggetto dell’email che hai appena inviato, dice:

“Come vendere un soffocone con il copy!”

Il risultato?

Quell’email è stata aperta da tutta la lista, moltissime persone hanno commentato, tante altre hanno comprato, tutti si sono divertiti e qualcuno ha addirittura avuto la brillante idea di raccontare questo aneddoto all’interno del proprio articolo, rischiando così di essere associato da Google a siti a sfondo pornografico!

È stato un successo sotto tutti i fronti.

A questo punto, quindi, la domanda sorge spontanea:

Ma se le idee eccellenti perdono contro quelle mediocri, se quello che ritengo giusto in realtà è sbagliato per tutti gli altri; se un errore che doveva portare delle ripercussioni negative invece si trasforma in qualcosa di estremamente positivo, e soprattutto, se un soffocone tira più di un soffione…

Allora come posso prendere una decisione che abbia senso in un mondo che si comporta in modo bizzarro e completamente imprevedibile?

Qual è la strada giusta da seguire?

Se fossi totalmente onesto e non avessi nessun interesse economico a scrivere articoli, ti direi semplicemente:

“Smetti di provare e rassegnati, perché non puoi.”

Dicendoti così, però, poi non avrei niente di cui parlare quest’oggi.

Per questa ragione, infatti, ho deciso di scrivere un muro di testo in cui potrai affogare, con la speranza di aiutarti a domare ciò che per natura è indomabile: l’imprevedibilità.

La rassegnazione oppure il muro di testo.

Scegli il tuo male minore.

Iscriviti alla newsletter

Il Marketing Dell’Eccellenza

Un’esperienza pensata per coloro che vogliono applicare strategie di marketing efficaci, basate sulla fiducia, la professionalità e l’eleganza.

Unisciti anche tu

Test A/B – Indice dell’articolo:

  1. Quando la certezza non è raggiungibile, ciò che ci rimane è la gestione del rischio
  2. Split test di tipo A/B: cosa sono e come si conducono
  3. Prevedere il comportamento di massa attraverso l’osservazione di campioni limitati
  4. Livello e intervallo di confidenza: cosa sono e come interpretarli
  5. Applicare il livello di confidenza ad un intervallo
  6. Testare il livello di confidenza tra i due campioni
  7. Calcolare il livello di confidenza della differenza degli intervalli di confidenza
  8. Errori comuni da evitare negli A/B test
 

Quando la certezza non è raggiungibile, ciò che ci rimane è la gestione del rischio

La prima cosa da capire quando si parla di come condurre test al fine di trovare una risposta ai nostri dubbi è questa: non sarà mai possibile essere certi al 100% che ciò che osserveremo sia giusto.

Salvo rarissimi casi è praticamente impossibile.

L’unica cosa su cui possiamo agire è quella di calcolare il rischio in maniera corretta, così da essere consapevoli, ogni volta che prenderemo una decisione, di sapere quante probabilità abbiamo di avere torto.

Se l’investimento andrà bene lei guadagnerà 10.000 €; d’altro canto, se andrà male, lei perderà i 1.500 € che ha investito.

È un affermazione molto vaga che ci fa capire che fondamentalmente ci stiamo affidando alla ruota della fortuna.

Secondo i nostri calcoli statistici c’è una probabilità del 93% che l’investimento andrà bene.

La domanda che vorrei porle prima di procedere è: lei è consapevole e a suo agio sapendo che c’è un una possibilità del 7% di perdere l’intera somma che lei ha versato?

Nonostante la risposta a questa domanda varierà a seconda della persona a cui verrà posta, la cosa che a tutti interessa è quella di avere accesso a dei dati affidabili per poter fare delle previsioni realistiche così da essere in grado di poter prendere delle decisioni consapevoli.

Se l’investimento deve essere un fallimento, lo sarà comunque; la differenza sta nel fatto di poter calcolare il rischio ancor prima di investire, così da non ritrovarsi a brancolare nel buio, oltretutto bendati.

Detto ciò, questo è ciò che affronteremo all’interno di questo articolo: imparare a creare delle previsioni statisticamente rilevanti che ci permetteranno di prendere decisioni in maniera più consapevole.

Chissà se questa cosa funzionerà…

È quello che penseresti adesso se tu fossi di fronte ad una scelta…

Sono confidente al 95% che la mia scelta sia giusta, e so che ho una percentuale pari o inferiore del 5% di avere torto; considerando tutto ciò mi sento di poter scegliere consapevolmente e di rischiare.

È ciò che penserai dopo aver finito di leggere questo articolo.

 

Test A/B: cosa sono e come si conducono

Prima di affrontare qualunque tematica avanzata, c’è bisogno di capire in modo molto preciso cosa si intenda quando si parla di condurre degli A/B test.

Per fare ciò mi limiterò a fare un esempio surreale che ci aiuterà a navigare, a livello teorico, all’interno di questa tematica in modo semplice ed intuitivo.

Immaginati di essere il/la proprietario/a di un ristorante che sul menù, come scelta, abbia un solo piatto: le lasagne.

Dopo un po’ di tempo ti inizi a chiedere:

“E se le lasagne non fossero così apprezzate? Magari se cambiassi piatto più persone verrebbero a mangiare nel mio ristorante. E se le cambiassi con i tortelli?”

Nonostante tu voglia mantenere il menù a singola scelta, per scoprire cosa le persone preferiscano, decidi, in maniera momentanea, di stampare un altro menù che proponga i tortelli.

Per riuscire nel tuo intendo, distribuirai a metà dei tuoi clienti il menù con le lasagne (Opzione A), e all’altra metà, quello con i tortelli (Opzione B).

Quando si parla di condurre uno split test di tipo A/B — ovvero avente due varianti — si definisce “Control” (Controllo) l’opzione A, che è l’opzione iniziale che vogliamo mettere in discussione.

Si definisce invece “Challenger” (Sfidante), l’opzione B, che non è altro che la variante con la quale metteremo in discussione l’attendibilità dell’opzione A.

Control: Lasagne

Challenger: Tortelli

Dopo qualche settimana in cui testi i due menù, decidi di leggere i dati per capire quale piatto venga scelto di più dai tuoi clienti.

2.000 clienti sono entrati nel ristorante; 1.000 sono stati esposti al menù con le lasagne, mentre i rimanenti 1.000, al menù con i tortelli.

Del primo gruppo esposto alle lasagne, 270 persone hanno deciso di ordinare, mentre le rimanenti 730 se ne sono andate via senza mangiare.

Del secondo gruppo esposto ai tortelli, 300 hanno ordinato, mentre 700 se ne sono andate.

Dando un’occhiata al risultato si nota subito che, in percentuale, questi siano gli esiti:

Lasagne: scelte dal 27% dei clienti

Tortelli: scelti dal 30% dei clienti

Di fronte a questi dati così solidi ed inconfutabili si può tranquillamente arrivare ad una conclusione: le lasagne vanno eliminate dal menù e sostituite con i tortelli, dato che, come abbiamo visto dal test effettuato, le persone li apprezzano di più.

Di fronte a questa decisione, una voce interna, ti sussurra:

“Ne hai veramente la certezza?”

“Certo, i dati parlano chiaro!” — è la tua risposta.

E se in quella settimana in cui il test è stato condotto, banalmente, ci fosse semplicemente stata una concentrazione di persone che amavano i tortelli? Magari la prossima settimana — in modo totalmente casuale — arriveranno in ristorante un centinaio di persone che odiano i tortelli e che vorrebbero le lasagne. Forse ti stai sbagliando…

E se quelle persone che hanno preso i tortelli si fossero semplicemente svegliate con la voglia di mangiare dei tortelli perché era da tanto tempo che non li mangiavano? Forse ti stai sbagliando…

E se una guida che organizza tour guidati per turisti cinesi avesse parlato loro dei tortelli durante la giornata e li avesse invogliati a provarli, per poi accompagnarli al tuo ristorante e riempire il locale di persone che non vedrai mai più e che sono lì per semplice curiosità? Forse ti stai sbagliando…

“Ne hai ancora veramente la certezza?” — la voce sussurra nuovamente.

“…” — il tuo silenzio risponde.

La verità è questa: per sapere con certezza assoluta se le persone preferiscano di più i tortelli o le lasagne, dovremmo prendere in considerazione tutta la popolazione mondiale che potrebbe andare a mangiare al ristorante, testarla, e, solo a quel punto, analizzare i dati.

Questo è l’unico modo in cui potremo essere sicuri al 100% che i nostri dati rispecchiano la realtà.

Dato che questa strada — per ragioni di tipo logistico e pratico — è letteralmente impercorribile, abbiamo bisogno di trovare una soluzione che ci permetta di arrivare estremamente vicini alla realtà dei fatti senza dover testare il comportamento di un numero inverosimilmente alto di persone.

 

Prevedere il comportamento di massa attraverso l’osservazione di campioni limitati

Data l’impossibilità di testare il comportamento di un numero elevatissimo di persone, è necessario imparare a lavorare con dei campioni limitati e finiti e riuscire a prevedere, partendo dalla loro osservazione, come un gruppo molto più numeroso di persone potrebbe reagire.

Tornando all’esempio del ristorante, la domanda che dovremmo porci sarebbe questa:

Testando il comportamento di solamente 2.000 persone ho osservato che il 27% hanno scelto le lasagne ed il 30% i tortelli.

A questo punto, quindi, quanto posso essere sicuro/a che, nel corso dei mesi successivi e migliaia di clienti dopo, i tortelli continueranno a rimanere la scelta vincente?

Andiamo subito a fare dei calcoli pratici — utilizzando questo calcolatore così da rompere il ghiaccio; in seguito andrò a spiegare in maniera dettagliata come interpretare questi dati.

split test a/b marketing

Come puoi ben vedere, il tutto è diviso in quattro sezioni:


Sezione # 1: questa è l’area dove verranno inseriti i valori da analizzare dei due gruppi che stiamo osservando; “Sample 1” corrisponde all’opzione A — ovvero le lasagne — e “Sample 2” corrisponde all’opzione B — i tortelli.

Come puoi ben vedere, ci sono anche altre due sezioni per ogni singolo gruppo:

#success: sta ad indicare il numero di volte che l’azione che volevamo osservare si è verificata — 270 persone hanno scelto le lasagne, mentre 300, i tortelli.

#trials: sta ad indicare il numero di persone totali che sono state testate — 1.000 persone hanno visto il menù A, mentre 1.000 il menù B.


Sezione # 2: all’interno di quest’area verranno mostrati i rispettivi intervalli di confidenza di entrambi i gruppi.


Sezione # 3: viene mostrato in modo chiaro se il test da noi condotto — che prende in esame i due gruppi A e B — possa essere considerato statisticamente significativo.


Sezione # 4: qui possiamo decidere quanto vogliamo che sia, in percentuale, l’intervallo di confidenza che desideriamo applicare al nostro test.

** cambiando questo valore cambieranno, di conseguenza, anche gli intervalli di confidenza mostrati nella sezione # 2.


Guardando nell’immagine sopra-riportata, possiamo notare come nella terza sezione venga mostrata una scritta, esattamente sotto la voce “Verdetto” (Verdict), che dice:

“Nessuna differenza significativa” (No significant difference)

Ma cosa significa che non è stata trovata nessuna differenza significativa all’interno del nostro test?

Vuol dire semplicemente che, osservando i risultati di entrambi i gruppi, non abbiamo raggiunto un livello di evidenza tale da permetterci di dichiarare un vincitore.

In parole povere: nonostante le lasagne siano state scelte dal 27% dei clienti e i tortelli dal 30%, la differenza tra questi due gruppi non è abbastanza significativa da permetterci di poter affermare con sicurezza che le persone, di media, preferiscano i tortelli rispetto alle lasagne.

E quindi cosa dovrei fare? Quale menù dovrei lasciare e quale scartare?

La verità è che al momento, con i seguenti dati a disposizione, non puoi arrivare a nessuna conclusione che sia statisticamente significativa.

Hai fondamentalmente due opzioni davanti a te:

  • Abbandoni questo tipo di test e ti affidi al caso;
  • oppure continui a raccogliere dati affinché tu possa arrivare al punto di poter prendere una decisione consapevole e che rispecchi la realtà.

Ma cosa sarebbe successo se, ad esempio, invece che 300, le persone che avessero preferito i tortelli fossero state 320?

test statisticamente rilevante livello di confidenza 95

Come puoi chiaramente vedere, qualcosa di molto importante si è verificato:

il test, finalmente, può essere considerato significativo.

Semplificando il tutto, significa che la differenza di risultato tra i due campioni — A e B — è abbastanza significativa da poter dimostrare, con molta sicurezza, che le persone, di media, preferiscano i tortelli rispetto alle lasagne.

Nonostante abbiamo analizzato un piccolo campione di persone — solamente 2.000 — possiamo comunque assumere che se estendessimo il test a tutta la popolazione, essa continuerebbe comunque a preferire l’opzione B.

Mi stai quindi dicendo che se adesso scegliessi di servire solamente i tortelli, potrei essere certo al 100% di avere ragione?

Purtroppo no.

Significherebbe che al 95% — considerando che abbiamo usato un intervallo di confidenza del 5% all’interno del nostro test — la tua scelta risulti giusta.

Ma andiamo ad analizzare in modo estremamente approfondito ogni singolo punto, in modo tale da rendere ogni tuo dubbio materiale del passato.

 

Livello e intervallo di confidenza: cosa sono e come interpretarli

Come abbiamo precedentemente detto, è letteralmente impossibile raggiungere la certezza del 100% che i dati da noi osservati rispecchino la realtà; a meno che non si analizzi l’intera popolazione — o l’intera base di utenti applicabile — ci sarà sempre un margine d’errore.

Nel caso precedentemente analizzato, abbiamo potuto osservare che la nostra ipotesi, se calcolata con un livello di confidenza del 95% (approfondirò cosa significhi questa percentuale più avanti), ci riporta che la variazione di clienti del gruppo B rispetto al gruppo A sia effettivamente dovuta al fatto che le persone preferiscano i tortelli rispetto alle lasagne.

La verità? È leggermente più complesso di così.

Ma non preoccuparti; ti spiegherò tutto senza tralasciare niente.

Per farlo, dobbiamo iniziare ad analizzare la sezione che riguarda l’intervallo di confidenza:

intervallo di confidenza

Vedendo questi risultati, ti potrebbe venire naturale chiedere — e anche se così non fosse, sarei comunque costretto a pormi la domanda da solo per continuare a scrivere l’articolo:

Se le persone che sono diventate clienti nei due gruppi ammontano rispettivamente al 27% e al 32%, cosa sono quei valori di fianco che hai evidenziato?

Quell’intervallo che vedi rappresentato, tradotto, significa questo: hai il 95% di probabilità che il valore che stai cercando si trovi all’interno di quell’intervallo di numeri.

Cosa significa che il valore che sto cercando, al 95%, sarà all’interno di quell’intervallo?

I valori che stavo cercando ce li ho già, e sono 270 per le lasagne, e 320 per i tortelli.

Non capisco di cosa tu stia parlando.

Domanda più che legittima.

Partiamo dal presupposto che il test che abbiamo condotto è stato applicato ad un piccolissimo campione di persone e non su tutte le persone su cui avremmo potuto applicarlo, dato che, considerando che tutti mangiano, per avere dei dati certi che rispecchiassero la realtà, saremmo stati costretti, come avevamo precedentemente detto, a testare il comportamento dell’intera popolazione del pianeta terra.

Visto che questo non è possibile, abbiamo condotto un test su piccola scala.

Ora, nonostante il 27% di persone del gruppo A, in questo esatto test, abbia scelto le lasagne, non sta a significare che tale valore rappresenti la percentuale di persone che mangerebbero le lasagne se estendessimo il nostro test al pianeta intero, oppure se, banalmente, ripetessimo più volte il nostro test.

Ripetendo svariate volte lo stesso test, i valori sarebbero nella quasi totalità dei casi sempre differenti; una volta, ad esempio, 253 su 1.000 prenderebbero le lasagne, un’altra 282, un’altra ancora 297, e così via…

Quindi, considerando che il risultato potrebbe variare, invece di dire che il 27% delle persone preferiscono le lasagne, è necessario affermare che c’è un 95% di possibilità che il valore reale si trovi all’interno dell’intervallo che va da 24,3% a 29,8%.

Semplificando, significa questo: statisticamente parlando, se ripetessimo il test 100 volte, in 95 di queste, il valore che osserveremmo non sarà inferiore al 24,3% e nemmeno superiore al 29,8%; esso si troverà all’interno di quell’esatto intervallo.

(se ti stai chiedendo come venga calcolato quell’intervallo, sappi che ne parlerò più avanti; non preoccuparti)

Ma andiamo a spiegare questa frase che sembra non avere alcun senso, andando prima a fare un esempio sul perché sia necessario necessario tenere conto degli errori di misurazione.

Partendo dal gruppo A, ovvero quello in cui 270 persone su 1.000 hanno deciso di prendere le lasagne, possiamo affermare, come abbiamo già visto più volte, che l’opzione sul menù sia stata scelta il 27% delle volte.

A questo punto, quindi, va sottolineata una cosa molto importante per quanto riguarda questo test da noi condotto: è matematicamente impossibile che il quantitativo di persone possa essere espresso con un numero decimale — come ad esempio 270,6.

Come mai? Semplicemente perché non può verificarsi una situazione in cui 270,6 persone scelgano le lasagne; o sono 270, oppure 271.

Su un gruppo totale di 1.00 partecipanti:

  • 270 corrisponde al 27%
  • 271 corrisponde al 27,1%

Dato che il valore 27,06% esiste all’interno del nostro test ma che, allo stesso tempo, non possiamo prenderlo come riferimento perché ci darebbe un risultato inaccettabile (270,6 persone), siamo costretti ad esprimerlo in un modo alternativo.

Come? Attraverso un intervallo.

Se consideriamo che i due valori per noi accettabili sono 27% e 27,1%, allora possiamo affermare che il numero che vogliamo rappresentare si trovi tra l’intervallo di questi due valori.

A questo punto, se guardiamo la differenza tra le due percentuali sopra-riportate, possiamo notare che tra di esse ci sia un intervallo di Â± 0,1.

Quell’intervallo non è altro che il margine d’errore che dobbiamo aspettarci dai valori riportati dal nostro test.

Dove vuoi arrivare con questo discorso?

Ho bisogno di farti notare, prima di passare alla parte successiva, che se 270 persone su 1.000 risponderanno positivamente al test, rappresentare tale risultato con un valore esatto del 27% risulterà sbagliato.

Per essere corretti sarà necessario esprimere il tutto non con un valore esatto, ma bensì con un intervallo: 26,9% – 27,1% — oppure 27% Â± 0,1.

Immaginati una persona di massa 86 kg, volersi pesare su una bilancia aziendale che faccia misurazioni solo ed esclusivamente ad intervalli di 50 kg.

Gli unici valori che tale bilancia potrà esprimere saranno unicamente: 0, 50, 100, 150, 200 kg e così via…

A questo punto, cosa succederà quando la persona si peserà su quella bilancia? Nonostante essa pesi 86 kg, quel valore verrà arrotondato per eccesso ed espresso con 100 kg.

Dato che la bilancia non riesce a misurare il valore 86, ma solo i multipli di 50, il valore che dovremo utilizzare — tenendo conto dell’errore — per esprimere i nostri risultati, sarà: 100 kg Â± 50kg.

Tutto ciò sta a significare che il valore reale della persona che si è pesata potrebbe trovarsi all’interno di quell’intervallo di numeri.

Livello di confidenza

Come mai è così importante, ogni volta che si parla di effettuare split test di tipo a/b, prendere in considerazione il livello di confidenza?

E soprattutto, cosa sta ad indicare?

Un livello di confidenza del 95%, ad esempio, sta a significare questo: il cambiamento che abbiamo osservato ha una percentuale del 95% di essere reale e presenta solamente il 5% di probabilità di essere puramente casuale.

Di solito, per convenzione, gli intervalli di confidenza più utilizzati — per ragioni di praticità — sono: 90%, 95% e 99%.

Ovviamente, come abbiamo precedentemente detto, un livello di confidenza del 100%, a meno che non si testi l’intero campione utile di persone, non può essere raggiunto.

Ma scusa, perché di solito si utilizza il 95%? Non conviene utilizzare il 99%?

In questo modo significherebbe che avrei solamente l’1% di aver sbagliato la previsione…

Osservazione giustissima.

Il problema del condurre test con un livello di confidenza del 99% invece che del 95% è il seguente: essi risultano molto più costosi — in termini di risorse e di tempo — da condurre.

Nonostante una differenza del 4% sembri minima, una volta applicata nel mondo reale, essa può cambiare immensamente gli esiti di un test; ecco perché quando si conducono test nel campo del marketing, del design e dell’UI, un livello di confidenza del 95% viene considerato come standard del settore e largamente accettato per decretare il successo, o meno, di un test.

Nel settore farmaceutico, ad esempio, tutti i test vengono condotti con un livello di confidenza del 99%, dato che, quando c’è a rischio la salute — o peggio ancora la vita — di una persona, è necessario minimizzare gli errori.

Iscriviti alla newsletter

Il Marketing Dell’Eccellenza

Un’esperienza pensata per coloro che vogliono applicare strategie di marketing efficaci, basate sulla fiducia, la professionalità e l’eleganza.

Unisciti anche tu

 

Applicare il livello di confidenza ad un intervallo

intervallo di confidenza rappresentazione grafica

Avvertimento: se la matematica non è il tuo forte, oppure se non ti interessa la spiegazione scientifica di questa parte, puoi cliccare qui e saltare direttamente alla parte successiva; a livello pratico non perderai niente, te lo garantisco.

Nella sezione precedente abbiamo visto come sia necessario, al fine di esprimere un risultato, non utilizzare un numero specifico, ma bensì un intervallo numerico.

intervallo di confidenza del test condotto

Se avrai prestato particolare attenzione all’intervallo numerico che è stato calcolato nel nostro test, noterai che per quanto riguarda il campione A (lasagne), che risulta del 27%, l’intervallo di confidenza spazi da 24,3% a 29,8%.

Ma non avevi detto che esso doveva essere rappresentato con 27% Â± 0,1?

Come mai adesso è completamente differente?

Ciò di cui parlavo prima è leggermente differente da ciò che dobbiamo affrontare; era necessario fare quell’esempio perché tu capissi perché tutti i risultati che osserverai in questa tipologia di test verranno sempre espressi con un intervallo e mai con un numero esatto: dato che ci saranno sempre degli errori all’interno dei nostri calcoli, dobbiamo abituarci a tenerne conto al fine di rendere il tutto più reale e concreto possibile.

Come calcolare l’intervallo di confidenza

calcolo intervallo confidenza 95%

Ecco la formula che ci accompagnerà per le prossime righe.

Non farti intimorire, perché andremo subito ad analizzarla insieme al fine di renderla comprensibile.

Vuoi dirmi che ogni volta che voglio fare dei test devo utilizzare questa formula?

Ovviamente no.

Tu dovrai semplicemente inserire i dati che otterrai dai tuoi test all’interno di un calcolatore online ed esso ti darà il risultato senza che tu debba fare nemmeno un calcolo.

Voglio affrontare questa parte rognosa perché di solito, quando si parla d’intervallo di confidenza applicato ai test di tipo a/b, ci si imbatte sempre in due realtà:

  • Ci viene illustrato tutto senza nessuna spiegazione ed in maniera estremamente superficiale;
  • oppure viene spiegato in termini puramente matematici, praticamente impossibili da comprendere a meno che non si abbia un master in fisica quantistica, nucleare e matematica pura ed applicata.

Ciò che voglio fare io è questo: riuscire a spiegare il tutto in modo tale che anche un pubblico più vasto possa comprendere questa tematica.

Analisi della formula

analisi della formula split test
Come puoi vedere, essa contiene esattamente tre incognite che dobbiamo capire; una volta fatto ciò, risulterà estremamente facile da comprendere.

  1. CR: Rappresenta la stima puntuale (point estimate) del nostro tasso di conversione;
  2. Zα: coefficiente corrispondente al livello di confidenza Î±;
  3. n: rappresenta la grandezza del campione osservato.

1. Come determinare il valore di “CR”:

Prendiamo come esempio il test da noi condotto, ed andiamo ad osservare il campione A, ovvero le lasagne.

Abbiamo visto che su 1.000 persone, 270 hanno eseguito l’azione che desideravamo.

Questo risultato può essere espresso in due modi:

  • o in percentuale, 27%;
  • oppure con una stima puntuale, ovvero 0.27.

Per trovare la stima puntuale è semplicissimo: basta dividere il numero di conversioni (270) per il numero totale dei partecipanti al test (1.000).

270 / 1.000 = 0.27

Questo è il valore di CR del nostro test.

2. Come determinare il valore di Zα:

Questo valore, essendo standard, non andrà calcolato, dato che il suo valore sarà sempre uguale.

La cosa da tenere a mente, però, è questa: esso cambia in base al livello di confidenza che decidiamo di applicare al nostro test.

valore arrotondato

Come puoi ben vedere, nel nostro caso — ovvero con un livello di confidenza applicato del 95% — il valore di Zα corrisponderà a 1.96.

In caso decidessimo di applicare un livello di confidenza del 90% ai nostri test, questo valore, invece, sarà di 1.65.

3. Trovare la grandezza del campione

La spiegazione di questo valore è talmente semplice e rapida che quasi mi sento in colpa ad avergli dedicato un suo micro-paragrafo.

Il valore “n” corrisponde al valore numero del campione di riferimento.

Nel nostro caso è 1.000.

Una volta sostituti i valori, ecco come si presenterà la nostra formula applicata al campione A:

formula finale compilata

Dopo averla eseguita, il risultato finale sarà il seguente: 0,27 Â± 0,027.

Moltiplicando quei valori per 100 al fine di ottenerli espressi in percentuale, ecco come essi si presenteranno: 27% Â± 2,7 — oppure 24,3% – 29,7%.

intervallo di confidenza del test condotto
Come puoi vedere, essi coincidono con quelli riportati dal test.

Se ti stai chiedendo perché il calcolatore, anziché riportare 29,7, riporti 29,8%, la risposta sta nel fatto che durante il calcolo, per praticità, ho arrotondato dei valori.

 

Testare il livello di confidenza tra i due campioni

Ciò che abbiamo fatto nella sezione precedente è stato capire come calcolare l’intervallo di confidenza di ognuno dei nostri singoli campioni.

A questo punto, però, al fine di capire se la variazione positiva del gruppo B rispetto a quello A sia frutto di un cambiamento reale e non di uno casuale, è necessario mettere a confronto i due intervalli di confidenza di entrambi i campioni al fine di trovare la risposta che stiamo cercando.

Ma scusa, tutti i calcoli che abbiamo fatto prima non ci servivano per calcolare gli intervalli di confidenza?

Perché dovremmo eseguire un’ulteriore operazione?

Ciò che abbiamo fatto precedentemente è stato calcolare l’intervallo di confidenza di ogni singolo gruppo.

Quello che invece andremo a fare adesso è prendere entrambi i gruppi con i loro relativi intervalli di confidenza precedentemente calcolati, compararli tra loro, e vedere se il risultato del nostro test sia attendibile o meno.

Andando ad utilizzare un calcolatore online leggermente più avanzato, ci troveremo di fronte a questo scenario:

risultato completo a/b test

Come avevamo precedentemente visto, il nostro test ha avuto un esito positivo; possiamo quindi affermare che il campione B abbia il 95% di probabilità di battere il campione A.

 

Calcolare il livello di confidenza della differenza degli intervalli di confidenza

Andiamo a vedere, in modo estremamente rapido, come mettere a confronto i risultati di entrambi i gruppi.

Ci sono tre passi da compiere:

  1. Formulare due ipotesi — di cui una “nulla” e l’altra “alternativa”;
  2. calcolare le probabilità che l’ipotesi nulla risulti vera — espressa con il “valore-p;
  3. mettere a confronto il “valore-p” con il livello di confidenza espresso in “1-α” — α corrisponde al livello di confidenza.

Una volta finiti i nostri calcoli, se il valore-p sarà inferiore a 1-α, allora potremo accettare come vera l’ipotesi che il gruppo B abbia il 95% di possibilità di battere il gruppo A.

Applicando un intervallo di confidenza del 95%, il valore 1-α sarà rappresentato così: 1-0.95.

Quindi, se il valore p sarà inferiore a 0.5, l’esito del nostro test potrà essere considerato positivo.

# 1 – Formulare due ipotesi

La prima ipotesi da formulare è quella definitiva come “nulla”; essa può essere facilmente rappresentata così: CR(B) – CR(A) = 0

Ciò che sta a significare è: se sottraiamo al valore di B, quello di A, il risultato finale sarà zero; ergo, non ci sarà nessuna differenza.

Se le persone che scelgono le lasagne fossero 270 e le persone che scelgono i tortelli fossero 270, la loro differenza, dato che i valori sono identici, sarebbe zero.

Questo è cosa si intende per ipotesi nulla: una situazione in cui non si registra nessuna differenza.

La seconda ipotesi che sarà necessario formulare sarà quella “alternativa”, che rappresenterà il caso nel quale il valore del campione B sia superiore a quello A.

Tale ipotesi verrà espressa così: CR(B) > CR(A)

# 2 – Calcolare le probabilità che l’ipotesi nulla risulti vera

La prima cosa da fare è calcolare l’errore standard (SE) di entrambi i valori — sia di A, sia di B.

Questo esatto passaggio l’abbiamo visto qualche riga sopra, ed è rappresentato così:

calcolo errore standard SE

Per non dimenticare…

  • CR: Stima puntuale del tasso di conversione; quella di A sarà di 0,27, mentre quella di B di 0,32.
  • n: il numero del campione applicato al test; nel nostro caso sarà 1.000 sia per quanto riguarda A, sia per quanto riguarda B.

Ecco come risulta se applicato al gruppo A:

calcolo errore standard SE del gruppo A

Il risultato sarà: 0,014039

Applicando il tutto al gruppo B, questa sarà la formula:

calcolo errore standard SE del gruppo B

Ed il risultato finale sarà: 0,014751


A questo punto dobbiamo calcolare la differenza dell’errore standard tra i due gruppi.

Ecco la formula:

differenza dell'errore standard SE

Una volta applicati i valori del nostro test, ecco come essa risulterà:

differenza dell'errore standard di A e B

Il risultato finale sarà: 0,020364


L’ultimo valore da calcolare sarà quello di “Z”.

Ecco la formula necessaria:

formula per calcolare Z

Applicando i nostri valori, questo è ciò che osserveremo:

valori del test applicati alla formula Z

Il risultato finale di Z risulterà: 2,4553


A questo punto, i valori a cui ci troveremo di fronte, saranno i seguenti:

  • SE(A) = 0,014039
  • SE(B) = 0,014751
  • SE(differenza) = 0,020364
  • Z = 2,4553

Andando a controllare i valori riportarti all’interno del nostro calcolatore, possiamo vedere che essi corrispondono (Calcolatore avanzato a/b test):

valori corrispondenti


Una volta ricavati tutti i valori a noi necessari, possiamo andare a calcolare il “valore-p”.

Se Z corrisponderà ad un numero positivo, allora dovremo calcolare il “valore-p” attraverso l’area sotto la distribuzione normaleo anche di Gauss — dopo il punto Z.

L’area di cui stiamo parlando è rappresentata nell’immagine sottostante:

rappresentazione di z

In caso tu voglia calcolare il “valore-p” puoi utilizzare la formula Excel:

1-NORM.S.DIST(Z; TRUE)

Andando a vedere i risultati del nostro calcolatore, possiamo notare che il “valore-p” sia di 0,0142.

valore p primo test

Considerando che abbiamo decretato l’esito del test applicando un livello di confidenza del 95%, dobbiamo quindi prendere come riferimento il livello di confidenza del 5% — che corrisponde a 0,05 — e metterlo a confronto con il valore-p.

Come possiamo vedere: 0,0142 < 0,05.

Cosa sta a significare tutto ciò?

Dato che il valore-p è inferiore a quello del livello di confidenza del 5%, l’incremento di conversioni che abbiamo visto nel caso dei tortelli (gruppo B), ha un 95% di possibilità di battere i risultati di coloro che hanno scelto le lasagne (gruppo A).

Possiamo quindi decretare l’esito del nostro test, positivo, ed accettare il fatto che ciò che abbiamo osservato sia, con moltissima probabilità, dovuto alle conseguenze delle nostre scelte e non alla pura casualità.

In caso ti stessi domandando perché…

rappresentazione di z

… il valore-p riportato dal secondo calcolatore risulti la metà rispetto a quello del primo (0,0070 e 0,0142), la risposta è molto semplice: in un caso il valore-p è stato calcolato effettuando un test bi-direzionale (a due code, oppure two-tailed), nell’altro, invece, effettuandone uno di tipo uni-direzionale (a una coda, oppure one-tailed).

E quale sarebbe la differenza tra un test uni-direzionale ed uno bi-direzionale?

Uni-direzionale: osserva solamente una differenza positiva;

test uni-direzionale o one-tailed

Bi-direzionale: osserva la differenza sia negativa, sia positiva.

test bi-direzionale o two-tailed

Ogni volta che ci troviamo di fronte un test bi-direzionale, il valore-p risulterà il doppio rispetto a quando il test sarà di tipo uni-direzionale.

Nel nostro caso specifico, qual è necessario applicare?

Quello uni, oppure bi-direzionale?

Facciamo un esempio rapidissimo per capire cosa si intenda per test uni-direzionale e bi-direzionale.

Se lanci una moneta, ci sarà la possibilità che esca testa oppure che esca croce.

Se vuoi calcolare quanto probabile sia che esca testa, allora il test sarà di tipo uni-direzionale; in caso tu volessi, invece, calcolare quante volte sia probabile che esca testa rispetto a croce, a quel punto si parla di test bi-direzionale.

Calcolando solamente quante volte esce testa, il risultato sarà sempre positivo; calcolando invece quanto esca rispetto a croce, la differenza osservata potrebbe risultare negativa (es: testa è uscita 4 volte, rispetto a croce che è uscita 7; la differenza ammonta a -3).

Nel nostro caso specifico, quindi, considerando che non vogliamo osservare quante volte le persone scelgano le lasagne, ma in che percentuale le persone scelgano i tortelli rispetto alle lasagne, dovremo utilizzare un test di tipo bi-direzionale.

 

Errori comuni da evitare negli A/B test

test uni-direzionale o one-tailed

Una volta capito il funzionamento di un a/b test e di come si calcolino tutti gli intervalli di confidenza necessari per decretare l’attendibilità di un risultato, è necessario fare in modo di evitare tutti gli errori — comuni e meno — in cui potremmo, involontariamente, imbatterci.

Errore #1 – Il tuo test ha troppe varianti

Il primo errore da evitare quando si vuole trovare una risposta utilizzando un test, è quello di non utilizzare troppe varianti.

Il motivo per cui ci si attiene a testare solamente due varianti alla volta — A/B test — è molto semplice: ogni volta che se ne aggiunge una, la difficoltà — oltre alle risorse da utilizzare — per trovare una risposta che risulti statisticamente rilevante, aumenta vertiginosamente.

Ma non solo.

Da un punto di vista matematico, ogni volta che aggiungiamo una variabile, le probabilità che il risultato di una di esse sia totalmente casuale, aumenta.

Conducendo un test con un livello di confidenza di 0,05 — 5% — e con 20 variabili, il risultato di una di esse risulterebbe totalmente casuale, mettendoci quindi in una posizione di trovare un falso positivo.

0,05 * 20 = 1

In parole povere: più varianti verranno analizzate contemporaneamente, più alta sarà la possibilità che il risultato trovato sia sbagliato e staticamente non rilevante.

Tra gli esempi che vengono riportati in maniera costante quando si parla di come un test con troppe varianti possa risultare fuorviante, troviamo quello condotto da Google nel 2009, soprannominato “50 sfumature di blu”.

Visto che gli ingegneri ed i designers all’interno di Google avevano iniziato ad avere un dibattito su che tonalità di blu avessero dovuto usare all’interno dei link della pubblicità a pagamento di Adwords al fine di aumentare i click, decisero quindi di testare tutte le tonalità di blu.

Considerando che testarono 41 tonalità di blu, le possibilità che il risultato trovato potesse essere considerato un falso positivo corrispondeva, se applicato un livello di confidenza del 5%, dell’88%!

Che tradotto, significa: c’è un 88% di possibilità che il risultato osservato sia sbagliato e non statisticamente rilevante.

Ma quindi, quelli di Google, hanno commesso un errore?

In realtà no.

Il perché?

Avendo a disposizione centinaia di milioni di utenti da testare, sono riusciti, alla fine, a trovare una risposta che risultasse statisticamente rilevante.

Se non avessero però avuto quella mole di utenti da testare, non sarebbero mai riusciti a trovare una risposta.

L’immagine seguente riporta a quanto ammonti la possibilità di trovarci di fronte ad un falso positivo in base al numero di variabili testate:

probabilità di falso positivo split test

Al fine di ottenere un risultato statisticamente significativo, c’è bisogno di cambiare approccio ed applicare la correzione di Bonferroni.

Come puoi ben vedere, nel caso in cui decidessimo di testare 41 variabili e trovare un risultato applicando un livello di confidenza del 5% applicando la correzione di Bonferroni, sarebbe necessario applicare un livello di confidenza del 99,9%.

Condurre test di questo tipo richiede una mole elevatissima di risorse; così alta da rendere, nella quasi totalità dei casi, i nostri test impraticabili ancor prima di averli iniziati.

livello di confidenza per alto numero di variabili

È per questo esatto motivo — ed anche per il fatto che diventerebbe estremamente complesso a livello tecnico ed operativo– che è sempre consigliabile attenersi a split test di tipo A/B con solamente due varianti.

Errore #2: Testare più elementi nello stesso test

Un altro errore che a volte viene commesso è quello di cambiare più elementi all’interno dei due gruppi testati.

In che senso?

Facciamo un esempio molto semplice ed intuitivo, prendendo un sito web che vuole aumentare il numero delle conversioni al fine di incrementare il numero di clienti.

Per condurre il test viene preso il sito web attuale (control) e testato contro una nuova variante (challenger) al fine di vedere se la seconda porti un effettivo aumento delle conversioni.

Il problema?

Nella variante è stato cambiato il testo del sito, i colori, il testo dei vari bottoni (call to actions) e l’angolazione con cui viene proposto il prodotto venduto.

Mettendo il caso che alla fine del test la variante B vinca su quella A con un livello di confidenza del 95%, si presenta un problema: nonostante la variante B risulti statisticamente migliore di quella A, considerando che abbiamo cambiato vari elementi all’interno della seconda variante, non abbiamo idea di cosa abbia portato il cambiamento positivo.

È stato il testo?

Sono stati i colori?

È stato il fatto che l’angolazione con cui veniva venduto il prodotto era stata cambiata?

È stato un insieme di tutti gli elementi? E se sì, con che percentuale ogni elemento ha contribuito al miglioramento dei risultati?

In pratica, apportando più modifiche all’interno delle nostre varianti, una volta trovato un risultato statisticamente rilevante, non sapremo mai quale elemento abbia contribuito — ed in quale misura — a rendere il nostro sito web performante.

Testare un elemento alla volta richiede più tempo e risorse, è vero, ma allo stesso tempo risulta l’unico modo per essere sicuri di comprendere quale sia la fonte che ha scatenato dei cambiamenti reali, tangibili e che non risultino il frutto di una pura casualità.

Errore #3: Apportare modifiche durante il test

Il terzo errore da evitare assolutamente è quello di fare modifiche durante tutta l’intera durata del test; una volta cominciato dovrà rimanere tutto invariato fino a quando non decideremo di interrompere — o fino a quando non avremo ottenuto abbastanza dati da poter trovare un risultato statisticamente significativo.

Oltre a non dover fare nessuna modifica a livello strutturale — testo, immagini, grafica, tipo di offerta, ecc… — è necessario non alterare mai il numero di utenti — o traffico, quando si parla di siti web — inviati nel corso del tempo.

Alterando anche uno solo di questi parametri, ci imbatteremo nel “Paradosso di Simpson”, il quale “indica una situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione nell’analisi (variabili nascoste)”. 

paradosso di simpson statistica

Fonte: Exp Platform

Errore #4: Decretare il successo di un test troppo presto

Immaginati di condurre un test e che, dopo due giorni, andando a controllare i risultati, ti accorgi che il gruppo B ha vinto sul test A con un 95% di livello di confidenza.

A questo punto, in troppi, commettono un errore: decretano B come vincitore.

Nonostante su carta B abbia vinto, due giorni, spesso sono troppo pochi per essere veramente sicuri che le modifiche apportate non siano semplicemente il frutto di un cambiamento totalmente casuale.

Evan Miller — il creatore del calcolatore online che abbiamo utilizzato — analizza, all’interno di un suo articolo chiamato “How Not To Run an A/B Test”, di come questo errore possa influenzare negativamente l’esito dei nostri test.

Immaginati di dover testare due varianti di un sito web.

Adesso immaginati due linee d’azione possibili che potresti decidere di seguire:

  • Nella prima, una volta raggiunti i 200 visitatori testati, analizzi i risultati e controlli se ci sia un vincitore effettivo tra il campione di A e quello di B; in caso ci fosse, interromperesti il test e decreteresti un vincitore;
  • nella seconda, invece, controlli alla soglia dei 200 visitatori, ma aspetti di arrivare a 500 visitatori testati prima di decretare un vincitore ed interrompere il test.

A questo punto, quindi, ci sono esattamente quattro possibilità a cui poterci trovare davanti nel caso in cui decidessimo di controllare i risultati sia a 200, sia a 500 visitatori, prima di interrompere il test:

scenari possibili split test

  1. Nel primo caso, sia dopo 200, sia dopo 500 visitatori, non troviamo una differenza che sia statisticamente rilevante;
  2. nel secondo caso, dopo 200 non registriamo nessuna differenza, ma dopo 500 visitatori, analizzando i dati, scopriamo che i risultati del nostro test sono significativi; possiamo quindi dedurre che il risultato finale del test possa essere accettato;
  3. nel terzo caso, dopo 200 utenti troviamo una differenza statisticamente rilevante, ma, proseguendo nel test, scopriamo che a 500, essa, sia svanita; possiamo quindi dedurre che il cambiamento positivo dei primi 200 utenti fosse dato dal caso, visto che a 500 visitatori testati, quella condizione non persisteva più; ergo, il test non ha portato cambiamenti positivi che possano essere accettati;
  4. nel quarto caso, sia a 200, sia a 500 utenti, il test riporta sempre un risultato statisticamente significativo; possiamo quindi dedurre che i cambiamenti osservati siano reali e statisticamente rilevanti.

Ma cosa sarebbe successo se invece che testare fino a 500 utenti, ci fossimo fermati alla soglia dei 200 ogni volta che avessimo registrato una differenza statisticamente significativa?

scenari possibili interruzione prematura split test

Come puoi ben vedere, se tu interrompessi il test a 200 visitatori ogni volta che si verifica un differenza significativa, l’esito finale dello “Scenario 3” risulterebbe differente rispetto a quello del primo caso in cui testavamo fino a 500 utenti.

Se tu avessi testato fino a 500 utenti senza decretare il successo a 200, il test avrebbe prodotto un risultato negativo.

Ecco perché decretare il vincitore troppo presto spesso rischia di creare una falsa illusione sull’esito reale di un test.

Ok, ho capito, ma come faccio a capire quando è troppo presto?

Senza complicare troppo la situazione ed allungare in modo inutile l’articolo, diciamo che è possibile utilizzare dei calcolatori online per capire quante persone sia necessario, indicativamente, testare.

[Utilizza questo calcolatore online per determinare la grandezza minima di un campione]

Immaginati di voler testare una specifica pagina di un sito web al fine di aumentarne il numero d’acquisti effettuati.

Questi sono i dati che conosci prima di iniziare il test:

  • Disponi di 1.000 visitatori giornalieri da inviare alle due pagine (versione A e versione B);
  • il numero di visitatori che acquistano è, mediamente, del 4%.

Ciò che vorresti raggiungere come risultato minimo per decretare l’esperimento un successo, è un 5% di conversioni sulla nuova pagina, il quale corrisponde ad un incremento assoluto dell’1% — oppure, in caso tu lo voglia rappresentare con un incremento relativo, del 25%.

A questo punto, quindi, dirotti la metà dei visitatori giornalieri sulla nuova pagina da testare, creando così un flusso di visitatori equo tra le due pagine (rispettivamente di 500 e 500 visitatori giornalieri).

esempio di uno split test di tipo ab di un sito web

Adesso la domanda da porci è la seguente:

Per quanto tempo dovrei condurre il test prima di poter decretare un vincitore?

Per rispondere al nostro quesito ci viene incontro uno dei tanti calcolatori online (“Quanti soggetti sono necessari per un A/B test?“) per determinare la grandezza ideale necessaria al fine di rendere un test di tipo A/B, valido.

Tenendo conto sia del fatto che la pagina del sito web che vogliamo testare converta i visitatori in clienti con una frequenza del 4%, sia che vorremmo che la versione sfidante riesca ad ottenere almeno un tasso di conversioni del 5%, questi sono i valori a cui ci troveremo di fronte:

numero di minimo di individui per l'attendibilità di uno split test a/b

Considerando che vogliamo condurre il nostro test applicando un livello di confidenza del 95%, avremo bisogno di testare almeno 6.328 utenti per ogni singola variante.

Dato che nel nostro caso le varianti sono due, gruppo A e gruppo B, avremo bisogno, arrotondando per eccesso, di almeno 12.800 utenti testati prima di analizzare i nostri risultati.

Una volta individuato il numero di utenti necessari da testare, dovremo semplicemente compararli con il volume di visitatori che riusciamo ad inviare alle nostre pagine di test per capire quanti giorni, indicativamente, dovremo aspettare prima di poter accettare i risultati del test.

Considerando che di media inviamo circa 1.000 visitatori al giorno su entrambe le pagine ( 500 al gruppo A e 500 al gruppo B), questo significa che per raggiungere 12.800 individui testati, avremo bisogno di circa 13 giorni.

Tutto molto bello. Purtroppo io non ho tutti quei visitatori disponibili sul mio sito web per fare un test del genere.

Significa quindi che dovrei lasciar perdere?

No, affatto.

Puoi tranquillamente condurre i tuoi test, ma sarà necessario che tu punti ad ottenere dei cambiamenti radicali tra i due campioni.

Se hai una pagina che converte al 4% ed invece che puntare a migliorarla fino a farla arrivare al 5%, punti ad un 6%, ovvero con un incremento assoluto del 2%, invece che di 12.800 utenti da testare, avrai bisogno di solamente 3.200 persone.

diminuzione esponenziale dei campioni testati

Come puoi ben vedere, più la differenza nei risultati tra le due pagine sarà maggiore, meno sarà il numero di persone totali da dover testare.

Quindi, se sei agli inizi oppure se non hai molti utenti da testare, punta sempre a cambiamenti che portino incrementi notevoli, così che tu possa avere i dati necessari per rendere ogni tuo test affidabile.

Se vuoi migliorare una pagina di un sito web ed ottenere dei cambiamenti drastici, devi modificare parti di essa che siano altamente rilevanti.

Secondo te, dove hai più possibilità di vedere un cambiamento più drastico?

  • Se cambi il colore dello sfondo di una pagina;
  • oppure presentando un’offerta per gli utenti ancora più interessante.

Ovviamente la seconda; quindi, finché non avrai le risorse necessarie, evita di perdere tempo, ad esempio, con il colore dello sfondo, perché tanto potresti non disporre dei pre-requisiti necessari per rendere il test affidabile.

Errore #4 BIS: Decretare il successo senza prendere in considerazione i cicli aziendali

Nel paragrafo precedente abbiamo visto come fare per determinare quale sia il numero necessario di utenti al fine di rendere un nostro test statisticamente significativo.

In tutto ciò, però, si nasconde una problematica che andremo ad analizzare immediatamente.

Prendiamo il considerazione il test delle due pagine del nostro sito web e ripetiamolo allo stesso modo, ma facendo finta che il sito web che stiamo testando sia estremamente famoso e riceva, di media, 15.000 visite al giorno.

Considerando che avevamo bisogno di almeno 12.800 utenti prima di poter prendere in considerazione i risultati del nostro test, se consideriamo che il nuovo sito riceve 15.000 visite al giorno, tecnicamente ci troveremo nella posizione di avere tutti i dati necessari per poter iniziare ad analizzare i risultati dopo meno di 24 ore.

Sbagliato.

Ma scusa, adesso cosa cambia?

Se raggiungi il numero minimo di utenti prima di aver compiuto un intero ciclo aziendale, i tuoi risultati potrebbero risultare sbagliati.

Quello che intendo con ciclo aziendale è spesso riferito ad una periodo di una settimana.

Se fai partire il test di lunedì ed arrivi ad ottenere tutti i dati necessari nello stesso giorno, non dovresti comunque interromperlo prima della fine della settimana.

Il perché?

Il comportamento delle persone che acquistano di lunedì è spesso differente rispetto a coloro che acquistano nel fine settimana.

Ecco perché è necessario continuare a testare per un intero ciclo aziendale.

È necessario prendere in considerazione tutte le tipologie di utenti — e tutti i comportamenti d’acquisto –che durante la settimana si presentano sul nostro sito web al fine di ottenere dei risultati che rispettino la realtà in modo omogeneo.

Lo stesso vale per tutti i periodi di festività e per tutti gli eventi occasionali che si possono verificare durante l’anno.

Condurre un test del proprio sito web per capire come si comportino, di media, i tuoi visitatori, durante il periodo di Natale, risulterebbe completamente sbagliato, dato che, considerando il periodo dell’anno, i risultati sarebbero falsati e differenti rispetto a se avessimo condotto lo stesso test in un periodo non festivo durante l’anno.

Abbiamo finito. Ma prima, devo dirti una cosa molto importante…

Se l’articolo che hai letto ti è piaciuto, sappi che potrai ricevere quelli futuri che pubblicherò in anteprima, inserendo la tua email nel form alla fine di questa pagina.

E, rimanendo in tema, ti direi che, applicando un livello di confidenza del 5%, sono sicuro al 95% che ciò che ti invierò risulterà sempre utile.

Un abbraccio.

Luca Fontani

P.S. In caso tu avessi voglia di leggere dell’altro, ecco due articoli che potrebbero interessarti:

21 Strategie Per Formulare Un Prezzo Che Vende

Come Realizzare Un Piano Di Marketing Strategico

Luca Fontani

Founder @ Grapefox

Socio @ AdHoc Atelier

***

Newsletter. Più di 3.000 lettori ricevono i miei articoli via email. Scrivo ogni tanto e a ritmi alterni.

Send this to a friend
Ho letto un articolo che potrebbe interessarti e volevo condividerlo con te: https://lucafontani.it/test-ab/