Costruire un modello predittivo è il passo che separa lo scommettitore intuitivo da quello quantitativo. Non serve essere data scientist: un foglio Excel, dati pubblici e una logica strutturata sono sufficienti per creare un modello che produce stime probabilistiche più affidabili delle sensazioni a pelle. Il risultato non sarà perfetto — nessun modello lo è — ma sarà sistematico, replicabile e migliorabile nel tempo. Questo articolo introduce il processo dalla raccolta dati al backtesting, senza prerequisiti tecnici avanzati.

Raccolta Dati: la Materia Prima

Un modello è buono quanto i dati che lo alimentano. Raccogliere dati affidabili e pertinenti è il primo passo — e spesso il più sottovalutato — nella costruzione di un sistema predittivo.

Le fonti gratuite più utili sono FBref (xG, statistiche avanzate), Understat (xG per partita, mappe dei tiri), Transfermarkt (infortuni, valori di mercato) e Football-Data.co.uk (risultati storici con quote di chiusura di decine di bookmaker per i principali campionati europei). Quest’ultimo sito è particolarmente prezioso perché offre file CSV scaricabili con anni di risultati e quote, pronti per essere importati in Excel.

Per un modello di base, le variabili minime da raccogliere per ogni squadra sono: xG per partita (casa e trasferta), xG concessi per partita (casa e trasferta), forma recente (ultimi 5-6 match), classifica attuale e rendimento storico nei confronti diretti. Per un modello più avanzato, puoi aggiungere: possesso palla medio, tiri per partita, PPDA (Passes Per Defensive Action, una misura dell’intensità del pressing), infortuni pesati per importanza del giocatore.

La frequenza di aggiornamento dei dati dipende dalla tua operatività. Se scommetti ogni fine settimana, un aggiornamento settimanale è sufficiente. La chiave è automatizzare il più possibile la raccolta — anche solo con formule Excel che calcolano le medie a partire dai dati grezzi — per ridurre il tempo dedicato al data entry e dedicare più energia all’analisi.

Le Variabili Chiave: Cosa Predice Davvero il Risultato

Non tutte le variabili hanno lo stesso potere predittivo, e includerne troppe può peggiorare il modello anziché migliorarlo. La ricerca accademica sulle previsioni calcistiche ha identificato un set ristretto di variabili ad alto impatto.

L’xG differenziale (xG segnati meno xG subiti per partita) è la singola variabile più predittiva della performance futura di una squadra. Studi pubblicati su riviste come il Journal of Quantitative Analysis in Sports dimostrano che l’xG differenziale predice i risultati futuri meglio della classifica, della differenza reti e dei punti accumulati. La ragione è che l’xG filtra la componente di fortuna dai risultati, fornendo una misura più pulita della qualità effettiva del gioco.

Il rendimento casa/trasferta è la seconda variabile in ordine di importanza. Le squadre si comportano in modo significativamente diverso quando giocano in casa e in trasferta, e un modello che non distingue tra i due contesti perde informazione preziosa. Usare medie separate per casa e trasferta, anziché una media complessiva, migliora la precisione delle stime in modo misurabile.

La forma recente pesata completa il trio delle variabili fondamentali. Le ultime 5-6 partite sono più informative delle prime 5-6 della stagione, perché catturano lo stato attuale della squadra — infortuni in corso, coesione tattica, morale. Un modo semplice per pesare la forma recente è assegnare un peso decrescente alle partite più lontane nel tempo: l’ultima partita pesa il doppio della quinta più recente.

Un Approccio Semplice: la Regressione Lineare

Per chi non ha familiarità con i modelli statistici, la regressione lineare è il punto di partenza più accessibile. L’idea è semplice: combini le variabili predittive in una formula che stima il numero di gol attesi per ciascuna squadra, e da lì derivi le probabilità di ciascun risultato.

Un modello di base potrebbe essere: gol attesi squadra A = alfa + beta1 x (xG casa A) + beta2 x (xGA trasferta B), dove alfa, beta1 e beta2 sono coefficienti stimati sui dati storici. In pratica, un modo ancora più semplice per iniziare è calcolare la media tra l’xG offensivo della squadra di casa e l’xG difensivo (concesso) della squadra in trasferta — un modello “naive” che produce stime sorprendentemente ragionevoli.

Con i gol attesi per ciascuna squadra, puoi usare la distribuzione di Poisson per calcolare la probabilità di ogni risultato esatto. Excel ha una funzione POISSON.DIST che rende questo calcolo banale. Se stimi 1.6 gol per la squadra di casa e 1.1 per quella ospite, la distribuzione di Poisson ti dà la probabilità di ogni combinazione (0-0, 1-0, 1-1, 2-1, ecc.), da cui puoi derivare le probabilità di vittoria casa, pareggio e vittoria esterna.

Non è un modello sofisticato, ma è un modello — ed è infinitamente meglio di nessun modello. Produce stime esplicite e confrontabili con le quote del bookmaker, il che è tutto ciò che serve per iniziare a identificare value bet in modo sistematico.

Calibrazione e Backtesting: Verificare che il Modello Funzioni

Costruire un modello è metà del lavoro. L’altra metà — spesso trascurata con conseguenze disastrose — è verificare che funzioni prima di rischiare denaro reale. Il processo di verifica si chiama backtesting e consiste nell’applicare il modello a dati storici e confrontare le previsioni con i risultati effettivi.

Il modo più semplice per fare backtesting è dividere i tuoi dati in due periodi: usa la prima parte della stagione per calibrare il modello (stimare i coefficienti) e la seconda parte per testarlo (confrontare le previsioni con i risultati). Se il modello prevede che la squadra X ha il 55% di probabilità di vincere e, su 100 partite con previsioni simili, X vince effettivamente il 53-57% delle volte, il modello è ben calibrato. Se vince solo il 40% delle volte, qualcosa non funziona.

Un test fondamentale è il confronto con le quote di chiusura. Se il tuo modello identifica una scommessa come value bet (la tua probabilità stimata è superiore alla probabilità implicita nella quota), verifica se la quota di chiusura di Pinnacle conferma il tuo giudizio. Se le tue scommesse “value” hanno sistematicamente una quota di chiusura più bassa di quella a cui hai giocato, il tuo modello sta catturando valore reale. Se la quota di chiusura è più alta, il tuo modello sta sovrastimando le probabilità e le scommesse non hanno valore.

Il backtesting non è un esercizio da fare una volta e poi dimenticare. Il modello va ricalibrato all’inizio di ogni stagione con i dati aggiornati, perché le dinamiche del campionato cambiano — squadre che si rinforzano, allenatori che cambiano, stili di gioco che evolvono. Un modello statico è un modello che invecchia.

Errori Comuni nella Costruzione di Modelli

La modellizzazione predittiva è piena di insidie, e riconoscerle in anticipo risparmia tempo, denaro e frustrazione.

Il primo errore è l’overfitting: creare un modello troppo complesso che si adatta perfettamente ai dati passati ma fallisce sui dati futuri. Se il tuo modello ha dieci variabili e le ha calibrate su 50 partite, stai quasi certamente catturando rumore anziché segnale. La regola empirica è mantenere il modello il più semplice possibile — tre o quattro variabili sono sufficienti per un modello di base — e aggiungere complessità solo quando il backtesting dimostra che la variabile aggiuntiva migliora effettivamente le previsioni fuori campione.

Il secondo errore è il look-ahead bias: usare nel modello informazioni che non sarebbero state disponibili al momento della previsione. Per esempio, se includi il risultato del primo tempo come variabile per prevedere il risultato finale, stai “barando” perché al momento della scommessa pre-match quell’informazione non esisteva. È un errore più comune di quanto sembri, specialmente quando si lavora con fogli Excel che contengono dati di tutta la stagione.

Il terzo errore è non tenere conto delle quote nel backtesting. Un modello che identifica correttamente il vincitore nel 60% dei casi non è automaticamente profittevole — dipende dalle quote a cui avresti piazzato quelle scommesse. Il backtesting deve simulare l’intero processo: previsione, confronto con la quota, decisione di scommettere o meno, e calcolo del rendimento netto incluso lo stake.

Dal Modello alla Scommessa: il Ponte Operativo

Avere un modello funzionante non significa ancora saper scommettere. Il passaggio dal modello alla scommessa richiede una serie di decisioni operative che il modello non prende al posto tuo.

La prima decisione è la soglia di valore. Se il tuo modello stima una probabilità del 52% e la quota implicita è del 50%, hai un margine del 2%. È sufficiente per scommettere? La risposta dipende dalla tua fiducia nel modello e dalla tua tolleranza al rischio. Molti professionisti usano una soglia minima del 3-5%: scommettono solo quando il margine stimato supera questa soglia, per compensare l’inevitabile imprecisione del modello.

La seconda decisione riguarda lo staking. Puoi usare il flat staking (uguale per tutte le scommesse) o il criterio di Kelly (proporzionale al margine stimato). Il Kelly è teoricamente ottimale ma richiede una calibrazione molto precisa del modello — se le tue stime sono anche solo leggermente imprecise, il Kelly amplifica gli errori. Per un modello nuovo e non ancora collaudato, il flat staking è più prudente.

La terza decisione è il monitoraggio continuo. Un modello non è un sistema “set and forget”: va monitorato settimanalmente per verificare che le previsioni restino calibrate. Se dopo 50 scommesse il rendimento è significativamente peggiore del previsto, fermati e rivedi il modello prima di continuare.

Il Modello Perfetto Non Esiste, Quello Tuo Sì

Nessun modello predittivo cattura tutta la complessità di una partita di calcio. Ci saranno sempre variabili che non hai incluso, eventi che non potevi prevedere e risultati che sfidano qualsiasi logica. L’obiettivo non è la perfezione — è avere un processo sistematico che produce stime migliori dell’intuito e migliori delle quote del bookmaker su un campione sufficientemente ampio. Un modello semplice, ben calibrato e disciplinatamente applicato batte un modello complesso, mal testato e usato in modo intermittente. La forza non sta nell’algoritmo — sta nella consistenza con cui lo applichi e nella onestà con cui ne verifichi i risultati.

Verificato da un esperto: Alice Pellegrini