Verso un modello di previsione delle recensioni | Uno studio empirico sui vini e gli appassionati dalla piattaforma Vivino

Verso un modello di previsione delle recensioni | Uno studio empirico sui vini e gli appassionati dalla piattaforma Vivino

Come potrete facilmente intuire, mio fratello minore Emiliano è quello socialmente presentabile dei due: Professore Associato all’University College London – Dipartimento di Computer Science, tra i massimi esperti mondiali in protocolli di sicurezza di reti e altre diavolerie che non sono minimamente in grado di spiegare (risparmiandovi la lista chilometrica di ricerche, pubblicazioni e conferenze in giro per il globo). 

Qualche tempo fa ha inspiegabilmente voluto coinvolgermi in un nuovo lavoro da lui coordinato e sviluppato dalla dottoranda Neema Kotonya, che ha portato ad un articolo scientifico recentemente pubblicato negli atti della Conferenza Internazionale su “Advances in Social Network Analysis and Mining”, tenutasi a Barcellona lo scorso agosto. Provo a raccontarvi “in breve” cosa abbiamo fatto, mentre chi fosse interessato al paper completo può scaricarlo qui: link.
___________________________________________________________________________________

Of Wines and Reviews: Measuring and Modeling the Vivino Social Network

Focus principale dello studio: come utilizzare tecniche di big data e social network analysis al fine di classificare (e in prospettiva prevedere in maniera affidabile) le modalità con cui vini prodotti in tutto il mondo vengono consumati, valutati e recensiti da una comunità internazionale di utenti.

Nel caso specifico analizzando i dati condivisi dalla piattaforma Vivino, creata nel 2009 da Heini Zachariassen e successivamente potenziata insieme al collega Theis Sondergaard. Fruibile sia in versione web (vivino.com) sia attraverso l’omonima app, è da molti conosciuta come “lo shazam del vino” grazie alla funzionalità scanner, che permette di accedere alla scheda del vino e del produttore semplicemente caricando tramite smartphone la foto dell’etichetta. 

Ma si tratta in realtà di un vera e propria rete specializzata, che consente agli appassionati di comunicare e seguirsi a vicenda, condividere impressioni di assaggio, valutazioni e consigli. Come accade sempre più anche attraverso social network “generalisti” (Instagram, Twitter, Facebook), ma con il valore aggiunto di un data base dedicato (e relative opportunità di ricerca/indicizzazione), per non parlare della possibilità di acquistare bottiglie direttamente attraverso venditori esterni.

Una miniera di informazioni, considerando i numeri raggiunti in questi anni: 29 milioni di utenti, 9 milioni di vini unici postati, 89 milioni di valutazioni e 30 milioni di recensioni (dati Vivino aggiornati al 30 marzo 2018). Ed è proprio la rilevanza del campione a cui attingere che ci ha permesso di elaborare i modelli di misurazione e profilazione successivamente illustrati.

I dati di partenza

Tra Novembre 2016 e Marzo 2017 abbiamo raccolto una grande quantità di dati dal sito di Vivino, organizzati in 4 campi principali e relative sotto-categorie:

1. Vini | Nome, tipologia, annata, prezzo medio, rating medio, numero di rating, “rating breakdown” (numero di valutazioni ricevute da 1, 2, 3, 4 e 5 stelle), nazione, regione, stile regionale, azienda, abbinamenti consigliati e vitigni: oltre 1 milione di vini unici prodotti in 49 diverse nazioni

2. Utenti | Username, profilo biografico, nazione di provenienza, ranking (come si posiziona in termini di valutazioni/recensioni rispetto ad altri utenti della stessa nazione), numero di followers, numero di utenti seguiti, profilo “taste” (tipologie preferite in base ad origini territoriali e caratteristiche), numero totale di rating condivisi ed eventuale “certificazione Vivino” (speciale status che promuove sull’applicazione il profilo e le sue recensioni ad altri utenti): i 137.000 utenti più attivi delle 15 nazioni (circa 10.000 per nazione) con il livello più alto di consumo enoico (secondo i dati dell’OIV)

3. Recensioni | 772.000 annotazioni postate da circa 370.000 utenti singoli e riferite ad 86.600 vini unici. Per ogni recensione viene registrato in data base: nome del vino, annata, contenuto della recensione (che include username dell’autore e numero di valutazioni assegnate), data ed eventuali repliche di altri utenti

4. Aziende | Scheda anagrafica (nome, numero di vini prodotti, url della pagina profilo Vivino), numero di rating, rating medio, indirizzo (coordinate gps, nazione e regione), indirizzi web e social network: 8.300 produttori unici

Nella prima fase i dati sono stati utilizzati per studiare le relazioni che legano il rating assegnato a un determinato vino e ad alcune sue caratteristiche. Esaminando anche i meccanismi con cui preconcetti e convinzioni influiscono sulla scelta dei vini bevuti e su come vengono valutati. E analizzando al contempo il linguaggio adottato dagli utenti nelle schede biografiche e nelle singole recensioni. I risultati sono stati poi integrati per sviluppare un sistema capace di determinare con un certo grado di affidabilità future valutazioni e recensioni

In altre parole, mostriamo come utilizzare i dati ricavabili dalla piattaforma Vivino per generare: a) un modello predittivo delle valutazioni assegnate ai vini; b) un modello di categorizzazione delle preferenze di ciascun utente.

Modelli di fruizione: conferme e smentite

L’aspetto a mio avviso più interessante dello studio deriva dalla possibilità di aprire una finestra conoscitiva sull’utente finale. Un appassionato smanettone, tendenzialmente anglofono e piuttosto motivato nel condividere le proprie preferenze ed impressioni (oltre che a ricavarle dalle esperienze altrui): non esattamente il prototipo del bevitore “medio”, certo. Ma pur sempre informazioni rare e preziose in un campo ad oggi poco esplorato, specialmente se pensiamo alle principali ricerche ancora basate più che altro su dati macro (flussi commerciali e volumi di consumo, ad esempio) oppure su modelli ricavati da articoli, giudizi e rating proposti dalla critica specializzata.

Da questo punto di vista il lavoro ha segnalato fin dai primi step una serie significativa di conferme e smentite rispetto a quanto ci aspettavamo di trovare in riferimento ai principali comportamenti di selezione e fruizione monitorati. Eccone alcuni, pienamente supportati dall’ampiezza del campione statistico e degli strumenti di analisi comparativa:

* Le valutazioni e le recensioni condivise dagli utenti di Vivino evidenziano una conoscenza collettiva dei vini prodotti nel mondo quantitativamente paragonabile a quella rintracciabile nei canali classici della comunicazione professionale;

* I contributori della piattaforma producono un numero esponenzialmente più ampio di valutazioni rispetto ai 7 wine expert più prolifici (1.4 milioni di rating assegnati su Vivino tra il 2011 e il 2015 Vs 370mila totali dei top influencer);

* C’è una correlazione piuttosto forte tra il sistema di valutazione di Vivino (come detto da 1 a 5 stelle con granularità di mezzo punto) e la scala a 100 punti di Robert Parker-Wine Advocate;

* Non si riscontra invece alcuna evidenza statistica che metta in relazione le valutazioni degli utenti con il prezzo d’acquisto: ovvero, i vini più costosi non ricevono automaticamente rating più alti (in media) rispetto a quelli più economici;

* Gli utenti Vivino segnalano una forte propensione a consumare e classificare vini locali e si configurano evidentissime similitudini geografiche nel modo in cui vengono valutate bottiglie provenienti da regioni o nazioni limitrofe

Qualche statistica

* Paesi. Il 98% dei vini analizzati è prodotto in 21 diversi Paesi, ma circa il 70% proviene esclusivamente da 4: Francia, Italia, Spagna e Stati Uniti (che sono anche le principali nazioni produttive e mettono insieme circa il 59% dei volumi mondiali)

* Valutazioni. I rating assegnati ai vini sono generalmente favorevoli: i più comuni rientrano tra 3 e 4 stelle, i Paesi che ottengono le valutazioni medie più elevate sono gli Stati Uniti (3.84), la Germania (3.79) e la Francia (3.78), mentre agli ultimi posti troviamo Cile (3.46), Brasile (3.36) e Romania (3.28).
La più alta percentuale di valutazioni per vino si registra invece tra Argentina (145.35 rating per singola etichetta), Cile (112.57) e Brasile (99.51)

* Prezzi. Dove disponibili, sono stati raccolti anche i prezzi (in Sterline Britanniche) dei vini acquistabili presso i rivenditori del Regno Unito collegati a Vivino. 
Oltre l’80% delle etichette più costose sono prodotte in Francia, che guida la classifica anche per quel che riguarda il prezzo medio dei vini censiti (£ 127.12), seguita da Stati Uniti (£ 67.54) e Portogallo (£ 64.69). In coda ci sono invece Romania (prezzo medio di £ 11,62), Sud Africa (£ 15.54) e Croazia (£ 15.94)

* Recensioni. I vini prodotti tra Stati Uniti, Francia e Italia sono comprensibilmente quelli che ricevono il maggior numero di recensioni e repliche postate da altri utenti: rispettivamente 209mila, 139mila e 132mila recensioni, a cui si aggiungono 127mila, 148mila e 117mila repliche. 
La più alta percentuale di engagement è ottenuta tuttavia da vini prodotti in altri Paesi: nella fattispecie Croazia (1.80 repliche per commento), Regno Unito (1.68) e Israele (1.32)

Analisi dei rating: altre tendenze

In principio furono newsgroup e forum: tecnologie primordiali, ma a tutti gli effetti i primi veri spazi “social” colonizzati dagli appassionati. Basati su modalità di fruizione “orizzontale” e destinati ad alimentare quei processi di disintermediazione oggi sotto gli occhi di tutti, che rendono sempre meno sostenibile il lavoro dei media “ufficiali”.

Una delle questioni che torna continuamente nell’era del vino parlato riguarda proprio l’autorevolezza riconosciuta a giudizi, punteggi e premi attribuiti a vini e cantine in varie forme dalla critica specializzata. Al di là delle fisiologiche disparità di vedute, intrinsecamente legate alla soggettività di esperienze e preferenze, si è progressivamente radicata tra molti appassionati una convinzione molto precisa: che i presunti esperti siano maggiormente influenzati da fattori esterni al bicchiere rispetto al “semplice bevitore” e che il costante aumento di vini valutati con rating alti non rispecchi la reale qualità dell’offerta.

Tendenza apparentemente certificata dai numeri: basti pensare ai 100/100 Parker-Wine Advocate (passati dai 17 del 2004 ai 103 del 2013), così come al numero di etichette segnalate al vertice dalle principali Guide specializzate (in media quasi raddoppiate in poco più di un quindicennio).

Il data base ricavato da Vivino racconta invece una realtà diversa. A prescindere da tipologia, paese di origine e varietà, i vini prodotti tra il 1960 e il 2000 sono preferiti piuttosto nettamente ai “nuovi” da parte degli utenti. Rating medio che si abbassa in particolare prendendo in esame il periodo successivo per i vini del “vecchio mondo”, con una parziale inversione di tendenza a partire dalla vendemmia 2016.

Declino che peraltro coinvolge tutte e quattro le nazioni di riferimento per volumi prodotti e numero di vini valutati/recensiti: nella finestra 2000-2010 il rating medio degli Stati Uniti perde 0.04 punti, l’Italia 0.21, la Francia 0.26, la Spagna 0.17.

Vuol dire quindi che nel nuovo millennio si producono vini “meno buoni” rispetto al precedente quarantennio? Ovviamente no. Ma le analisi dei rating ci dicono comunque tre cose interessanti: 
1) gli utenti-appassionati di Vivino hanno in generale una percezione positiva dell’espressività che caratterizza i vini maturi; 
2) l’incremento del numero di utenti attivi sulla piattaforma determina una differente distribuzione dei rating e una sua generale tendenza al ribasso per quanto riguarda i valori medi;
3) il vertiginoso aumento dei vini valutati dalla critica specializzata con i massimi punteggi non appare comunque suffragato dai rating condivisi sulla piattaforma nella medesima finestra temporale.

Analisi del linguaggio 

Questa parte della ricerca si basa principalmente su tecniche di Natural Language Processing, applicate all’analisi delle biografie e delle reviews: le prime sono “tag-lines” e piccole descrizioni sul profilo di ogni utente, le seconde variano da commenti molto semplici che esprimono approvazione o disapprovazione fino a testi piuttosto lunghi e complessi che descrivono l’esperienza di assaggio e propongono una vera e propria prospettiva critica.

i. Biografie e relazioni tra utenti

Solo l’11% del campione (16mila dei 137mila maggiori contributori) condivide informazioni nella sezione biografica. Numeri che sembrano immediatamente segnalare un’intenzione: sono le informazioni e i rating sui vini piuttosto che le connessioni sociali a fungere da principale motivazione per l’interazione degli utenti su Vivino.

Una conferma in tal senso arriva anche dall’analisi dei termini maggiormente utilizzati nelle schede-profilo: “sommelier”, “Wset” o altre qualifiche professionali di assaggiatore (come N2, N3, N4, N5). Più in generale le biografie che suggeriscono esperienze e competenze da “esperto” sono significativamente superiori a quelle che indicano uno stato da “amatore”, “neofita”, “apprendista”, e così via. 

Descrittori facilmente prevedibili in base al numero di valutazioni postate: la presenza di “learning”, “student”, “enthusiast” è molto alta per gli utenti con meno di 1.000 rating assegnati, mentre si abbassa notevolmente per quelli che hanno contribuito con un numero maggiore, dove aumentano specularmente i riferimenti alle qualifiche Wset, indirizzi web e mail. Un’altra chiara testimonianza del fatto che gli utenti più esperti (o che si considerano tali) tendenzialmente cercano nella piattaforma più connessioni professionali che sociali.

ii. Reviews e repliche

Abbiamo esaminato note e recensioni pubblicate su Vivino dall’8 Settembre 2012 al 27 Marzo 2017, con relative eventuali repliche: la maggior parte di esse esprimono apprezzamento o gratitudine per la condivisione delle impressioni di assaggio (“dear”, “thanks”, “sharing”) e non forniscono pertanto elementi di particolare rilievo per la nostra ricerca.

Sicuramente più interessante invece è l’analisi testuale delle reviews vere e proprie, effettuata utilizzando il Natural Language Toolkit (NLTK). Quasi sempre accompagnate da un punteggio quantitativo, in generale si soffermano sulle caratteristiche classiche del vino (aspetto, aromi, sapori) e suggeriscono piatti con cui abbinarli oppure occasioni in cui servirli. Nonostante siano solitamente di breve lunghezza, le note postate dagli utenti attingono ad un vasto vocabolario comunemente adoperato dalla critica enoica specializzata.

I descrittori più ricorrenti sono: good, nice, great, smooth, dry, fruity, light, red, sweet, well, insieme a “tannini” e “acidità”. Le combinazioni più frequenti sono invece: “full (medium) bodied”, “long finish”, “easy drinking”, “well balanced”, “pinot noir”, “good value”, “green apple”, “fruit forward”.

Modelli di previsione dei rating e delle preferenze

I dati generati dagli utenti di Vivino permettono di costruire un algoritmo potenzialmente capace di prevedere le valutazioni che un utente potrebbe assegnare ad un determinato vino, basandosi su prezzo, regione, nazione, tipologia, stile produttivo, abbinamenti gastronomici e/o vigna. Un modello già affidabile al 70%, che accresce esponenzialmente la sua accuratezza con l’ampliamento del campione e dei dati storici registrati.

Ancora più efficace si rivela il modello di classificazione delle preferenze, che si sviluppa partendo da un’analisi dei rating appositamente focalizzata sugli utenti. Da cui si evince in primo luogo che gli appassionati di Vivino preferiscono valutare vini prodotti nei loro Paesi o al massimo in quelli limitrofi: non necessariamente quelli che ottengono i rating più alti, soprattutto se parliamo di bevitori del “Nuovo Mondo”.

Dal profilo viene acquisita la storia completa dei rating medi e del numero di valutazioni assegnate a ciascuno stile regionale recensito dall’utente, poi associate alle dieci principali nazioni produttrici. Ne deriva un algoritmo “Random Forests” in grado di classificare le preferenze dell’utente con un indice di accuratezza del 79,8%.

In conclusione, guardando al futuro…

Il nostro studio prova a raccontare in che modo convinzioni pregresse, fattori regionali e caratteristiche organolettiche influenzano i rating su Vivino. Muovendo da variabili come annata e regione di provenienza quali principali indicatori da monitorare per prevedere come un utente valuterà un determinato vino.

Inoltre la raccolta di una quantità significativa di dati storici rende possibile predire i comportamenti di consumo e fruizione degli utenti di Vivino. Utilizzando algoritmi di intelligenza artificiale anche per proporre eventuali consigli e percorsi di assaggio, un po’ come accade con i suggerimenti di Netflix ai suoi abbonati

Più in generale, la nostra ricerca dimostra che c’è una sorprendente consistenza tra le review dei contributori della piattaforma: in altre parole, le valutazioni non sono casuali e i contenuti di tipo spam/troll non pregiudicano la credibilità dei rating assegnati ai vini dagli utenti su larga scala. 

Ovviamente è solo un primo passo, anche in considerazione dei limiti ancora segnalati dai nostri modelli: i dati utenti raccolti non hanno la stessa granularità di quelli riferiti ai vini e le elaborazioni andrebbero testate su altri sistemi di condivisione social strutturati in maniera diversa da Vivino. 
Speriamo quindi di incoraggiare altri ricercatori e specialisti a continuare il lavoro, ad esempio per pervenire ad una comprensione più dettagliata della percezione e del racconto delle caratteristiche dei vini, così come dell’evoluzione geografica e storica dei loro consumi, valutazioni e prezzi.

Of Wines and Reviews: Measuring and Modeling the Vivino Social Network (scarica il paper completo in pdf)

 

Arbitro di calcio, runner, esperto di comunicazione con fama di persona seria e morigerata. Ero tutto questo prima di prendere 20 chili, scoprire il vino e auotoconvincermi di poter vivere scrivendone.