Twitter: trending topic, vortici e delfini

Incipit

Ci sono momenti in cui il caso scioglie, con un colpo di mano, situazioni irrisolvibili, intrecciando storie che in teoria non dovrebbero incrociarsi e dipanando così il tutto.

Questo post nasce da uno di questi casi.

La sera del 18 maggio, in treno, come sempre, davo un’occhiata a twitter, in attesa della partenza. D’un tratto un paio di tweet di amici con hash #mcctest hanno attirato la mia attenzione. Non persone qualsiasi, ma membri del gruppo Gilda35, “gruppo di satira dadaista sul professionismo di internet”, “esimi ricercatori” nonché profondi conoscitori della Rete.  Se la Gilda35 si muove in gruppo ci sono solo due cose che si possono fare: o si osserva lo spettacolo, o si diventa parte dello stesso. All’improvviso, mentre guardavo scorrere quel flusso di tweet, mi sono reso conto che #mcctest era in Trending Topic. Dal treno, a parte fare qualche retweet, si poteva poco, ma quel flusso prodotto da account noti per me era ordinato, quindi arrivato a casa ho iniziato ad analizzarlo per capire come era finito in Trending Topic: la contemporanea presenza delle directioners (fan della boyband OneDirection) con #italythanksoned e più tardi in serata anche degli hash della trasmissione Amici (#amici, #antonino, #annalisa) in Trendic Topic erano  perfetti  per un’ analisi comparata. Trovare il tempo per analizzare una serie di flussi “giusti” e tirare così fuori una formula semplice per capire come funzionano i trending topic era una cosa che volevo fare da un po’.

Il primo passo: pochi dati, ma buoni

Con tutti i dati della serata in mano, alla fine sono riuscito ad identificare una grandezza che Twitter potrebbe usare per calcolare chi mettere come Trending Topic:

Come è facile capire, queste ultime tre grandezze non sono indipendenti tra loro, ad esempio il numero totale di twittatori unici non può essere superiore al numero totale di tweet e anche la media dei follower dipende dall’ insieme dei follower stessi.  Nel contesto dei Trending Topic, dove vince temporaneamente chi ha ɸ più alto, anch’esso può essere considerato una variabile, e quindi in generale può essere più utile andare a considerare su tutta Twitter (dimenticandoci per il momento del valore del meme) la funzione:


Ci sono cinque variabili: quindi questa è una funzione in uno spazio a 5 dimensioni, dove 2 variabili sono discrete, cioè definite come numeri naturali (il numero di tweet, il numero dei twittatori unici), due sono numeri reali ma non possono assumere tutti i valori dati i vincoli (la funzione e i followers medi), e infine il tempo, che come è solito fare va in una sola direzione.  Con i vincoli tra le variabili, diventa una superficie in uno spazio a 5 dimensioni: non è facile raccontarla, per non dire disegnarla.

Giù nel profondo: le dimensioni che non si possono vedere

Si dice che Internet è liquida. Io preferisco dire fluida, perché i fluidi oltre che essere liquidi, possono essere anche gas o plasma. Il senso comune associa ai fluidi comportamenti esclusivamente irregolari e disordinati e caotici, mentre essi possono avere delle strutture regolari e ben delimitate: nel mare ci sono le correnti, nell’ atmosfera ci sono le perturbazioni e al loro interno le nuvole. In qualche caso il comportamento dei fluidi può addirittura essere predetto con sufficiente precisione, senza nemmeno l’ausilio di supercomputer e di analisi di grosse moli di dati: è da qualche millennio che i pescatori sanno quando stanno per cambiare  le maree.

Le specificità di Twitter sono legate all’osservabilità di chi fruisce dei contenuti. Poiché non è un social network e il suo meccanismo di propagazione è broadcast (come le tv via etere), tutto ciò che in condizioni standard è osservabile e quindi misurabile sono i segnali che gli utenti mandano, ossia i loro tweet. Più o meno come la vecchia TV: c’è bisogno di avere un certo numero di TV con un rilevatore per effettuare le misurazioni Auditel.

Immaginiamo un piano diviso in celle, in cui il contenuto di ogni cella è un meme, ossia un’unita di informazione riconoscibile, una parola ricorrente nelle conversazioni (ad esempio nella figura di seguito gli hashtag “#europei2012”, “#legge194”, “#pessoa”) e l’ altezza della perturbazione del piano è in qualche modo collegato a quanto è importante per Twitter quel flusso di messaggi prodotti sul meme.


Twitter ha un engine che analizza in near real time tutti i tweet e calcola quali sono i dieci che devono emergere nei trending topic. Questo calcolo deve essere fatto con  una formula piuttosto semplice, poiché deve essere calcolata in continuazione, non può occupare molte risorse e deve essere fatto su tutti i tweet sufficientemente vicini nel tempo. Deve inoltre dipendere solo da grandezze scalari dei tweet esistenti sul meme (non può dipendere dalla struttura della rete dei followers). Deve inoltre garantire stabilità su un intervallo di fruizione ragionevole per l’ esperienza umana: deve essere trasparente ai glitch, ossia non può dipendere da picchi perturbativi veloci nel tempo (ad es. un tweet di un utente con 100.000 follower + un retweet di un altro utente con altri 100.000 follower). Questo comporta anche che ogni item di attività su un meme deve esistere per un certo tempo prima di poter andare in trending topic.

Su quel piano (che è un piano solo per il momento, perché stiamo semplificando la struttura dell’algoritmo) ogni collinetta, ogni perturbazione,  è una di quelle superfici a 5 dimensioni che abbiamo visto prima.  Una perturbazione è l’insieme dei tweet con lo stesso hashtag, è quindi l’insieme delle conversazioni che trovano il loro significato intorno all’ hashtag,  che “ruotano” intorno all’ hashtag. Una cosa fluida che ruota all’interno di un altro fluido ha un nome preciso: è un vortice.

Esistono 2 regimi differenti:

1. Quando i tweet con un certo hashtag sono visibili solo a coloro che hanno twittato con quel meme e ai loro follower diretti, l’hashtag è a dominio di visibilità limitato o locale.

2. Quando il meme è arrivato in trending topic e quindi è visibile a tutti  il dominio di visibilità è globale (per il momento dimentichiamo che esistono i Trending Topic nazionali e poi quello globale)

Nel primo caso, il meme deve essere sostenuto dall’azione congiunta del gruppo che lo promuove, il cui scopo è quindi quello di allargare il network in maniera percolativa (ossia cercando di coinvolgere altri twittatori attraverso i loro follower).  Nel secondo caso, il meme è visibile a tutti, quindi tutti coloro che sono interessati all’argomento del meme possono contribuire col meme giusto.



Le immagini precedenti mostrano in maniera qualitativa (le dimensioni reali continuano ad essere cinque…)  un  vortice in accrescimento che ingloba quelli vicini (a volte capita che lo stesso evento nasca con più di un hashtag, ad un certo punto decadono  tutti meno uno, che risulta poi l’ unico usato) Il vortice continua ad allargarsi coinvolgendo più persone, poi si stabilizza e alla fine si spegne.

Una volta arrivato nei Trending Topic, il destino del vortice dipende dalla tipologia del meme.

Poiché Twitter non è un social network, ma un news network , nel caso in cui il meme è associato ad un argomento di interesse pubblico la forma ed il comportamento del vortice continuerà ad essere lo stesso precedente e continuerà ad accrescersi di contenuti e di nuovi twittatori (ad esempio #europei2012, #terremoto, monti alla camera ….).

Ma c’ è un secondo tipo di vortice che può generarsi: il vortice toroidale (detto anche ad anello).  Il video mostra i vortici toroidali generati in natura da delfini, balene e vulcani (clicca sull’immagine per vedere il video).

Come se non ci fossero sufficienti motivi per desiderare di essere dei delfini ….

Un vortice ad anello su Twitter ha una struttura chiusa su se stessa e sui twittatori che continuano ad alimentare il meme, riuscendo a mantenerlo in TT, ma senza riuscire a coinvolgere altre persone. In questo caso è l’argomento del meme che è a dominio limitato, ossia interessa solo ad una community circoscritta, per quanto grande. Questo è quello che ottengono i beliebers (i fan di Justin Bieber) e i directioners (i fan degli OneDirection) quando giocano. Portare in Trending Topic un hashtag è la quotidiana sfida epica (per usare le parole di Jane McConigal) di questi due gruppi di fans. In questo caso sono le logiche fandom a governare tutto: il grafico di seguito mostra l’andamento dei tweet dell’ hashtag #twitcamvalebise e i livelli di ingaggio di un non ristretto gruppo di persone (40 persone hanno twittato più di 20 volte su un totale di 700 partecipanti) mostrano che tutto questo è stato generato per una giusta causa. Il senso era: “ragazzi, sto in webcam, fatemi arrivare in TT” (circa 2800 tweets il 4 giugno ed altri 1200 il giorno dopo).




Questo tipo di community-activities evolvono per conto loro, indipendentemente da quello che succede intorno, proprio come gli anelli dei delfini.

Ritorno in superficie

La formula mostrata sopra, che si è rivelata vera tutte le volte che ho provato a verificarla, non mette in evidenza che a parità di valore di flusso ɸ generato, i Trending Topic prediligono stream di hashtag con molti twittatori unici, rispetto agli stream con twittatori con grosso numero di followers. Ciò è sicuramente causato dalla necessità di avere una struttura di Trending Topic non fortemente oscillante. Un pensiero che ho in mente da parecchio, ma non ho avuto modo di verificare è legato al “potere di influenza” degli account coi molti followers nel calcolo dei Trending Topic, ossia al peso che essi hanno nel contribuire. La mia mente corre ad una predizione (sbagliata) della teoria dell’ elettromagnetismo classico,  la formula di Rayleigh-Jeans, meglio nota come catastrofe ultravioletta. La formula predice che all’equilibrio termico la densità di energia di un corpo nero è proporzionale alla sua temperatura e alle frequenze (al quadrato). Rapportandolo a Twitter, un utente con molti, molti follower dovrebbe “per sua natura”contribuire molto, molto  ai TT: ma non è quello che si osserva in pratica. In fisica la questione fu risolta da Plank, che introdusse i quanti di energia i quali a loro volta portarono in maniera naturale alla modifica della funzione di distribuzione di energia. Il pensiero che ho in testa mi dice che per mantenere stabilità ai TT il peso del contributo di un utente prima deve crescere, poi deve stabilizzarsi se non addirittura diminuire sui grandissimi numeri. D’altra parte, Twitter è una rete quantistica…

Ros

22 comments

  1. Interessante. hai idea di quanto influisca sulla viralità e il reach di un #hashtags il diventare un TT? Inoltre volevo chiederti se twitter secondo te ha una strategia per evitare che i gruppetti di twitters si uniscano per scalare sui TT. Tiene conto l’algoritmo delle relazioni tra users?

  2. Partiamo prima dalle domande facili:
    – I TT tengono conto delle relazioni tra gli users: io ho assunto come ipotesi, che twitter non tenga conto della forma della rete tra gli users. Se cosi non fosse, twitter in qualche modo distinguerebbe la destra dalla sinistra. Questo significherebbe perdere delle simmetrie, ma anche che tutto dipenderebbe dall’ algoritmo scelto per descrivere la rete. Brutto. Inoltre richiederebbe una quantità di calcoli notevoli senza poi apportare benefici agli utenti finali.

    -strategia contro i gruppetti che scalano i TT. Qui bisogna avere più punti di vista: i beliebers sono senza dubbio una fonte di successo per twitter, sono utenti molto attivi ed alla fine il loro fine non è fare i griefer, è giocare. L’ occupazione praticamente quotidiana di qualche TT originato dai teenagers sicuramente riduce il numero dei TT disponibili a chi non è interessato. Anche per questo (ma secondo me non solo per questo) twitter sta introducendo i Tailored Trends http://blog.twitter.com/2012/06/tailored-trends-bring-you-closer.html .

    -diventare TT aumenta la reach: sicuramente. Prima di diventare TT un hashtag è visibile solo ai follower di chi twitta conn quell’ hash. Quando l’ hash è in TT, è in spalla sinistra sulla main page di tutti quelli che sono connessi. In linea teorica, quantificarlo è facile: basta calcolare la rete di tutti gli utenti connessi. In pratica è impossibile, poichè non è possibile sapere chi sono gli utenti connessi se non twittano.
    -aumento di viralità una volta in TT: qui il discorso è ancora piu sottile o se vuoi scivoloso: a volte mi capita di vedere dei TT che non comprendo. Clicco, mi rendo conto che è uno stream che non mi interessa e chiudo. Non si può dire che io sia stato “viralizzato”.
    Su twitter il meccanismo di broadcast si porta dietro la non osservabilità delle fruizioni passive (letture) come nel web, ma solo comportamenti attivi (invio tweet), quindi per tutte le grandezze aggregate si possono solo effettuare stime su modelli teorici dove la prima cosa da fare è capire se il modello teorico è quello giusto …. it’s a long way :-)

  3. Complimenti davvero Rosario per il post, per l’analisi e la ricerca che hai fatto e sopratutto grazie di averla condivisa.

  4. Articolo interessantissimo. @U-Black: più che di armonia della matematica, parlerei della meravigliosa capacità della fisica di individuare modelli per i fenomeni più disparati!

  5. Rosario, hai scritto un post che è un capolavoro di sociologia computazionale.
    Appena decidi di fare un seminario per professionisti sulle cose che sai e sui progetti su cui lavori, ricordati di chiamarmi che vengo correndo per imparare e studiare.
    Nota l’assenza di faccine: non sto scherzando.

    Complimenti.

    :-)

    (qua però ci stava bene)

  6. Grazie a tutti per i complimenti.
    Alcuni amici mi hanno fatto notare che alcuni passaggi sono un po densi.
    E’ stata una scelta per evitare di rendere il post troppo lungo, anche perchè
    non sapevo a quanti lettori poteva interessare una cosa cosi tecnica.
    Paiono esserci, quindi prossimamente farò altri post più dettagliati.

    @Davide: onorato dell’ invito :-D

  7. Ciao Fabio.
    Due punti critici, quelli che tocchi.
    La numerosità di tweet per unità di tempo è sicuramente importante, infatti io definisco t come intervallo di tempo, non come valore istantaneo. Quindi per me è “numero di tweet in mezz’ ora (piuttosto che 10 minuti)”.
    Ma per entrare nei TT non è sufficiente che un account tweetti per mezz’ ora una volta ogni 10 secondi con lo stesso hashtag, ma, questo è quello che si osserva, è necessario che più persone twittino con lo stesso hash. A parità di tweets e di twittatori, dovrebbe andare in TT l’ hashtag nominato dalla rete con piu follower. Tutto questo va fatto con i 10 hash contemporaneamente in TT. Non è quindi determinante il valore della “prestazione” del singolo hashtag, ma nche quello che gli succede intorno. (come il meccanismo della griglia di partenza dela F1: non conta se fai il giro in un minuto, dipende da quello che fanno gli altri). la stessa distribuzione di tweets e twittatori nell’ unità di tempo, puo valere il primo posto in TT alle 3 di notte, ma addirittura non entrare ei TT in pieno giorno, se c’ è una battaglia in corso tra beliebers e directioners.
    In ogni caso grzie per la url, l’ ho riguardata, ma non avendo i dati grezzi ed essendo i grafici relativi soo ai trend che interessavano gli autori dell’ articolo, non riesco a fare una valutazione.
    Comunque queste questioni si dipanano solo con un numero sufficiente di misure: è quindi solo una questione di tempo.
    grazie

    Ros

  8. …Sono rimasta con la bocca spalancata per tutta la lettura.
    Ho capito solo lo psi davanti alla formula…deformazione professionale :D
    Ma è bellissimo, giuro! :*