Emersione del senso da una matrice di termini
Andiamo avanti nel nostro viaggetto (guidato dal nostro personal trainer) nel mondo degli algoritmi di ricerca e della matematica che rende possibile far emergere senso da una serie apparentemente neutra di elementi. Questo è uno dei problemi principali di quella branca dell'informatica e della statistica applicata che si chiama information retrieval, ed è anche uno dei problemi chiave se, come nel caso di quello che stiamo cercando di combinare, ci troviamo di fronte alla necessità di inventare strumenti tutto sommato nuovi che facciano emergere da un set di dati alcune possibilità in termini di senso (politico).
Oggi approfondiamo il concetto di Latent Semantic Indexing, ovvero di quel processo matematico attraverso il quale un insieme di documenti e termini vengono disposti in un matrice multidimensionale, indicizzati e analizzati in maniera furba per ottenere un informazione sulla rilevanza di ogni documento rispetto a ogni termine, di ogni documento rispetto ad un altro, e di ogni termine rispetto ad ogni altro. Anche in questo caso come nel precedente paper, è facile immaginare come questo processo possa produrre come risultato delle suggestioni profonde sulle possibilità di una comunità.
LSI (anche nota come LSA) è una tecnica che rappresenta grosso modo l'evoluzione della delusione rispetto all'impossibilità di creare una Intelligenza Artificale cosiddetta forte, ma allo stesso tempo rappresenta un po' la vittoria di quegli approcci meno assolutisti che cercano di dare alla relazione tra le cose, le parole, i concetti il giusto peso. Ovviamente nel nostro viaggio siamo ancora lontani dal capire come applicare tutto questo a qualcosa che abbia politicamente un senso, ma è interessante notare come tutta l'enfasi che mettiamo sulle relazioni e sulla loro importanza, abbia un suo corrispettivo nell'evoluzione delle branche della matematica e della statistica al momento più rilevanti. Non a caso infatti l'LSI è un piatto forte dei progetti di Search Engine Optimization, e tutte le società che lavorano nell'ambito della ricerca sanno che una buona implementazione di un motore di ricerca "intelligente" ovvero più attento all'elemento contestuale, semantico, relazionale, sarà la chiave per la nuova generazione di business legato al recupero e alla organizzazione direzionata di informazioni.
Forse lo conosci, ma in ambito di network clustering e community detection (community di utenti, o di parole, o di significati), il lavoro che secondo me rimane piu’ importante e’ quello di Kleinberg (http://www.cs.cornell.edu/home/kleinber/auth.pdf) che ha una certa eta’ (1999) ma e’ ancora attuale se ask.com oggi lo presenta come una sua innovazione. Per inciso, parlando con il direttore delle ricerche di ask faceva finta che il loro algoritmo di community search fosse un loro segreto industriale: dopo un po’ di insistenza, ha confessato che si tratta piu’ o meno del capitolo 6 dell’articolo che segnalo sopra…
Se si vuole capire perche’ magicamente funziona, si puo’ leggere questo: http://arxiv.org/abs/cond-mat/0402499