Cosa sono gli Open Data (dati aperti) in informatica? A cosa servono?

Il fenomeno del web 2.0 è caratterizzato da un importante concetto di open culture o in taliano cultura aperta ovvero la condivisione totale del software, su applicazioni di dati e contenuti. Esso si distacca completamente dal Web 1.0 in cui la rete era caratterizzata da elevate barriere all’ingresso ed in cui si costruivano ogni sorta di espedienti per erigere i cosiddetti walled gardens, con lo scopo di mantenere le persone legate ad un certo servizio. Oggi, infatti, il web, considerevolmente cresciuto numericamente in termini di utenti, si presenta come un ambiente dove la cooperazione e la partecipazione sono diventate un fenomeno sociale:

Nel quale i partecipanti producano e distribuiscono i contenuti;
Basato su una cultura di comunicazione aperta;
Dove viene riconosciuta ampia libertà di condividere e riutilizzare;
Dove non esistano un’autorità e un controllo centralizzati ma una intelligenza collettiva non controllata.

La open culture che si è affermata in questi ultimi anni, può assumere diverse accezioni e non solo quella più conosciuta e intuitiva dell’open source. Sono infatti coinvolte anche altre componenti partendo dal livello più basso del codice fino a un livello avanzato di contenuto creativo.

A tal caso si distinguono diverse forme di condivisione che comprendono:

Open Data (o dati aperti)

Cosa sono gli open data (dati aperti) in informatica? A cosa servono?

Con il termine Open Data (in italiano: dati aperti) si intendono determinate tipologie di dati, immagini, testi, indici, tabelle, che siano liberamente accessibili a tutti, senza restrizioni di copy right, brevetti o altre forme di controllo che ne limitano la riproduzione. La cultura “aperta” che si è sviluppata con l’avvento del web 2.0 si distacca radicalmente dalla situazione precedente in cui i dati non erano pubblici ma dovevano essere continuamente controllati e monitorati, difendendo il segreto industriale ed il proprio vantaggio competitivo.

In un mondo sempre più open source, dove la tendenza è quella di “aprire” le applicazioni Web attraverso le API (Application Programming Interface), il ruolo software cambia:

Diventa una commodity in cui ogni utente di internet ha la possibilità di pubblicare materiali di ogni tipo, dando anche personali giudizi;
Non è un asset sufficiente per stabilire un vantaggio competitivo.

Vengono così messi a disposizione dell’utente una vastissima quantità di dati ed informazioni fra i quali hanno assunto una certa importanza anche tutti quei dati più semplici ed accessori, quali valutazioni, rank, feedback, opinioni account.

Inoltre, la separazione del contenuto dalla forma di presentazione (es. RSS) ha offerto la possibilità di utilizzare i dati al di fuori dell’applicazione nativa per l’utilizzo in altre o per la creazione di nuovi servizi favorendo ancora di più la produzione di contenuti all’interno della rete:

I testi sono separabili dalle pagine Web e utilizzano il protocollo RS per la distribuzione;
I dati audio: i quali non necessariamente devono essere più legati a un CD o emessi da una radio, possono essere fruiti attraverso il download, lo streaming, su richiesta e veicolati come i podcast;
I video, ultima frontiera del Web 2.0 si separano sempre più da TV e Cinema o DVD per trovare nuove vie di fruizione (esempio YouTube).

In questo contesto di disponibilità di informazioni praticamente infinita e ridondante diventa fondamentale il concetto dell’economia dell’attenzione in quanto la risorsa scarsa diventa il tempo umano disponibile per identificare l’informazione cercata. Per questo motivo, un motore di ricerca semplice e funzionale come Google ha riscosso un enorme successo grazie al suo algoritmo di ricerca che permette un efficace ed efficiente indicizzazione dei dati.

Una corretta gestione dei vari dati costituisce quindi una delle principali chiavi per il successo della società del Web 2.0 in cui tutte le applicazioni sono sempre più costruite attorno ai dati.

Possedere una vasta quantità di dati di qualunque natura rappresenta quindi un vantaggio incalcolabile per chi li dispone, infatti è fondamentale per coloro che offrono dei servizi, conoscere i propri utenti, anche attraverso un semplice indirizzo e-mail, costruendo così archivi completi che consentano alle aziende di sapere chi sono, profilarli e capire come orientare la gestione dell’advertising.

I dati possono dunque essere:

Aperti quando puntuali (il singolo video, podcast, la singola recensione, raccomandazione, opinione), cioè resi fruibili spesso gratuitamente per l’utente perché sono il valore aggiunto di un servizio e possono essere esposti via interfaccia utente o via RSS;
Chiusi in forma aggregata di basi dati controllate e “di proprietà”, se non legate de facto, grazie al controllo delle stesse da parte di chi gestisce le applicazioni in rete ed è riuscito a scatenare un effetto rete tale da avere un grande massa critica di utenti. Per esempio, nel caso dei contenuti generati dagli utenti come raccomandazioni, opinioni e così via, alla fine l’intera base dati ordinata, indicizzata e valutata (rank) è sotto il controllo di chi ha messo in piedi l’applicazione per generarla e

Inerenti alla questione dei dati ci si pongono varie domande relative a chi sia il proprietario dei dati, chi li controlla e se viene o no rispettata la privacy. A prescindere degli aspetti legali e di tutela, i temi non sono chiaramente risolti e ci sono delle tendenze spesso contrapposte.

Accettare che l’utente sia proprietario dei propri dati e li possa gestire liberamente per generare confidence, stimolare l’ingresso di nuovi utenti e quindi la creazione di nuovi dati (“users own the data”).
Controllo dei dati da parte di chi controlla l’applicazione “a prescindere” (per esempio, la moderazione dei contenuti e delle raccomandazioni) in relazione al valore che questo assume.