Che cos’è la Bioinformatica e quali sono i suoi utilizzi

La Bioinformatica

La bioinformatica è una nuova disciplina che studia le applicazioni delle scienze dell’informazione alle scienze biologiche. Si occupa dell’organizzazione e dell’utilizzo di dati biologici che descrivono sequenze di geni, composizione e struttura di proteine, processi biochimici nelle cellule ed esperimenti biologici di altro tipo. Negli ultimi anni si è arrivati alla sequenziazione completa o quasi completa del genoma di molti organismi, compreso il genoma dell’uomo, ed è così aumentata in misura vertiginosa la quantità di informazione genetica grezza che deve essere catalogata, mantenuta e studiata dai ricercatori non solo della genetica, ma anche della medicina, della farmacologia, della botanica, dell’agricoltura, della zoologia, dell’antropologia, della geobiologia. La bioinformatica nasce quindi dal bisogno di gestire, catalogare ed analizzare grandi quantità di dati biologici che sono molto complessi e voluminosi. Infatti una così immensa quantità di informazioni crea svariati problemi, che vanno dal suo immagazzinamento alla messa a punto di sofisticati sistemi di interrogazione, alla sua analisi.

Che cos'è la Bioinformatica e quali sono i suoi utilizzi

Sviluppo della Bioinformatica

Lo sviluppo della biologia molecolare, della genetica e della biochimica ha così portato alla produzione di una rilevante quantità di dati, dei quali le biosequenze (acidi nucleici e proteine) costituiscono l’aspetto essenziale e più importante. La caratteristica intrinseca delle biosequenze, ovvero l’essere macromolecole biologiche costituite da tante unità (i nucleotidi e gli aminoacidi) legate l’una dietro l’altra a formare stringhe, ha reso indispensabile l’utilizzo di tecnologie informatiche sia per la loro archiviazione che per la loro analisi. Infatti molte funzioni biologiche corrispondenti alle sequenze degli aminoacidi nelle proteine risultano sconosciute. È possibile, in alcuni casi, confrontarle oppure utilizzare strumenti di analisi per capirne la struttura, identificarne i gruppi funzionali o per operare modifiche (ad esempio nel disegno di farmaci).

Bioinformatica e le sue banche di dati specializzate

Nell’ambito molecolare la bioinformatica comprende numerosi aspetti abbastanza diversi tra loro che vanno dalla creazione di banche dati specializzate, alla produzione di software, all’implementazione di modelli matematici. Ci sono due tipi di banche dati: quelle primarie e quelle specializzate.

Sono dette banche dati primarie le banche dati di sequenze di acidi nucleici che contengono i dati grezzi di laboratorio, ossia informazioni molto generiche, cioè quel minimo di informazioni necessarie da associare alla sequenza per identificarla. Le banche dati specializzate invece si sono sviluppate successivamente, sono derivate da quelle primarie e contengono dati associati a quelli delle banche dati primarie. La prima raccolta di dati biologici fu una banca dati di proteine, la NBRF (National Biology Research Foundation), e risale al 1960 ad opera di Margaret Dayhoff, una ricercatrice nel campo dell’evoluzione molecolare che era interessata ad avere la maggior quantità possibile di dati di sequenze di proteine a disposizione per i suoi studi. Nacquero successivamente le banche dati di sequenze di acidi nucleici: nel 1980 la banca dati europea (EMBL Datalibrary), nel 1982 quella americana (Genbank) e infine nel 1986 quella giapponese (DDBJ). Fra queste banche dati si è sviluppata una collaborazione internazionale che ha reso possibile l’individuazione di un certo numero di informazioni da associare a ciascuna sequenza nucleotidica ed ha favorito lo scambio dei dati tanto che, per gran parte, le sequenze e le relative informazioni nelle tre banche dati sono comuni anche se strutturate in modo diverso. Ogni voce della banca dati è caratterizzata da un nome, che in codice indica la specie e la funzione biologica della sequenza che rappresenta, e da un numero che identifica univocamente la sequenza. Altre informazioni relative ad una sequenza per esempio nella banca dati EMBL sono: la lunghezza della sequenza, la data della sua introduzione nella banca dati e le informazioni bibliografiche che riguardano la pubblicazione della sequenza, le informazioni tassonomiche che indicano la specie da cui la sequenza è estratta, le parole chiave che indicano le funzioni biologiche contenute nella sequenza, il cross referencing che permette di collegare le banche dati di sequenze di acidi nucleici a quelle di proteine e ad altre banche dati specializzate.

Aree di ricerca della Bioinformatica

L’aspetto dell’internazionalità è fondamentale per la bioinformatica negli aspetti tecnologici e di servizio. Per quel che riguarda le banche dati di acidi nucleici, Stati Uniti, Europa e Giappone collaborano per la raccolta e l’organizzazione dei dati. In conseguenza all’attenzione rivolta internazionalmente a certi progetti, è sorta l’esigenza di istituire centri internazionali di bioinformatica: in particolare negli Stati Uniti il National Center for Biotechnology Information (NCBI) con sede a Washington e in Europa il European Bioinformatics Institute (EBI) con sede a Hinxton (UK). Tali centri distribuiscono tecnologia e coordinano un servizio incentrato sulle biosequenze a livello internazionale. Queste banche dati non avrebbero avuto la possibilità di esistere e di svilupparsi con questa velocità e fino a questi livelli senza le nuove tecnologie informatiche e telematiche.

Un aspetto fondamentale della bioinformatica è lo studio delle informazioni contenute nelle biosequenze, cioè di tutte le problematiche biologiche e le tecniche informatiche legate alla ricerca e comprensione di messaggi all’interno delle biosequenze. Queste sequenze sono costituite da stringhe di caratteri: i nucleotidi negli acidi nucleici e gli aminoacidi nelle proteine, la cui successione produce e definisce l’informazione biologica come un testo scritto in una lingua naturale con scrittura alfabetica. Per esempio nel caso degli acidi nucleici l’alfabeto è costituito da quattro elementi: adenina (A), citosina (C), guanina (G) e timina (T) o uracile (U) nel DNA o RNA, mentre per le proteine l’alfabeto ha 20 lettere (i 20 aminoacidi naturali).

Nonostante si conosca da circa quarant’anni il codice genetico che a ogni tripla di nucleotidi fa corrispondere un aminoacido, l’analisi dei testi biologici è ancora agli inizi. Infatti il genoma non contiene solo le ricette per la costruzione delle proteine, ma anche segnali, meccanismi di riconoscimento, ripetitività ancora misteriose. Quando si determina una nuova sequenza, la prima operazione che di solito si compie per la sua caratterizzazione è la ricerca, all’interno di una banca dati, di sequenze con un grado di similarità statisticamente significativo rispetto alla sequenza in esame. Nelle proteine spesso esiste una stretta, benché ancora poco compresa, relazione tra struttura e funzione biologica: la funzione biologica di una proteina dipende dalla sua struttura chimica e spaziale, che a sua volta è determinata dalla sua sequenza amminoacidica. La determinazione del grado di similarità tra due o più sequenze fa riferimento alla somiglianza che viene misurata tra sequenze precedentemente allineate, come verrà descritto più avanti in questa introduzione.

Bioinformatica: ricerca medica e la sanità

Numerose possono essere le applicazioni della bioinformatica. Qui citeremo solo un aspetto della medicina molecolare. Si ritiene che molte malattie siano associate ad una componente genetica. La malattia, infatti, può essere ereditaria (sono note circa 3000-4000 malattie genetiche come la fibrosi cistica, alcune forme di diabete, etc) oppure essere il risultato di fattori ambientali che causano alterazioni del genoma (tumori, malattie cardiache, ecc). Una branca della bioinformatica studia quali geni siano associati a diverse malattie per capirne più chiaramente le basi molecolari con lo scopo di migliorarne la prevenzione e la cura.

Infine, la bioinformatica sta diventando sempre più importante anche per la ricerca medica: un altro dei suoi scopi è mettere a disposizione informazioni che rendono possibile l’ingegneria genetica e lo sviluppo di medicinali che esprimano o sopprimano determinate funzioni nelle cellule di un paziente o di un agente nocivo.