Banche dati di interesse biologico e Strumenti bioinformatici

Banche dati primarie e specializzate

Le banche dati primarie contengono informazioni e annotazioni delle sequenze nucleotidiche e proteiche, strutture del DNA e proteine e dati sull’espressione di DNA e proteine. Le principali banche dati primarie sono: la EMBL datalibrary, la GenBank e la DDBJ.

La EMBL datalibrary è la banca dati europea costituita nel 1980 nel laboratorio Europeo di Biologia Molecolare di Heidelberg (Germania).
La GenBank è la corrispondente banca americana costituita nel 1982.
La DDBJ è la corrispondente Giapponese.

Fra le tre banche dati è stato stipulato un accordo internazionale per cui il contenuto dei dati di sequenza presenti nelle tre banche dati è quasi del tutto coincidente in quanto gli aggiornamenti quotidiani apportati in ciascuna banca dati vengono automaticamente trasmessi alle altre due.

Le banche dati specializzate si sono sviluppate successivamente e raccolgono insiemi di dati omogenei dal punto di vista tassonomico e/o funzionale disponibili nelle Banche dati Primarie e/o in letteratura, o derivanti da vari approcci sperimentali, rivisti e annotati con informazioni di valore aggiunto.

Strumenti bioinformatici

Una volta che i dati sono stati archiviati nelle banche date biologiche è necessario utilizzare alcuni strumenti bioinformatici in modo tale da ricavarne informazioni. Essi si sono sviluppati in base a questi tre processi biologici fondamentali:

la sequenza del DNA, determina la sequenza aminoacidica della proteina (mediante il processo della sintesi proteica);
la sequenza aminoacidica determina la struttura tridimensionale della proteina;
la struttura tridimensionale della proteina ne determina la funzione.

La bioinformatica ha focalizzato la sua analisi su dati relativi a questi processi, e di conseguenza le banche dati costituiscono un potente supporto per una vasta gamma di ricerche quali, ad esempio:

data una sequenza di acidi nucleici o proteici trovare una sequenza simile in banca dati;
data una struttura proteica trovare, in banca dati, una struttura simile ad essa;
data una sequenza proteica prevedere una possibile struttura tridimensionale.

Organizzazione Strumenti bioinformatici

I principali strumenti possono essere organizzati in base alla loro analisi o alla ricerca.

Ricerca di sequenze simili

Sequenze omologhe sono sequenze che hanno un gene ancestrale comune. Il grado di similarità fra due sequenze può essere misurato mentre l’omologia è un dato qualitativo. Esistono una serie di strumenti (es BLAST) che possono essere utilizzati per identificare similarità fra nuove sequenze con funzione e struttura sconosciuta e sequenze (archiviate nelle banche dati) la cui struttura e funzione sono note.

Studio delle funzioni delle proteine

Questo gruppo di programmi (es. PROSITE, SMART) permette di utilizzare una sequenza per estrarre informazioni su motif, domini strutturali dalle banche dati specializzate. Questo potrebbe essere di aiuto per avere informazioni sulla funzione della proteine ignota.

Analisi delle strutture

Questi strumenti permettono di comparare una struttura con una banca dati di strutture note. Molto spesso proteine con struttura simile hanno una stessa funzione, quindi determinare la struttura secondaria/terziaria è cruciale per capire la funzione. (es. EBI-MSD)

Analisi della sequenza primaria

Identificare/analizzare l’evoluzione, identificare mutazioni, regioni idrofobiche o altre proprietà che permettano di capire la funzione della proteina. (es. ENSEMBL)