Caratteristiche e funzionamento degli algoritmi di segmentazione in informatica

Gli algoritmi di segmentazione vengono definiti come metodi di classificazione supervisionata dove a differenza dei precedenti algoritmi appena descritti le unità vengono classificate secondo una variabile target (detta anche di risposta) di cui sono note a priori le modalità che essa può assumere. Le tecniche di segmentazione sono procedure che forniscono come output una serie di partizioni contrassegnate, secondo le modalità che la variabile di risposta assume in corrispondenza di ciascuna partizione.

Un tipo di segmentazione è quella binaria dove la variabile può assumere solo due tipi di risposta e dove i gruppi determinati dall’algoritmo apparterranno ad una o all’altra parte. Il vantaggio dall’uso della segmentazione binaria sta nel fatto dell’intuitività con la quale i risultati vengono esposti e l’agevole interpretazione delle regole che definiscono l’appartenenza all’una o altra categoria. L’implementazione di una strategia supervisionata permette di rispondere a problemi di:

Classificazione intesa come operazione con la quale viene assegnato ad una classe un oggetto sulle base degli attributi che lo caratterizzano
Stima intesa come operazioni attraverso la quale si determina un valore per un attributo di output incognito
Previsione intesa come operazione attraverso la quale si cerca di determinare un comportamento futuro.

Esistono molti algoritmi ricorsivi di segmentazione che si differenziano a seconda del tipo di scelta, del criterio di suddivisione dei gruppi, della regola di arresto impiegata, dell’opzioni riguardanti le procedure. Un albero decisionale è un esempio di strategia supervisionata, utilizzata in particolare per problemi di classificazione dove i record vengono suddivisi continuamente in sottoinsiemi omogenei producendo uno schema gerarchico ad albero dove i nodi rappresentano gli attributi, i rami i possibili valori dell’attributo e le foglie individuano le classi di appartenenza. Esistono diversi algoritmi utilizzati dagli alberi decisionali come ad esempio:

CART (Classification and regression trees) dove si costruisce l’albero binario dividendo le osservazioni ad ogni nodo dopo aver deciso quale tra le variabile è la migliore, prendendo in considerazione sia variabili qualitative, quantitative che esplicative. Per determinare l’albero ottimale si utilizza la tecnica della potatura, cioè si priva l’albero delle parti inutili o dannose al funzionamento in termini decisionali escludendo dalla struttura tutte le sottobranchie il cui costo-complessità (intesa come perdita informativa derivante dalla potatura) determina il taglio del valore minore della misura considerata.
CHART (Chi-squared automatic interaction detection) dove per costruire la regola ci si basa sul set del chi-quadrato ammettendo come variabili di risposta solamente quelle qualitative. La principale differenza rispetto all’algoritmo CART è che questo preferisce bloccare la crescita dell’albero al livello ottimale, mediante un criterio di arresto esplicito basato sulla significatività del test di omogeneità del chi-quadro, inoltre è possibile applicare regole divisive rendendo più veloce il raggiungimento della soluzione ottimale.