Κανονικοποίηση ποσοστημορίων

Στη στατιστική, η κανονικοποίηση ποσοστημορίων είναι μια τεχνική για τον μετασχηματισμό δύο κατανομών ώστε να αποκτήσουν παρόμοιες στατιστικές ιδιότητες. Για την κανονικοποίηση μιας κατανομής βάσει αυτής της μεθόδου, ορίζουμε μια κατανομή αναφοράς ίδιου μήκους και τις ταξινομούμε και τις δύο χωριστά. Τότε, η υψηλότερη τιμή της πρώτης κατανομής παίρνει την υψηλότερη τιμή της κατανομής αναφοράς, τη δεύτερη υψηλότερη τιμή της κατανομής αναφοράς κ.ο.κ., μέχρις ότου η κατανομή που μας ενδιαφέρει να αποτελεί τελικά μια αναδιάταξη των στοιχείων της κατανομής αναφοράς.

Για να κανονικοποιήσουμε δύο ή περισσότερες κατανομές μεταξύ τους, χωρίς τη χρήση μιας κατανομής αναφοράς, ταξινομούμε όπως πριν, κι έπειτα θέτουμε τον μέσο όρο (συνήθως τον αριθμητικό μέσο όρο) των κατανομών. Έτσι, η υψηλότερη τιμή σε όλες τις κατανομές γίνεται ο μέσος όρος των υψηλότερων τιμών, η δεύτερη υψηλότερη γίνεται ο μέσος όρος των δεύτερων υψηλότερων κ.ο.κ.

Στις περισσότερες περιπτώσεις, η κατανομή αναφοράς θα είναι μια συνήθης στατιστική κατανομή, όπως η Κατανομή Gauss ή η κατανομή Poisson. Μπορεί επίσης να παραχθεί τυχαία ή να κατασκευαστεί με δειγματοληψία από την αντίστοιχη συνάρτηση κατανομής. Όπως και να 'χει, μπορεί να χρησιμοποιηθεί οποιαδήποτε συνάρτηση αναφοράς.

Η κανονικοποίηση ποσοστημορίων χρησιμοποιείται συχνά στην ανάλυση δεδομένων από μικροσυστοιχίες γονιδίων. Προτάθηκε αρχικά στην αγγλική ως quantile standardization^[1] κι έπειτα η ονομασία της άλλαξε σε quantile normalization.^[2]

Παράδειγμα

Ακολουθεί μια σύντομη περιγραφή της μεθόδου σε ένα πολύ μικρό σύνολο δεδομένων.

Έστω οι μικροσυστοιχίες 1 έως 3 και τα γονίδια A έως D:

A    5    4    3
B    2    1    4
C    3    4    6
D    4    2    8

Για κάθε στήλη αντιστοιχίζουμε ένα βαθμό (i-iv) από τη χαμηλότερη στην υψηλότερη τιμή:

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

Αυτοί οι βαθμοί θα χρησιμοποιηθούν σε επόμενο βήμα. Επιστρέφουμε στο αρχικό σύνολο δεδομένων. Ταξινομούμε κάθε στήλη ξεχωριστά κατά αύξουσα σειρά. (Η πρώτη στήλη αποτελείται από τα 5, 2, 3, 4. Μετά την ταξινόμηση θα γίνει 2, 3, 4, 5. Η δεύτερη στήλη περιέχει τα 4, 1, 4, 2 και θα γίνει 1, 2, 4, 4. Τέλος, η τρίτη στήλη η οποία περιέχει τα 3, 4, 6, 8 θα παραμείνει ως έχει αφού είναι ήδη ταξινομημένη κατά αύξουσα σειρά.) Το αποτέλεσμα είναι:

A    5    4    3    γίνεται A 2 1 3
B    2    1    4    γίνεται B 3 2 4
C    3    4    6    γίνεται C 4 4 6
D    4    2    8    γίνεται D 5 4 8

Τώρα υπολογίζουμε τον μέσο όρο κάθε γραμμής για να αντιστοιχίσουμε τους βαθμούς:

A (2 1 3)/3 = 2.00 = βαθμός i
B (3 2 4)/3 = 3.00 = βαθμός ii
C (4 4 6)/3 = 4.67 = βαθμός iii
D (5 4 8)/3 = 5.67 = βαθμός iv

Στη συνέχεια παίρνουμε τον πίνακα βαθμών που υπολογίσαμε νωρίτερα και αντικαθιστούμε τις τιμές τους.

Το:

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

γίνεται:

A    5.67    4.67    2.00
B    2.00    2.00    3.00
C    3.00    4.67    4.67
D    4.67    3.00    5.67

Αυτές είναι και οι νέες κανονικοποιημένες τιμές, οι οποίες ακολουθούν την ίδια κατανομή και μπορούν πλέον να συγκριθούν με ευκολία.

Παραπομπές

↑ Amaratunga, D.; Cabrera, J. (2001). «Analysis of Data from Viral DNA Microchips». Journal of the American Statistical Association 96 (456): 1161. doi:10.1198/016214501753381814. https://archive.org/details/sim_journal-of-the-american-statistical-association_2001-12_96_456/page/n24.
↑ Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). «A comparison of normalization methods for high density oligonucleotide array data based on variance and bias». Bioinformatics 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238.

Εξωτερικοί σύνδεσμοι

[Amaratunga2001-1] Amaratunga, D.; Cabrera, J. (2001). «Analysis of Data from Viral DNA Microchips». Journal of the American Statistical Association 96 (456): 1161. doi:10.1198/016214501753381814. https://archive.org/details/sim_journal-of-the-american-statistical-association_2001-12_96_456/page/n24.

[boldstad2003-2] Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). «A comparison of normalization methods for high density oligonucleotide array data based on variance and bias». Bioinformatics 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238.

[1]

[2]