Κανονικοποίηση ποσοστημορίων: Διαφορά μεταξύ των αναθεωρήσεων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Paren8esis (συζήτηση | συνεισφορές)
Δημιουργήθηκε από μετάφραση της σελίδας "Quantile normalization"
 
Paren8esis (συζήτηση | συνεισφορές)
μΧωρίς σύνοψη επεξεργασίας
Γραμμή 1: Γραμμή 1:
Στη στατιστική, η κανονικοποίηση ποσοστημορίων (quantile normalization ή quantile standardization) είναι μια τεχνική για το μετασχηματισμό δύο [[Κατανομή πιθανότητας|κατανομών]] ώστε να αποκτήσουν παρόμοιες στατιστικές ιδιότητες. Για να κανονικοποιήσουμε μια κατανομή βάσει αυτής της μεθόδου, ορίζουμε μια κατανομή αναφοράς (reference distribution) ίδιου μήκους και τις ταξινομούμε και τις δύο χωριστά. Τότε, η υψηλότερη τιμή της πρώτης κατανομής παίρνει την υψηλότερη τιμή της κατανομής αναφοράς, τη δεύτερη υψηλότερη τιμή της κατανομής αναφοράς, κοκ, μέχρις ότου η κατανομή που μας ενδιαφέρει να αποτελεί τελικά μια αναδιάταξη των στοιχείων της κατανομής αναφοράς.
Στη στατιστική, η κανονικοποίηση ποσοστημορίων (quantile normalization ή quantile standardization) είναι μια τεχνική για το μετασχηματισμό δύο [[Κατανομή πιθανότητας|κατανομών]] ώστε να αποκτήσουν παρόμοιες στατιστικές ιδιότητες. Για να κανονικοποιήσουμε μια κατανομή βάσει αυτής της μεθόδου, ορίζουμε μια κατανομή αναφοράς (reference distribution) ίδιου μήκους και τις ταξινομούμε και τις δύο χωριστά. Τότε, η υψηλότερη τιμή της πρώτης κατανομής παίρνει την υψηλότερη τιμή της κατανομής αναφοράς, τη δεύτερη υψηλότερη τιμή της κατανομής αναφοράς, κοκ, μέχρις ότου η κατανομή που μας ενδιαφέρει να αποτελεί τελικά μια αναδιάταξη των στοιχείων της κατανομής αναφοράς.



<span class="cx-segment" data-segmentid="7"></span>Για να κανονικοποιήσουμε δύο ή περισσότερες κατανομές μεταξύ τους, χωρίς τη χρήση μιας κατανομής αναφοράς, ταξινομούμε όπως πριν, κι έπειτα θέτουμε το [[Μέσος όρος|μέσο όρο]] (συνήθως τον αριθμητικό μέσο όρο) των κατανομών. Έτσι, η υψηλότερη τιμή σε όλες τις κατανομές γίνεται ο μέσος όρος των υψηλότερων τιμών, η δεύτερη υψηλότερη γίνεται ο μέσος όρος των δεύτερων υψηλότερων, κοκ.
<span class="cx-segment" data-segmentid="7"></span>Για να κανονικοποιήσουμε δύο ή περισσότερες κατανομές μεταξύ τους, χωρίς τη χρήση μιας κατανομής αναφοράς, ταξινομούμε όπως πριν, κι έπειτα θέτουμε το [[Μέσος όρος|μέσο όρο]] (συνήθως τον αριθμητικό μέσο όρο) των κατανομών. Έτσι, η υψηλότερη τιμή σε όλες τις κατανομές γίνεται ο μέσος όρος των υψηλότερων τιμών, η δεύτερη υψηλότερη γίνεται ο μέσος όρος των δεύτερων υψηλότερων, κοκ.
Γραμμή 6: Γραμμή 5:
<span class="cx-segment" data-segmentid="12"></span>Στις περισσότερες περιπτώσεις, η κατανομή αναφοράς θα είναι μια συνήθης στατιστική κατανομή, όπως η [[Κανονική κατανομή|Κατανομή Gauss]] ή η [[Κατανομή Πουασσόν|κατανομή Poisson]]. Μπορεί επίσης να παραχθεί τυχαία ή να κατασκευαστεί με δειγματοληψία από την αντίστοιχη [[συνάρτηση κατανομής]]. Όπως και να 'χει, μπορεί να χρησιμοποιηθεί οποιαδήποτε συνάρτηση αναφοράς.
<span class="cx-segment" data-segmentid="12"></span>Στις περισσότερες περιπτώσεις, η κατανομή αναφοράς θα είναι μια συνήθης στατιστική κατανομή, όπως η [[Κανονική κατανομή|Κατανομή Gauss]] ή η [[Κατανομή Πουασσόν|κατανομή Poisson]]. Μπορεί επίσης να παραχθεί τυχαία ή να κατασκευαστεί με δειγματοληψία από την αντίστοιχη [[συνάρτηση κατανομής]]. Όπως και να 'χει, μπορεί να χρησιμοποιηθεί οποιαδήποτε συνάρτηση αναφοράς.


Η κανονικοποίηση ποσοστημορίων χρησιμοποιείται συχνά στην ανάλυση δεδομένων από [[Μικροσυστοιχίες γονιδίων]]. Προτάθηκε αρχικάστην αγγλική ως'''quantile standardization'''<ref name="Amaratunga2001">{{Πρότυπο:Cite journal|title=Analysis of Data from Viral DNA Microchips|last2=Cabrera|first2=J.|journal=Journal of the American Statistical Association|issue=456|doi=10.1198/016214501753381814|year=2001|volume=96|pages=1161|pmc=|pmid=|last1=Amaratunga|first1=D.}}</ref> κι έπειτα άλλαξε την ονομασία της σε '''quantile normalization'''.<ref name="boldstad2003">{{Πρότυπο:Cite journal|title=A comparison of normalization methods for high density oligonucleotide array data based on variance and bias|last2=Irizarry|first2=R. A.|journal=Bioinformatics|issue=2|doi=10.1093/bioinformatics/19.2.185|year=2003|volume=19|pages=185–193|pmc=|pmid=12538238|last3=Astrand|first3=M.|last4=Speed|first4=T. P.|last1=Bolstad|first1=B. M.}}</ref>
Η κανονικοποίηση ποσοστημορίων χρησιμοποιείται συχνά στην ανάλυση δεδομένων από [[μικροσυστοιχίες γονιδίων]]. Προτάθηκε αρχικά στην αγγλική ως '''quantile standardization'''<ref name="Amaratunga2001">{{Πρότυπο:Cite journal|title=Analysis of Data from Viral DNA Microchips|last2=Cabrera|first2=J.|journal=Journal of the American Statistical Association|issue=456|doi=10.1198/016214501753381814|year=2001|volume=96|pages=1161|pmc=|pmid=|last1=Amaratunga|first1=D.}}</ref> κι έπειτα άλλαξε την ονομασία της σε '''quantile normalization'''.<ref name="boldstad2003">{{Πρότυπο:Cite journal|title=A comparison of normalization methods for high density oligonucleotide array data based on variance and bias|last2=Irizarry|first2=R. A.|journal=Bioinformatics|issue=2|doi=10.1093/bioinformatics/19.2.185|year=2003|volume=19|pages=185–193|pmc=|pmid=12538238|last3=Astrand|first3=M.|last4=Speed|first4=T. P.|last1=Bolstad|first1=B. M.}}</ref>


== Παράδειγμα ==
== Παράδειγμα ==
Ακολουθεί μια σύντομη περιγραφή της μεθόδου σε ένα πολύ μικρό σύνολο δεδομένων:
Ακολουθεί μια σύντομη περιγραφή της μεθόδου σε ένα πολύ μικρό σύνολο δεδομένων.


Έστω οι μικροσυστοιχίες 1 έως 3, και τα γονίδια A έως D
Έστω οι μικροσυστοιχίες 1 έως 3, και τα γονίδια A έως D:
A 5 4 3
A 5 4 3
B 2 1 4
B 2 1 4
C 3 4 6
C 3 4 6
D 4 2 8
D 4 2 8
Για κάθε στήλη αντιστοιχίζουμε ένα βαθμό (i-iv) από τη χαμηλότερη στην υψηλότερη τιμή
Για κάθε στήλη αντιστοιχίζουμε ένα βαθμό (i-iv) από τη χαμηλότερη στην υψηλότερη τιμή:
A iv iii i
A iv iii i
B i i ii
B i i ii
Γραμμή 26: Γραμμή 25:
C 3 4 6 γίνεται C 4 4 6
C 3 4 6 γίνεται C 4 4 6
D 4 2 8 γίνεται D 5 4 8
D 4 2 8 γίνεται D 5 4 8
Τώρα υπολογίζουμε το μέσο όρο κάθε γραμμής για να αντιστοιχίσουμε τους βαθμούς
Τώρα υπολογίζουμε το μέσο όρο κάθε γραμμής για να αντιστοιχίσουμε τους βαθμούς:
A (2 1 3)/3 = 2.00 = βαθμός i
A (2 1 3)/3 = 2.00 = βαθμός i
B (3 2 4)/3 = 3.00 = βαθμός ii
B (3 2 4)/3 = 3.00 = βαθμός ii
Γραμμή 33: Γραμμή 32:
Στη συνέχεια παίρνουμε τον πίνακα βαθμών που υπολογίσαμε νωρίτερα και αντικαθιστούμε τις τιμές τους.
Στη συνέχεια παίρνουμε τον πίνακα βαθμών που υπολογίσαμε νωρίτερα και αντικαθιστούμε τις τιμές τους.


Το
Το:
A iv iii i
A iv iii i
B i i ii
B i i ii

Έκδοση από την 18:13, 5 Μαΐου 2016

Στη στατιστική, η κανονικοποίηση ποσοστημορίων (quantile normalization ή quantile standardization) είναι μια τεχνική για το μετασχηματισμό δύο κατανομών ώστε να αποκτήσουν παρόμοιες στατιστικές ιδιότητες. Για να κανονικοποιήσουμε μια κατανομή βάσει αυτής της μεθόδου, ορίζουμε μια κατανομή αναφοράς (reference distribution) ίδιου μήκους και τις ταξινομούμε και τις δύο χωριστά. Τότε, η υψηλότερη τιμή της πρώτης κατανομής παίρνει την υψηλότερη τιμή της κατανομής αναφοράς, τη δεύτερη υψηλότερη τιμή της κατανομής αναφοράς, κοκ, μέχρις ότου η κατανομή που μας ενδιαφέρει να αποτελεί τελικά μια αναδιάταξη των στοιχείων της κατανομής αναφοράς.

Για να κανονικοποιήσουμε δύο ή περισσότερες κατανομές μεταξύ τους, χωρίς τη χρήση μιας κατανομής αναφοράς, ταξινομούμε όπως πριν, κι έπειτα θέτουμε το μέσο όρο (συνήθως τον αριθμητικό μέσο όρο) των κατανομών. Έτσι, η υψηλότερη τιμή σε όλες τις κατανομές γίνεται ο μέσος όρος των υψηλότερων τιμών, η δεύτερη υψηλότερη γίνεται ο μέσος όρος των δεύτερων υψηλότερων, κοκ.

Στις περισσότερες περιπτώσεις, η κατανομή αναφοράς θα είναι μια συνήθης στατιστική κατανομή, όπως η Κατανομή Gauss ή η κατανομή Poisson. Μπορεί επίσης να παραχθεί τυχαία ή να κατασκευαστεί με δειγματοληψία από την αντίστοιχη συνάρτηση κατανομής. Όπως και να 'χει, μπορεί να χρησιμοποιηθεί οποιαδήποτε συνάρτηση αναφοράς.

Η κανονικοποίηση ποσοστημορίων χρησιμοποιείται συχνά στην ανάλυση δεδομένων από μικροσυστοιχίες γονιδίων. Προτάθηκε αρχικά στην αγγλική ως quantile standardization[1] κι έπειτα άλλαξε την ονομασία της σε quantile normalization.[2]

Παράδειγμα

Ακολουθεί μια σύντομη περιγραφή της μεθόδου σε ένα πολύ μικρό σύνολο δεδομένων.

Έστω οι μικροσυστοιχίες 1 έως 3, και τα γονίδια A έως D:

A    5    4    3
B    2    1    4
C    3    4    6
D    4    2    8

Για κάθε στήλη αντιστοιχίζουμε ένα βαθμό (i-iv) από τη χαμηλότερη στην υψηλότερη τιμή:

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

Αυτοί οι βαθμοί θα χρησιμοποιηθούν σε επόμενο βήμα. Επιστρέφουμε στο αρχικό σύνολο δεδομένων. Ταξινομούμε κάθε στήλη ξεχωριστά κατά αύξουσα σειρά. (Η πρώτη στήλη αποτελείται από τα 5, 2, 3, 4. Μετά την ταξινόμηση θα γίνει 2, 3, 4, 5. Η δεύτερη στήλη περιέχει τα 4, 1, 4, 2 και θα γίνει 1, 2, 4, 4. Τέλος, η τρίτη στήλη η οποία περιέχει τα 3, 4, 6, 8 θα παραμείνει ως έχει αφού είναι ήδη ταξινομημένη κατά αύξουσα σειρά.) Το αποτέλεσμα είναι:

A    5    4    3    γίνεται A 2 1 3
B    2    1    4    γίνεται B 3 2 4
C    3    4    6    γίνεται C 4 4 6
D    4    2    8    γίνεται D 5 4 8

Τώρα υπολογίζουμε το μέσο όρο κάθε γραμμής για να αντιστοιχίσουμε τους βαθμούς:

A (2 1 3)/3 = 2.00 = βαθμός i
B (3 2 4)/3 = 3.00 = βαθμός ii
C (4 4 6)/3 = 4.67 = βαθμός iii
D (5 4 8)/3 = 5.67 = βαθμός iv

Στη συνέχεια παίρνουμε τον πίνακα βαθμών που υπολογίσαμε νωρίτερα και αντικαθιστούμε τις τιμές τους.

Το:

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

γίνεται:

A    5.67    4.67    2.00
B    2.00    2.00    3.00
C    3.00    4.67    4.67
D    4.67    3.00    5.67

Αυτές είναι και οι νέες κανονικοποιημένες τιμές, οι οποίες ακολουθούν την ίδια κατανομή και μπορούν πλέον να συγκριθούν με ευκολία.

Παραπομπές

  1. Amaratunga, D.; Cabrera, J. (2001). «Analysis of Data from Viral DNA Microchips». Journal of the American Statistical Association 96 (456): 1161. doi:10.1198/016214501753381814. 
  2. Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). «A comparison of normalization methods for high density oligonucleotide array data based on variance and bias». Bioinformatics 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238. 

Εξωτερικοί σύνδεσμοι