Ανάλυση διαφορικής γονιδιακής έκφρασης: Διαφορά μεταξύ των αναθεωρήσεων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Χωρίς σύνοψη επεξεργασίας
Χωρίς σύνοψη επεξεργασίας
Γραμμή 23: Γραμμή 23:
* NBPSeq<ref>{{Cite journal|title=Evaluation of read count based RNAseq analysis methods|url=https://doi.org/10.1186/1471-2164-14-S8-S2|journal=BMC Genomics|date=2013-12-09|issn=1471-2164|pmc=PMC4092879|pmid=24564449|pages=S2|volume=14|issue=8|doi=10.1186/1471-2164-14-S8-S2|first=Yan|last=Guo|first2=Chung-I|last2=Li|first3=Fei|last3=Ye|first4=Yu|last4=Shyr}}</ref>
* NBPSeq<ref>{{Cite journal|title=Evaluation of read count based RNAseq analysis methods|url=https://doi.org/10.1186/1471-2164-14-S8-S2|journal=BMC Genomics|date=2013-12-09|issn=1471-2164|pmc=PMC4092879|pmid=24564449|pages=S2|volume=14|issue=8|doi=10.1186/1471-2164-14-S8-S2|first=Yan|last=Guo|first2=Chung-I|last2=Li|first3=Fei|last3=Ye|first4=Yu|last4=Shyr}}</ref>
* TSPM<ref>{{Cite journal|title=A Two-Stage Poisson Model for Testing RNA-Seq Data|url=https://www.degruyter.com/document/doi/10.2202/1544-6115.1627/html|journal=Statistical Applications in Genetics and Molecular Biology|date=2011-05-16|issn=1544-6115|volume=10|issue=1|doi=10.2202/1544-6115.1627|language=en|first=Paul L.|last=Auer|first2=Rebecca W.|last2=Doerge}}</ref>
* TSPM<ref>{{Cite journal|title=A Two-Stage Poisson Model for Testing RNA-Seq Data|url=https://www.degruyter.com/document/doi/10.2202/1544-6115.1627/html|journal=Statistical Applications in Genetics and Molecular Biology|date=2011-05-16|issn=1544-6115|volume=10|issue=1|doi=10.2202/1544-6115.1627|language=en|first=Paul L.|last=Auer|first2=Rebecca W.|last2=Doerge}}</ref>
* limma<ref>{{Cite journal|title=limma powers differential expression analyses for RNA-sequencing and microarray studies|url=https://doi.org/10.1093/nar/gkv007|journal=Nucleic Acids Research|date=2015-04-20|issn=0305-1048|pmc=PMC4402510|pmid=25605792|pages=e47–e47|volume=43|issue=7|doi=10.1093/nar/gkv007|first=Matthew E.|last=Ritchie|first2=Belinda|last2=Phipson|first3=Di|last3=Wu|first4=Yifang|last4=Hu|first5=Charity W.|last5=Law|first6=Wei|last6=Shi|first7=Gordon K.|last7=Smyth}}</ref>
* baySeq<ref>{{Cite journal|title=baySeq: Empirical Bayesian methods for identifying differential expression in sequence count data|url=https://doi.org/10.1186/1471-2105-11-422|journal=BMC Bioinformatics|date=2010-08-10|issn=1471-2105|pmc=PMC2928208|pmid=20698981|pages=422|volume=11|issue=1|doi=10.1186/1471-2105-11-422|first=Thomas J.|last=Hardcastle|first2=Krystyna A.|last2=Kelly}}</ref>
* baySeq<ref>{{Cite journal|title=baySeq: Empirical Bayesian methods for identifying differential expression in sequence count data|url=https://doi.org/10.1186/1471-2105-11-422|journal=BMC Bioinformatics|date=2010-08-10|issn=1471-2105|pmc=PMC2928208|pmid=20698981|pages=422|volume=11|issue=1|doi=10.1186/1471-2105-11-422|first=Thomas J.|last=Hardcastle|first2=Krystyna A.|last2=Kelly}}</ref>
* EBSeq<ref>{{Cite journal|title=EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments|url=https://doi.org/10.1093/bioinformatics/btt087|journal=Bioinformatics|date=2013-04-15|issn=1367-4803|pmc=PMC3624807|pmid=23428641|pages=1035–1043|volume=29|issue=8|doi=10.1093/bioinformatics/btt087|first=Ning|last=Leng|first2=John A.|last2=Dawson|first3=James A.|last3=Thomson|first4=Victor|last4=Ruotti|first5=Anna I.|last5=Rissman|first6=Bart M. G.|last6=Smits|first7=Jill D.|last7=Haag|first8=Michael N.|last8=Gould|first9=Ron M.|last9=Stewart}}</ref>
* EBSeq<ref>{{Cite journal|title=EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments|url=https://doi.org/10.1093/bioinformatics/btt087|journal=Bioinformatics|date=2013-04-15|issn=1367-4803|pmc=PMC3624807|pmid=23428641|pages=1035–1043|volume=29|issue=8|doi=10.1093/bioinformatics/btt087|first=Ning|last=Leng|first2=John A.|last2=Dawson|first3=James A.|last3=Thomson|first4=Victor|last4=Ruotti|first5=Anna I.|last5=Rissman|first6=Bart M. G.|last6=Smits|first7=Jill D.|last7=Haag|first8=Michael N.|last8=Gould|first9=Ron M.|last9=Stewart}}</ref>
* ShrinkSeq<ref>{{Cite journal|title=Bayesian analysis of RNA sequencing data by estimating multiple shrinkage priors|url=https://doi.org/10.1093/biostatistics/kxs031|journal=Biostatistics|date=2013-01-01|issn=1465-4644|pages=113–128|volume=14|issue=1|doi=10.1093/biostatistics/kxs031|first=Mark A.|last=Van De Wiel|first2=Gwenaël G.R.|last2=Leday|first3=Luba|last3=Pardo|first4=Håvard|last4=Rue|first5=Aad W.|last5=Van Der Vaart|first6=Wessel N.|last6=Van Wieringen}}</ref>
* ShrinkSeq<ref>{{Cite journal|title=Bayesian analysis of RNA sequencing data by estimating multiple shrinkage priors|url=https://doi.org/10.1093/biostatistics/kxs031|journal=Biostatistics|date=2013-01-01|issn=1465-4644|pages=113–128|volume=14|issue=1|doi=10.1093/biostatistics/kxs031|first=Mark A.|last=Van De Wiel|first2=Gwenaël G.R.|last2=Leday|first3=Luba|last3=Pardo|first4=Håvard|last4=Rue|first5=Aad W.|last5=Van Der Vaart|first6=Wessel N.|last6=Van Wieringen}}</ref>
* voom<ref>{{Cite journal|title=voom: precision weights unlock linear model analysis tools for RNA-seq read counts|url=https://doi.org/10.1186/gb-2014-15-2-r29|journal=Genome Biology|date=2014-02-03|issn=1474-760X|pmc=PMC4053721|pmid=24485249|pages=R29|volume=15|issue=2|doi=10.1186/gb-2014-15-2-r29|first=Charity W.|last=Law|first2=Yunshun|last2=Chen|first3=Wei|last3=Shi|first4=Gordon K.|last4=Smyth}}</ref>/vst
* voom<ref>{{Cite journal|title=voom: precision weights unlock linear model analysis tools for RNA-seq read counts|url=https://doi.org/10.1186/gb-2014-15-2-r29|journal=Genome Biology|date=2014-02-03|issn=1474-760X|pmc=PMC4053721|pmid=24485249|pages=R29|volume=15|issue=2|doi=10.1186/gb-2014-15-2-r29|first=Charity W.|last=Law|first2=Yunshun|last2=Chen|first3=Wei|last3=Shi|first4=Gordon K.|last4=Smyth}}</ref>/vst
Τα εργαλεία με την καλύτερη απόδοση τείνουν να είναι τα edgeR, DESeq/DESeq2 και limma-voom.<ref name=":1">{{Cite journal|url=https://physiology.med.cornell.edu/faculty/skrabanek/lab/angsd/lecture_notes/Background_testingForDGE.pdf|title=Differential Gene Expression Analysis (DGE)|last=D¨undar|first=Friederike|date=February 26, 2020}}</ref> Το DESeq και το limma-voom τείνουν να είναι πιο συντηρητικά από το edgeR, αλλά το edgeR συνιστάται για πειράματα με λιγότερες από 12 επαναλήψεις.<ref>{{Cite journal|title=Evaluation of tools for differential gene expression analysis by RNA-seq on a 48 biological replicate experiment|url=http://arxiv.org/abs/1505.02017|journal=RNA|date=2016-06|issn=1355-8382|pages=839–851|volume=22|issue=6|doi=10.1261/rna.053959.115|first=Nicholas J.|last=Schurch|first2=Pieta|last2=Schofield|first3=Marek|last3=Gierliński|first4=Christian|last4=Cole|first5=Alexander|last5=Sherstnev|first6=Vijender|last6=Singh|first7=Nicola|last7=Wrobel|first8=Karim|last8=Gharbi|first9=Gordon G.|last9=Simpson}}</ref> Όλα αυτά τα εργαλεία βασίζονται στη γλώσσα R και κάνουν μεγάλη χρήση πολυάριθμων στατιστικών μεθόδων που έχουν αναπτυχθεί και εφαρμοστεί τις τελευταίες δύο δεκαετίες για να βελτιώσουν την ισχύ ανίχνευσης ισχυρών αλλαγών που βασίζονται σε εξαιρετικά μικρό αριθμό επαναλήψεων και να βοηθήσουν στην αντιμετώπιση των ιδιορρυθμιών ακέραιων δεδομένων.<ref name=":1" /> Αυτά τα εργαλεία βασικά ακολουθούν την ίδια προσέγγιση, εκτιμούν τη διαφορά γονιδιακής έκφρασης για ένα δεδομένο γονίδιο χρησιμοποιώντας μοντέλα που βασίζονται σε παλινδρόμηση, ακολουθούμενο από μια στατιστική δοκιμή με βάση τη μηδενική υπόθεση ότι η διαφορά είναι κοντά στο μηδέν, πράγμα που θα σήμαινε ότι δεν υπάρχει διαφορά στις τιμές έκφρασης των γονιδίων που θα μπορούσαν να εξηγηθούν από τις συνθήκες.


=== Μέθοδοι ανάλυσης διαφορικής έκφρασης ===
=== Μέθοδοι ανάλυσης διαφορικής έκφρασης ===

Έκδοση από την 15:43, 11 Ιουλίου 2022

Η Ανάλυση Διαφορικής Γονιδιακής Έκφρασης (ΔΓΕ) (Differential gene expression (DEG)) είναι τμήμα της ανάλυσης βιολογικών δεδομένων και αναφέρεται στην ανάλυση και την ερμηνεία των διαφορών στην αφθονία των μεταγραφών γονιδίων μέσα σε ένα μεταγράφωμα.[1] Αφορά στη λήψη των κανονικοποιημένων δεδομένων μέτρησης αναγνωσμένων και διεξαγωγή στατιστικής ανάλυσης για την ανακάλυψη ποσοτικών αλλαγών στα επίπεδα έκφρασης μεταξύ των πειραματικών ομάδων. Για παράδειγμα, χρησιμοποιούνται στατιστικές δοκιμές για να αποφασιστεί αν, για ένα δεδομένο γονίδιο, μια παρατηρούμενη διαφορά στους αριθμούς ανάγνωσης είναι σημαντική, δηλαδή εάν είναι μεγαλύτερη από ό,τι θα περίμενε κανείς λόγω της φυσικής τυχαίας διακύμανσης.[2]

Η ανάλυση διαφορικής έκφρασης είναι μια από τις πιο κοινές εφαρμογές ανάλυσης δεδομένων RNA-seq. Είναι το επόμενο βήμα μετά την RNA-seq. Προσδιορίζει τις γονοτυπικές διαφορές μεταξύ δύο ή περισσότερων κυττάρων. Η ενσωμάτωση και η οπτικοποίηση των αποτελεσμάτων ΔΓΕ μπορεί να διευκολύνει μεταγενέστερες μελέτες, ειδικά για ερευνητές που έχουν περιορισμένο υπολογιστικό υπόβαθρο.[3]

Προσδιορισμός διαφορικά εκφραζόμενων γονιδίων

Ο υπολογισμός του βαθμού της μεταβολής της έκφρασης του ίδιου γονιδίου μεταξύ δύο διαφορετικών συνθηκών γίνεται με τη χρήση του λογαρίθμου του λόγου των τιμών έκφρασης στη συνθήκη μελέτης (test) προς τη συνθήκη ελέγχου (control). Η απόδοση των συνθηκών γίνεται από τον πειραματιστή και βασίζεται στο βιολογικό ερώτημα. Έτσι π.χ. αν αναζητούμε τις μεταβολές της έκφρασης σε μια παθολογική κατάσταση είναι λογικό οι τιμές των παθολογικών δειγμάτων να είναι η συνθήκη μελέτης και αυτές των φυσιολογικών να είναι η συνθήκη ελέγχου. Υπολογίζουμε το λογάριθμο του λόγου τους ως εξής:

Η χρήση του λόγου των τιμών έκφρασης είναι προφανής. Τιμές του λόγου >1 θα είναι ενδεικτικές μεγαλύτερης έκφρασης στη συνθήκη μελέτης και συνεπώς ενεργοποίησης του γονιδίου ενώ τιμές <1 θα είναι ενδεικτικές καταστολής του. Η εφαρμογή του λογαρίθμου γίνεται για δύο λόγους. Αρχικά, για να μειώσει τη διασπορά των τιμών λόγων έκφρασης, με τον ίδιο τρόπο που είδαμε παραπάνω για τις καθαρές τιμές έκφρασης. Κατά δεύτερο λόγο, για να μετατρέψει το “ουδέτερο” σημείο της ποσότητας από το 1 στο 0. Οι τιμές log2FC είναι θετικές στην περίπτωση της ενεργοποίησης του γονιδίου g, της αύξησης δηλαδή των επιπέδων έκφρασής του στη συνθήκη μελέτης σε σχέση με τη συνθήκη ελέγχου και αρνητικές στην περίπτωση καταστολής. Μηδενικές μεταβολές αντιστοιχίζονται στην τιμή 0. Επιπλέον, η χρήση του δυαδικού λογάριθμου επιτρέπει μια απευθείας ανάγνωση του βαθμού της διαφορικής έκφρασης. Μια τιμή log2FC=1 σημαίνει διπλάσια έκφραση σε σχέση με τη συνθήκη ελέγχου, ενώ μια τιμή log2FC=-1 υποδηλώνει μείωση στο μισό. Η χρήση της λογαριθμικής κλίμακας επιτρέπει γενικότερα ευκολότερη ερμηνεία των αποτελεσμάτων. Στην περίπτωση που η έκφραση του κάθε γονιδίου έχει μετρηθεί περισσότερες από μία φορές σε επαναλήψεις του ίδιου πειράματος, η εξίσωση 7.4 δεν αλλάζει αλλά στη θέση των Ε(g)test και Ε(g)control χρησιμοποιούνται οι αντίστοιχες μέσες τιμές των επαναλήψεων. Η σημασία της πραγματοποίησης επαναλήψεων του ίδιου πειράματος είναι πολύ μεγάλη για λόγους στατιστικής αξιολόγησης που θα συζητηθούν στη συνέχεια. Σημειώνεται εδώ ότι η ζευγαρωτή σχέση συνθήκης μελέτης/ελέγχου δε σημαίνει ότι σε κάθε πείραμα υπάρχει μόνο μια συνθήκη μελέτης. Κρατώντας σταθερή τη συνθήκη ελέγχου κανείς μπορεί να υπολογίσει τη σχετική έκφραση σε μια σειρά από καταστάσεις. Έτσι π.χ. μπορεί κανείς να συγκρίνει παθολογικά δείγματα με δείγματα στα οποία οι ασθενείς υποβάλλονται σε διαφορετικές θεραπείες ή να μελετήσει τη διαφορική έκφραση σε διαφορετικά στάδια μιας διαδικασίας εφόσον όλα συγκρίνονται με ένα αρχικό χρονικό σημείο t=0 κλπ.[4]

Εργαλεία Ανάλυσης Διαφορικής Έκφρασης

Τα εργαλεία διαφορικής έκφρασης γονιδίων (DGE)[5] εκτελούν στατιστικές δοκιμές βασισμένες σε ποσοτικοποιήσεις εκφρασμένων γονιδίων που προέρχονται από υπολογιστικές αναλύσεις μη επεξεργασμένων RNA-seq αποτελεσμάτων με σκοπό να προσδιοριστούν τα γονίδια που έχουν στατιστικά σημαντική διαφορά, ενώ παρέχουν επίσης πληροφορίες σχετικά με το επίπεδο έκφρασης και το μέγεθος της διαφοράς ανά ζεύγη για κάθε γονίδιο. Οι αναλύσεις DGE μπορούν να παρέχουν σημαντική εικόνα για τους γενετικούς μηχανισμούς σε οργανισμούς που συμβάλλουν σε φαινοτυπικές διαφορές, συμπεριλαμβανομένων των προτύπων ανάπτυξης των φυτών, της ανίχνευσης προέλευσης όγκου και της μελέτης μικροβιωμάτων.

Τα εργαλεία που συνήθως χρησιμοποιούνται ειναι:

Τα εργαλεία με την καλύτερη απόδοση τείνουν να είναι τα edgeR, DESeq/DESeq2 και limma-voom.[20] Το DESeq και το limma-voom τείνουν να είναι πιο συντηρητικά από το edgeR, αλλά το edgeR συνιστάται για πειράματα με λιγότερες από 12 επαναλήψεις.[21] Όλα αυτά τα εργαλεία βασίζονται στη γλώσσα R και κάνουν μεγάλη χρήση πολυάριθμων στατιστικών μεθόδων που έχουν αναπτυχθεί και εφαρμοστεί τις τελευταίες δύο δεκαετίες για να βελτιώσουν την ισχύ ανίχνευσης ισχυρών αλλαγών που βασίζονται σε εξαιρετικά μικρό αριθμό επαναλήψεων και να βοηθήσουν στην αντιμετώπιση των ιδιορρυθμιών ακέραιων δεδομένων.[20] Αυτά τα εργαλεία βασικά ακολουθούν την ίδια προσέγγιση, εκτιμούν τη διαφορά γονιδιακής έκφρασης για ένα δεδομένο γονίδιο χρησιμοποιώντας μοντέλα που βασίζονται σε παλινδρόμηση, ακολουθούμενο από μια στατιστική δοκιμή με βάση τη μηδενική υπόθεση ότι η διαφορά είναι κοντά στο μηδέν, πράγμα που θα σήμαινε ότι δεν υπάρχει διαφορά στις τιμές έκφρασης των γονιδίων που θα μπορούσαν να εξηγηθούν από τις συνθήκες.

Μέθοδοι ανάλυσης διαφορικής έκφρασης

Τρεις είναι οι βασικότερες κατηγορίες μεθόδων.

1. Απλή Ανάλυση Εμπλουτισμού (SEA)

H Aπλή Ανάλυση Εμπλουτισμού (Single Enrichment Analysis, SEA) εκτυλίσσεται σε δύο στάδια, τον υπολογισμό των σχετικών εμπλουτισμών και το στατιστικό έλεγχο των τιμών τους μέσω της υπεργεωμετρικής κατανομής. Ο συγκεκριμένος τύπος ανάλυσης είναι ο απλούστερος αλλά αποτελεί τη βάση για όλες τις πιο σύνθετες μεθοδολογίες.

2. Ανάλυση Εμπλουτισμού σε Σύνολα Γονιδίων (GSEA)

Η Ανάλυση Εμπλουτισμού σε Σύνολα Γονιδίων (Gene Set Enrichment Analysis, GSEA) είναι μια μέθοδος με δύο βασικά πλεονεκτήματα σε σχέση με την απλούστερη SEA..

Πρώτον, δεν απαιτεί την εφαρμογή αυθαίρετων κριτηρίων για τον ορισμό ενός υποσυνόλου διαφορικά εκφραζόμενων γονιδίων. Δεύτερον, ακριβώς εξαιτίας αυτής της απουσίας τιμών-κατωφλίων, χρησιμοποιεί το σύνολο των δεδομένων αντί για ένα περιορισμένο μέρος τους. Τα δεδομένα εισόδου στην GSEA είναι οι τιμές έκφρασης από ολόκληρο το πείραμα. Το τελικό αποτέλεσμα είναι κι εδώ μια σειρά από τιμές p-value που αξιολογούν το βαθμό εμπλουτισμού μιας δεδομένης λειτουργίας, όμως ο τρόπος που υπολογίζεται τόσο η κάθε τιμή p-value αλλά και ο εμπλουτισμός διαφέρουν από την SEA.

3. Σπονδυλωτή (modular) Ανάλυση Εμπλουτισμού (MEA)

Κληρονομώντας το βασικό υπολογισμό εμπλουτισμών από την SEA, η Σπονδυλωτή Ανάλυση Εμπλουτισμού (Modular Enrichment Analysis, ΜΕΑ) ενσωματώνει επιπλέον αλγορίθμους που αποσκοπούν στην ανάδειξη ιδιοτήτων δικτύων που λαμβάνουν υπόψη τις σχέσεις μεταξύ λειτουργικών όρων. Έτσι αν δύο όροι π.χ. γονιδιακής οντολογίας βρεθούν να είναι σημαντικά εμπλουτισμένοι αλλά ταυτόχρονα βρίσκονται και σε γειτονικές θέσεις στο γράφο της ιεραρχίας των όρων, θα θεωρηθούν ακόμα μεγαλύτερης σημασίας. Το βασικό πλεονέκτημα αυτών των μεθόδων είναι ότι επιτρέπουν την εξόρυξη πληροφορίας που σχετίζεται με βαθύτερες βιολογικές σχέσεις όπως η ιεραρχική οργάνωση κυτταρικών διεργασιών ή οι αλληλεπιδράσεις 36 μεταξύ μονοπατιών. Στον αντίποδα, ένας βασικός περιορισμός είναι ότι η ΜΕΑ απαιτεί την ύπαρξη ιεραρχίας στην οργάνωση των λειτουργικών κατηγοριών (όρων) και έτσι μπορεί να χρησιμοποιηθεί κυρίως στην περίπτωση των γονιδιακών οντολογιών. Οι προσπάθειες για την ιεραρχική οργάνωση και άλλων λειτουργικών κατηγοριοποιήσεων έχουν ενταθεί καθώς είναι προφανές πως θα συμβάλλουν σημαντικά στην καλύτερη και πληρέστερη βιολογική ερμηνεία των πειραμάτων έκφρασης με μικρότερη εξάρτηση από ακραίες τιμές έκφρασης που δημιουργούν μια χαρακτηριστική τάση υπερεκπροσώπησης συγκεκριμένων λειτουργικών κατηγοριών (π.χ. ρύθμισης της μεταγραφής).[22][23]


Υπάρχουν διαφορετικές μέθοδοι για ανάλυση διαφορικής έκφρασης, όπως το edgeR και το DESeq που βασίζονται σε αρνητικές διωνυμικές κατανομές (NB) ή baySeq και EBSeq που είναι προσεγγίσεις Bayes βασισμένες σε αρνητικό διωνυμικό μοντέλο. Είναι σημαντικό να λαμβάνεται υπόψη ο πειραματικός σχεδιασμός κατά την επιλογή μιας μεθόδου ανάλυσης. Ενώ ορισμένα από τα εργαλεία διαφορικής έκφρασης μπορούν να πραγματοποιήσουν σύγκριση μόνο κατά ζεύγη, άλλα όπως το edgeR, το limma-voom, το DESeq και το maSigPro μπορούν να εκτελέσουν πολλαπλές συγκρίσεις.[24] Η γραμμή επεξεργασίας RNA-seq που χρησιμοποιείται για τη δημιουργία δεδομένων για τον Άτλαντα έκφρασης είναι ένας "αγωγός". Σε αυτόν τον “αγωγό” οι ακατέργαστες αναγνώσεις (αρχεία FASTQ) υποβάλλονται σε αξιολόγηση ποιότητας και φιλτράρισμα. Οι ποιοτικά φιλτραρισμένες αναγνώσεις ευθυγραμμίζονται με το γονιδίωμα αναφοράς μέσω του HISAT2. Οι χαρτογραφημένες αναγνώσεις συνοψίζονται και συγκεντρώνονται σε γονίδια μέσω HTSeq. Για τη βασική έκφραση, τα FPKM υπολογίζονται από τις πρωτογενείς μετρήσεις από το iRAP. Αυτές υπολογίζονται κατά μέσο όρο για κάθε σύνολο τεχνικών αντιγράφων και, στη συνέχεια, κανονικοποιούνται τα ποσοστά εντός κάθε συνόλου βιολογικών αντιγράφων χρησιμοποιώντας λίμα.

Τέλος, υπολογίζεται ο μέσος όρος για όλα τα βιολογικά αντίγραφα (εάν υπάρχουν). Για τη διαφορική έκφραση, τα γονίδια που εκφράζονται διαφορετικά μεταξύ του τεστ και των ομάδων αναφοράς κάθε ζεύγους αντίθεσης ταυτοποιούνται χρησιμοποιώντας το DESeq2.[24]

Χάρτες θερμότητας και ομαδοποίηση

Μια κοινή μέθοδος οπτικοποίησης δεδομένων γονιδιακής έκφρασης είναι η εμφάνισή τους ως θερμικός χάρτης. Ο θερμικός χάρτης μπορεί επίσης να συνδυαστεί με μεθόδους ομαδοποίησης που ομαδοποιούν γονίδια ή/και δείγματα με βάση την ομοιότητα του προτύπου γονιδιακής έκφρασης τους. Αυτό μπορεί να είναι χρήσιμο για τον εντοπισμό γονιδίων που ρυθμίζονται συνήθως ή βιολογικών υπογραφών που σχετίζονται με μια συγκεκριμένη πάθηση (π.χ. μια ασθένεια ή μια περιβαλλοντική κατάσταση).[25]

Στους χάρτες θερμότητας τα δεδομένα εμφανίζονται σε ένα πλέγμα όπου κάθε σειρά αντιπροσωπεύει ένα γονίδιο και κάθε στήλη αντιπροσωπεύει ένα δείγμα. Το χρώμα και η ένταση των πλαισίων χρησιμοποιούνται για να αναπαραστήσουν αλλαγές (όχι απόλυτες τιμές) της γονιδιακής έκφρασης. Στο παρακάτω παράδειγμα, το κόκκινο αντιπροσωπεύει γονίδια που ρυθμίζονται προς τα πάνω και το μπλε αντιπροσωπεύει γονίδια που ρυθμίζονται προς τα κάτω. Το μαύρο αντιπροσωπεύει αμετάβλητη έκφραση.

Μια κοινή προσέγγιση για την ερμηνεία των δεδομένων γονιδιακής έκφρασης είναι η ανάλυση εμπλουτισμού συνόλου γονιδίων που βασίζεται στον λειτουργικό σχολιασμό των διαφορικά εκφραζόμενων γονιδίων (Εικόνα 13). Αυτό είναι χρήσιμο για να διαπιστωθεί εάν τα διαφορικά εκφραζόμενα γονίδια σχετίζονται με μια συγκεκριμένη βιολογική διαδικασία ή μοριακή λειτουργία.[26]

Η Γονιδιακή Οντολογία, που περιέχει τυποποιημένο σχολιασμό γονιδιακών προϊόντων, χρησιμοποιείται συνήθως για το σκοπό αυτό. Λειτουργεί συγκρίνοντας τη συχνότητα μεμονωμένων σχολιασμών στη λίστα γονιδίων (π.χ. γονίδια που εκφράζονται διαφορικά) με μια λίστα αναφοράς (συνήθως όλα τα γονίδια στη μικροσυστοιχία ή στο γονιδίωμα). Ο εμπλουτισμός των βιολογικών οδών που παρέχονται από τα KEGG, Ingenuity, Reactome ή WikiPathways μπορεί να πραγματοποιηθεί με παρόμοιο τρόπο.[27]


Παραπομπές

  1. Conesa, Ana; Madrigal, Pedro; Tarazona, Sonia; Gomez-Cabrero, David; Cervera, Alejandra; McPherson, Andrew; Szcześniak, Michał Wojciech; Gaffney, Daniel J. και άλλοι. (2016-01-26). «A survey of best practices for RNA-seq data analysis». Genome Biology 17 (1): 13. doi:10.1186/s13059-016-0881-8. ISSN 1474-760X. PMID 26813401. PMC PMC4728800. https://doi.org/10.1186/s13059-016-0881-8. 
  2. Anders, Simon; Huber, Wolfgang (2010-04-30). «Differential expression analysis for sequence count data». Nature Precedings. doi:10.1038/npre.2010.4282.2. ISSN 1756-0357. http://dx.doi.org/10.1038/npre.2010.4282.2. 
  3. Anders, Simon; Huber, Wolfgang (2010-04-30). «Differential expression analysis for sequence count data». Nature Precedings. doi:10.1038/npre.2010.4282.2. ISSN 1756-0357. http://dx.doi.org/10.1038/npre.2010.4282.2. 
  4. Χουβαρδάς, Παναγιώτης. Υπολογιστική μοντελοποίηση της επιγενετικής ρύθμισης της γονιδιακής έκφρασης κατά την ανάπτυξη χρόνιας φλεγμονής. National Documentation Centre (EKT). http://dx.doi.org/10.12681/eadd/43454. 
  5. Perkel, Jeffrey M. (2018-01-30). «Data visualization tools drive interactivity and reproducibility in online publishing». Nature 554 (7690): 133–134. doi:10.1038/d41586-018-01322-9. ISSN 0028-0836. http://dx.doi.org/10.1038/d41586-018-01322-9. 
  6. Robinson, M. D.; McCarthy, D. J.; Smyth, G. K. (2009-11-11). «edgeR: a Bioconductor package for differential expression analysis of digital gene expression data». Bioinformatics 26 (1): 139–140. doi:10.1093/bioinformatics/btp616. ISSN 1367-4803. http://dx.doi.org/10.1093/bioinformatics/btp616. 
  7. Trapnell, Cole; Hendrickson, David G; Sauvageau, Martin; Goff, Loyal; Rinn, John L; Pachter, Lior (2012-12-09). «Differential analysis of gene regulation at transcript resolution with RNA-seq». Nature Biotechnology 31 (1): 46–53. doi:10.1038/nbt.2450. ISSN 1087-0156. http://dx.doi.org/10.1038/nbt.2450. 
  8. Love, Michael I; Huber, Wolfgang; Anders, Simon (2014-12). «Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2». Genome Biology 15 (12). doi:10.1186/s13059-014-0550-8. ISSN 1474-760X. http://dx.doi.org/10.1186/s13059-014-0550-8. 
  9. Tarazona, Sonia; García, Fernando; Ferrer, Alberto; Dopazo, Joaquín; Conesa, Ana (2012-02-28). «NOIseq: a RNA-seq differential expression method robust for sequencing depth biases». EMBnet.journal 17 (B): 18. doi:10.14806/ej.17.b.265. ISSN 2226-6089. http://dx.doi.org/10.14806/ej.17.b.265. 
  10. Li, Jun; Tibshirani, Robert (2011-11-28). «Finding consistent patterns: A nonparametric approach for identifying differential expression in RNA-Seq data». Statistical Methods in Medical Research 22 (5): 519–536. doi:10.1177/0962280211428386. ISSN 0962-2802. http://dx.doi.org/10.1177/0962280211428386. 
  11. Pimentel, Harold; Bray, Nicolas L; Puente, Suzette; Melsted, Páll; Pachter, Lior (2017-06-05). «Differential analysis of RNA-seq incorporating quantification uncertainty». Nature Methods 14 (7): 687–690. doi:10.1038/nmeth.4324. ISSN 1548-7091. http://dx.doi.org/10.1038/nmeth.4324. 
  12. Ritchie, Matthew E.; Phipson, Belinda; Wu, Di; Hu, Yifang; Law, Charity W.; Shi, Wei; Smyth, Gordon K. (2015-01-20). «limma powers differential expression analyses for RNA-sequencing and microarray studies». Nucleic Acids Research 43 (7): e47–e47. doi:10.1093/nar/gkv007. ISSN 1362-4962. http://dx.doi.org/10.1093/nar/gkv007. 
  13. Guo, Yan; Li, Chung-I; Ye, Fei; Shyr, Yu (2013-12-09). «Evaluation of read count based RNAseq analysis methods». BMC Genomics 14 (8): S2. doi:10.1186/1471-2164-14-S8-S2. ISSN 1471-2164. PMID 24564449. PMC PMC4092879. https://doi.org/10.1186/1471-2164-14-S8-S2. 
  14. Auer, Paul L.; Doerge, Rebecca W. (2011-05-16). «A Two-Stage Poisson Model for Testing RNA-Seq Data» (στα αγγλικά). Statistical Applications in Genetics and Molecular Biology 10 (1). doi:10.2202/1544-6115.1627. ISSN 1544-6115. https://www.degruyter.com/document/doi/10.2202/1544-6115.1627/html. 
  15. Ritchie, Matthew E.; Phipson, Belinda; Wu, Di; Hu, Yifang; Law, Charity W.; Shi, Wei; Smyth, Gordon K. (2015-04-20). «limma powers differential expression analyses for RNA-sequencing and microarray studies». Nucleic Acids Research 43 (7): e47–e47. doi:10.1093/nar/gkv007. ISSN 0305-1048. PMID 25605792. PMC PMC4402510. https://doi.org/10.1093/nar/gkv007. 
  16. Hardcastle, Thomas J.; Kelly, Krystyna A. (2010-08-10). «baySeq: Empirical Bayesian methods for identifying differential expression in sequence count data». BMC Bioinformatics 11 (1): 422. doi:10.1186/1471-2105-11-422. ISSN 1471-2105. PMID 20698981. PMC PMC2928208. https://doi.org/10.1186/1471-2105-11-422. 
  17. Leng, Ning; Dawson, John A.; Thomson, James A.; Ruotti, Victor; Rissman, Anna I.; Smits, Bart M. G.; Haag, Jill D.; Gould, Michael N. και άλλοι. (2013-04-15). «EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments». Bioinformatics 29 (8): 1035–1043. doi:10.1093/bioinformatics/btt087. ISSN 1367-4803. PMID 23428641. PMC PMC3624807. https://doi.org/10.1093/bioinformatics/btt087. 
  18. Van De Wiel, Mark A.; Leday, Gwenaël G.R.; Pardo, Luba; Rue, Håvard; Van Der Vaart, Aad W.; Van Wieringen, Wessel N. (2013-01-01). «Bayesian analysis of RNA sequencing data by estimating multiple shrinkage priors». Biostatistics 14 (1): 113–128. doi:10.1093/biostatistics/kxs031. ISSN 1465-4644. https://doi.org/10.1093/biostatistics/kxs031. 
  19. Law, Charity W.; Chen, Yunshun; Shi, Wei; Smyth, Gordon K. (2014-02-03). «voom: precision weights unlock linear model analysis tools for RNA-seq read counts». Genome Biology 15 (2): R29. doi:10.1186/gb-2014-15-2-r29. ISSN 1474-760X. PMID 24485249. PMC PMC4053721. https://doi.org/10.1186/gb-2014-15-2-r29. 
  20. 20,0 20,1 D¨undar, Friederike (February 26, 2020). Differential Gene Expression Analysis (DGE). https://physiology.med.cornell.edu/faculty/skrabanek/lab/angsd/lecture_notes/Background_testingForDGE.pdf. 
  21. Schurch, Nicholas J.; Schofield, Pieta; Gierliński, Marek; Cole, Christian; Sherstnev, Alexander; Singh, Vijender; Wrobel, Nicola; Gharbi, Karim και άλλοι. (2016-06). «Evaluation of tools for differential gene expression analysis by RNA-seq on a 48 biological replicate experiment». RNA 22 (6): 839–851. doi:10.1261/rna.053959.115. ISSN 1355-8382. http://arxiv.org/abs/1505.02017. 
  22. Τσιμπίρης, Αλκιβιάδης. Εξόρυξη γνώσης από βάσεις χρονοσειρών. National Documentation Centre (EKT). http://dx.doi.org/10.12681/eadd/27116. 
  23. Jackson, Roger S.· Stein, Susanne (2002). Differential Display of Gene Expression in Human Carcinomas. Elsevier. σελίδες 75–83. 
  24. 24,0 24,1 EMBL-EBI. «Differential gene expression analysis | Functional genomics II» (στα Αγγλικά). Ανακτήθηκε στις 4 Ιουλίου 2022. 
  25. Grant, Gregory R.; Manduchi, Elisabetta; Stoeckert, Christian J. (2007-01). «Analysis and Management of Microarray Gene Expression Data». Current Protocols in Molecular Biology 77 (1). doi:10.1002/0471142727.mb1906s77. ISSN 1934-3639. http://dx.doi.org/10.1002/0471142727.mb1906s77. 
  26. Curtis, R. Keira; Orešič, Matej; Vidal-Puig, Antonio (2005-08). «Pathways to the analysis of microarray data». Trends in Biotechnology 23 (8): 429–435. doi:10.1016/j.tibtech.2005.05.011. ISSN 0167-7799. http://dx.doi.org/10.1016/j.tibtech.2005.05.011. 
  27. Werner, Thomas (2008-02). «Bioinformatics applications for pathway analysis of microarray data». Current Opinion in Biotechnology 19 (1): 50–54. doi:10.1016/j.copbio.2007.11.005. ISSN 0958-1669. http://dx.doi.org/10.1016/j.copbio.2007.11.005.