Yeastract

YEASTRACT (Yeast Search for Transcriptional Regulators And Consensus Tracking) είναι βάση δεδομένων όπου αποθηκεύονται περισσότερες από 200.000 ρυθμιστικές συσχετίσεις μεταξύ μεταγραφικών παραγόντων (transcription factors-TF) και γονιδίων στόχων που βρίσκονται στοSaccharomyces cerevisiae.^[1]

Εισαγωγή

Η YEASTRACT βασίζεται σε περισσότερες από 1.300 βιβλιογραφικές αναφορές. Περιλαμβάνει την περιγραφή 326 ειδικών θέσεων δέσμευσης DNA που μοιράζονται μεταξύ 113 χαρακτηρισμένων TF. Περαιτέρω πληροφορίες για κάθε γονίδιο ζυμομύκητα έχουν εξαχθεί από τη βάση δεδομένων σακχαρομύκητα (Saccharomyces Genome Database-SGD) σύμφωνα με την τελευταία έκδοση, έκδοση 7785, από τις 27 Απριλίου 2013. Για κάθε γονίδιο, οι σχετικοί όροι της γονιδιακής οντολογίας (Gene Ontology-GO) και η ιεραρχία τους στο GO, αποκτήθηκε από την κοινοπραξία GO σύμφωνα με το αρχείο OBO στις 04 Μαΐου 2013. Επί του παρόντος, το YEASTRACT διατηρεί συνολικά 7.130 όρους από το GO. Οι νουκλεοτιδικές ακολουθίες του υποκινητή και οι περιοχές κωδικοποίησης για τα γονίδια ζυμομύκητα αποκτήθηκαν από τα εργαλεία ανάλυσης ρυθμιστικών ακολουθιών (Regulatory Sequence Analysis Tools-RSAT). Όλες οι πληροφορίες στο YEASTRACT ενημερώνονται τακτικά ώστε να ταιριάζουν με τα πιο πρόσφατα δεδομένα του SGD, της κοινοπραξίας GO, του RSAT και την πρόσφατη βιβλιογραφία επάνω στα ρυθμιστικά δίκτυα ζυμομύκητα.

Το YEASTRACT περιλαμβάνει το DISCOVERER, ένα σύνολο εργαλείων που μπορούν να χρησιμοποιηθούν για τον εντοπισμό σύνθετων μοτίβων που βρέθηκαν να υπερ-εκπροσωπούνται στις περιοχές του υποκινητή των συν-ρυθμιζόμενων γονιδίων. Το DISCOVERER βασίζεται στον αλγόριθμο MUSA. Αυτοί οι αλγόριθμοι παίρνουν ως είσοδο έναν κατάλογο γονιδίων και αναγνωρίζουν υπερ-εκπροσωπούμενα μοτίβα, τα οποία στη συνέχεια μπορούν να συγκριθούν με τις θέσεις δέσμευσης μεταγραφικών παραγόντων που περιγράφονται στη βάση δεδομένων YEASTRACT. Παρέχονται επίσης λειτουργίες που επιτρέπουν την εκμετάλλευση των δεδομένων που έχουν συλλεχθεί κατά την επίλυση ορισμένων βιολογικών ζητημάτων, όπως παρουσιάζονται στο εγχειρίδιο.

Το YEASTRACT επιτρέπει την ταυτοποίηση τεκμηριωμένων ή δυνητικών ρυθμιστών μεταγραφής ενός δεδομένου γονιδίου και τεκμηριωμένων ή δυνητικών ρυθμιστών για κάθε μεταγραφικό παράγοντα. Επίσης καθιστά δυνατή τη σύγκριση μεταξύ μοτίβων DNA και θέσεων δέσμευσης μεταγραφικών παραγόντων που περιγράφονται στη βιβλιογραφία. Το σύστημα παρέχει επίσης έναν χρήσιμο μηχανισμό για την ομαδοποίηση μιας λίστας γονιδίων με βάση τις ρυθμιστικές τους συσχετίσεις με γνωστούς μεταγραφικούς παράγοντες όπως για παράδειγμα ένα σύνολο γονιδίων με παρόμοια προφίλ έκφρασης όπως προκύπτει από την ανάλυση μικροσυστοιχιών.

Το YEASTRACT παρέχει μια σειρά από ερωτήματα για την αναζήτηση και την ανάκτηση σημαντικής βιολογικής πληροφορίας από τα δεδομένα που έχουν ληφθεί και την πρόβλεψη δικτύων ρυθμιστών μεταγραφής στον ζυμομύκητα από δεδομένα που προκύπτουν από την ανάλυση ‘’γονίδιο - γονίδιο’’ ή από σφαιρικές προσεγγίσεις ^[2]^[3].

Σημασία και ιδιότητες

Η YEASTRACT έγινε προσβάσιμη στο διαδίκτυο μετά από εκτεταμένες μελέτες των θέσεων πρόσδεσης των μεταγραφικών παραγόντων. Όλες οι υπερ-συνδέσεις της βάσης περιλαμβάνουν βοήθεια εξαρτώμενη από το περιεχόμενο ενώ διαθέτει και ένα πλαίσιο που περιλαμβάνει παραδείγματα της χρήσης κάθε εργαλείου αναζήτησης. Επίσης διαθέτει ένα πλήρες πρόγραμμα εκμάθησης της χρήσης του συστήματος.

Επιπλέον, στην πιο πρόσφατη έκδοση του προγράμματος

Μπορεί να εντοπιστούν μεταγραφικοί παράγοντες μέσω των ρυθμιστικών τους γονιδίων, γεγονός που επιτρέπει στον χρήστη να εντοπίζει πιθανούς ή καταχωρημένους στο σύστημα ρυθμιστές γονιδίων από υπάρχουσες λίστες γονιδίων οι οποίες απεικονίζονται σε πίνακα.
Μια άλλη ιδιότητα είναι η εύρεση μεταγραφικών παραγόντων χρησιμοποιώντας συγκεκριμένες λέξεις κλειδιά, που ανταποκρίνονται στην περιγραφή τους, όπως εξάγονται από τη Saccharomyces Genome Database (SGD).
Μπορεί να γίνει αναζήτηση για καταχωρημένες αλλά και για πιθανές ρυθμιστικές συσχετίσεις μεταξύ μεταγραφικών παραγόντων ως εισαγόμενα δεδομένα (input) και των ρυθμιζόμενων γονιδίων μέσω των gene ontology terms και οι οποίοι όροι (terms) έχουν καταχωρηθεί από το SGD. Η ομαδοποίηση μπορεί να γίνει με βάση έναν από τις τρεις όρους gene ontology, δηλαδή από τις βιολογικές διαδικασίες, τις μοριακές λειτουργίες και τα κυτταρικά συστατικά.
Εύρεση γονιδίων που ρυθμίζονται ή που πιθανώς να ρυθμίζονται από συγκεκριμένους μεταγραφικούς παράγοντες, βασιζόμενη στην προέκταση των θέσεων πρόσδεσής τους που βρίσκονται στην περιοχή υποκινητών.^[4]
Εύρεση γονιδίων από μεταγραφικούς παράγοντες ή από μοτίβα DNA (DNA motif), όπου επιτρέπει στον χρήστη την εύρεση ενός ή περισσότερων μοτίβων DNA είτε στην περιοχή υποκινητών για ένα ή περισσότερα γονίδια είτε μέσα στις θέσεις πρόσδεσης των μεταγραφικών παραγόντων που έχουν καταχωρηθεί στη βάση δεδομένων. Τα αποτελέσματα που προκύπτουν εμφανίζονται ως λίστες στις οποίες κάθε αποτέλεσμα αντιστοιχεί σε «ταίριασμα» των θέσεων πρόσδεσης των μεταγραφικών παραγόντων και των εισαγόμενων μοτίβων DNA). Αυτή η αναζήτηση επιτρέπει τον έλεγχο πρόσφατα εντοπισμένων DNA μοτίβων που ταιριάζουν με καλά χαρακτηρισμένες θέσεις πρόσδεσης μεταγραφικών παραγόντων.^[4]

Τοπολογία των γενετικών ρυθμιστικών δικτύων στο ζυμομύκητα

Η βάση δεδομένων YEASTRACT περιλαμβάνει πληροφορίες για τα δίκτυα ρύθμισης των γονιδίων στους ζυμομύκητες. Η δομή της βάσης οργανώνεται γύρω από τις έννοιες των γονιδίων, των πρωτεϊνών (μεταγραφικοί παράγοντες) και των θέσεων πρόσδεσής τους πάνω στα γονίδια. Οι παραπάνω αλληλεπιδράσεις μεταξύ των μεταγραφικών παραγόντων και των γονιδίων στόχων τους μπορεί απεικονισθούν ως κατευθυνόμενα γραφήματα, τα οποία περιγράφουν πιθανά «μονοπάτια» που πραγματοποιούνται μέσα στα κύτταρα του ζυμομύκητα.^[5] Σε αυτά, οι ρυθμιστές και τα γονίδια στόχοι εκπροσωπούν τους κόμβους και οι ρυθμιστικές αλληλεπιδράσεις τις ακμές. Το δίκτυο που προκύπτει είναι ένα πολύπλοκο σύστημα που μπορεί να εξεταστεί σε τέσσερα επίπεδα.

Δομή των δικτύων

Σχηματική απεικόνιση μοτίβου αυτορρύθμισης

Στο πιο βασικό επίπεδο, τα δίκτυο αποτελείται από ένα σύνολο από μεταγραφικών παραγόντων και γονιδίων στόχων που βρίσκονται κάτω από τις θέσεις δέσμευσης των παραγόντων κατά μήκος της DNA αλυσίδας (downstream target genes) καθώς και τις θέσεις δέσμευσής τους στο DNA. Στο επόμενο επίπεδο, αυτές οι βασικές μονάδες οργανώνονται σε επαναλαμβανόμενα μοτίβα διασυνδέσεων των κόμβων και λέγονται μοτίβα δικτύων (network motifs), τα οποία εμφανίζονται συχνά σε ολόκληρο το δίκτυο. Σε τρίτο επίπεδο τα μοτίβα ομαδοποιούνται σε «ημι-ανεξάρτητες» μεταγραφικές μονάδες που ονομάζονται modules. Στο τελευταίο επίπεδο δόμησης κατά το οποίο οικοδομείται όλο το ρυθμιστικό δίκτυο και αποτελείται από αλληλεπιδράσεις μεταξύ των modules.^[6] Τα λειτουργικά μοτίβα που περιγράφονται παρακάτω αποτελούν μοντέλα μηχανισμών για τη ρύθμιση γονιδίων του ζυμομύκητα, τα οποία έχουν επίσης ελεγχθεί με πειραματικά δεδομένα:

Μοτίβο αυτορρύθμισης (auto-regulation motif)

Σχηματική απεικόνιση μοτίβου πολυσύνδετου βρόχου

Αποτελείται από ένα ρυθμιστή που προσδένεται στην περιοχή του υποκινητή του γονιδίου. Το συγκεκριμένο μοτίβο έχει παρουσιαστεί στο 10% των ρυθμιστών της έκφρασης γονιδίων του ζυμομύκητα . Η αυτορρύθμιση πιστεύεται ότι παρέχει αρκετά πλεονεκτήματα στην επιλεκτική ανάπτυξη, περιλαμβανομένου του μειωμένου χρόνου απόκρισης σε περιβαλλοντικά ερεθίσματα, του μειωμένου κόστους ρύθμισης της βιοσύνθεσης και της αυξημένης σταθερότητας της γονιδιακής έκφρασης.^[5]

Μοτίβο πολυσύνδετου βρόχου (multicomponent loop motif)

Αποτελείται από ένα ρυθμιστικό κύκλωμα του οποίου το κλείσιμο περιλαμβάνει δυο ή περισσότερους παράγοντες. Η δομή του κλειστού βρόχου παρέχει την ικανότητα ελέγχου ανατροφοδότησης και τη δυνατότητα δημιουργίας δυναμικών συστημάτων που μεταβάλλονται μεταξύ των εναλλακτικών τους καταστάσεων.^[5]

Μοτίβα μοναδιαίων εισερχόμενων δεδομένων (single-input motifs)

Aποτελούνται από ένα μοναδιαίο ρυθμιστή που δεσμεύει μια ομάδα γονιδίων κάτω από συγκεκριμένες περιβαλλοντικές συνθήκες. Τα μοτίβα αυτά είναι χρήσιμα για το συντονισμό διακριτών μονάδων βιολογικής λειτουργίας, όπως ομάδες γονιδίων που κωδικοποιούν υπομονάδες ενός βιοσυνθετικού μηχανισμού ή ενός ενζύμου ή ενός μεταβολικού μονοπατιού.^[5]

Σχηματική απεικόνιση του μοτίβου αλυσιδωτής ρύθμισης

Μοτίβα αλυσιδωτής ρύθμισης (Regulator chain motifs)

Aποτελούνται από τρεις ή περισσότερους ρυθμιστές όπου ο πρώτος ρυθμιστής προσδένεται στον υποκινητή του δεύτερου ρυθμιστή, ο δεύτερος ρυθμιστής στον υποκινητή του τρίτου κ.ο.κ. Η αλυσίδα αντιπροσωπεύει το απλούστερο λογικό κύκλωμα για την τοποθέτηση των μεταγραφικών παραγόντων σε μια χρονική ακολουθία.^[5]

Μοτίβα ανατροφοδοτούμενων βρόχων (Feedforward loop motifs)

Aποτελούνται από ένα ρυθμιστή που ελέγχει το δεύτερο ρυθμιστή ενώ και οι δύο διαθέτουν επιπλέον χαρακτηριστικά για δέσμευση σε κοινό γονίδιο στόχο. Φαίνεται πως κατά την εξέλιξη των μεταγραφικών ρυθμιστικών δικτύων (Gene Regulatory Network-GNR) στo ζυμομύκητα, παρουσιάστηκε μια υψηλή προτίμηση στην αρχιτεκτονική των μοτίβων feedforward loop.^[5]

Μοτίβα πολλαπλών εισερχόμενων δεδομένων (multi-input motifs)

Aποτελούνται από μια ομάδα ρυθμιστών που προσδένονται μαζί σε μια ομάδα γονιδίων. Προσφέρει την δυνατότητα συντονισμού γονιδιακής έκφρασης μέσα σε μια ευρεία ποικιλία αναπτυξιακών συνθηκών.^[5]

Αλγόριθμοι του Εργαλείου Discoverer

Αλγόριθμος MUSA

Ο αλγόριθμος MUSA αναζητά απλά και δομημένα μοτίβα μέσα σε μία δοσμένη λίστα μη κωδικών αλληλουχιών DNA. Ο MUSA για να εξάγει τα μοτίβα εφαρμόζει μία μέθοδο κατά την οποία κατασκευάζει έναν πίνακα τον λεγόμενο Co-occurrence matrix. Για την κατασκευή του πίνακα αυτού ακολουθείται η εξής διαδικασία: με δεδομένο ένα μέγεθος λ, όλες οι πιθανές αλληλουχίες μεγέθους λ τοποθετούνται μαζί (συνδυασμοί των 4 βάσεων {A,T,G,C}). Στη συνέχεια υπολογίζονται τα e-tolerant scores των πιο συχνών σχηματισμών των λ-αλληλουχιών που εμφανίζονται και ο αλγόριθμος εξάγει μοτίβα εφαρμόζοντας μία μέθοδο bi-clustering στον παραπάνω πίνακα.

Πιο συγκεκριμένα, ένα απλό μοτίβο $m$ θεωρείται ότι αντιπροσωπεύει μία αλληλουχία με μία συχνότητα εμφάνισης e-occurrence στις αλληλουχίες που εισάγει ο χρήστης. Ένα δομημένο μοντέλο ή αλλιώς πολύπλοκο μοτίβο ορίζεται ως ένα ζεύγος $(m,d)$ όπου το πολύπλοκο μοτίβο αποτελείται από μια πλειάδα $p$ απλών μοτίβων $m$ που χωρίζονται μεταξύ τους με αποστάσεις $(d_{i},e)$ όπου: $1<=i<=p-1$ . Η εμφάνιση (occurence) ενός πολύπλοκου μοτίβου είναι το σύνολο των εμφανίσεων $u_{1}$ , $u_{2}$ ,..... $u_{p}$ καθενός από τα απλά μοτίβα που το αποτελούν στην ίδια εισαγόμενη αλληλουχία. Κάθε εμφάνιση χωρίζεται από μία απόσταση με μήκος [ $d_{i}-e,d_{i}+e$ ]. Τα $p$ και $d_{i}$ υπολογίζονται από τον αλγόριθμο ενώ το $e$ είναι παράμετρος που καθορίζεται από το χρήστη.

Για την κατασκευή του πίνακα matrix of occurences πρέπει να βρεθούν όλες οι εμφανίσεις λ μικρού μεγέθους και στη συνέχεια δημιουργείται ένα μέγεθος το οποίο αποτελεί τη συνεμφάνιση ενός ζεύγους λ-μερών σε μία συγκεκριμένη θέση. Τα scores των συνεμφανίσεων κάθε ζεύγους λ-μερών στην ουσία αποτελούν τον αριθμό των αλληλουχιών στις οποίες μπορεί αυτό το ζεύγος να συνεμφανιστεί. O matrix of occurences συγκεντρώνει τις πληροφορίες για τα e-tolerant scores των πιο συχνών συνεμφανίσεων κάθε ζεύγους λ-μερών και με τη μέθοδο bi-clustering συνδυάζει αυτές τις διαμορφώσεις για να σχηματίσει μεγαλύτερα μοτίβα. Το e-tolerant score $\sigma (m_{r},m_{n},d)$ περιλαμβάνει το γεγονός της συνεμφάνισης των $m_{r}$ , $m_{n}$ στις εισαγμένες αλληλουχίες σε απόσταση $d+e$ θέσεων:

$\sigma _{s}^{e}$ $(m_{r},m_{n},d)$ = $\sum _{i=1}^{S}$ $max$ $M_{i},S(m_{r},m_{n},d+k)$

όπου $k$ =- $e$ ,... $e$ και $d$ $\neq$ $0$

και η τριάδα $(m_{r},m_{n},d)$ αποτελεί τη διαμόρφωση ενός ζεύγους λ-μερών των $S1$ , $S2$ ..... $St$ εισαγόμενων αλληλουχιών.

Επίσης για $d$ = $0$ ισχύει: $\sigma _{s}^{e}(m_{r},m_{n},0)$ = $0$ ^[7]

Εισαγόμενα δεδομένα (Input):

Ο χρήστης θα πρέπει να εισάγει μία λίστα γονιδίων, αλλά οι αλληλουχίες των υποκινητών τους μπορούν να εισαχθούν αυτόματα από το Yeastract. Ο αλγόριθμος MUSA δεν απαιτεί από το χρήστη να προσδιορίσει τα χαρακτηριστικά των υπό αναζήτηση μοτίβων, ωστόσο θα πρέπει να εισάγει κάποιες παραμέτρους:

Αν επιθυμεί να γίνει αναζήτηση των μοτίβων και στις δύο αλυσίδες των υποκινητών
Το ελάχιστο ποσοστό γονιδίων που θα πρέπει να περιλαμβάνουν τα μοτίβα
Το μέγεθος λ των μικρών αλληλουχιών που χρησιμοποιούνται για την κατασκευή του πίνακα matrix of co-occurences.
E-tolerance: την επιτρεπτή απόσταση σε ένα ζεύγος λ-αλληλουχιών. E>0 επιτρέπει μικρές παραλλαγές από αλληλουχία σε αλληλουχία.
Τη μέγιστη P-value για τις ομάδες των μοτίβων οι οποίες θα συναποτελέσουν τις οικογένειες των μοτίβων.

Εξερχόμενα δεδομένα (Output):

Όταν ο αλγόριθμος ολοκληρώνεται, ο χρήστης λαμβάνει ένα e-mail. Στη σελίδα που εμφανίζεται υπάρχει ένα link που οδηγεί το χρήστη στο αρχείο των μοτίβων κι ένας πίνακας που στις στήλες του παρουσιάζονται οι οικογένειες των μοτίβων, ένα PWM Position weight matrix, μία p-value για κάθε οικογένεια κι επίσης ένα link που οδηγεί στην εμφάνιση των μοτίβων για κάθε οικογένεια ξεχωριστά. Κάθε ένα από τα PWMs μπορεί να συγκριθεί με τα TFBS (περιοχές πρόσδεσης μεταγραφικών παραγόντων) από τη βάση δεδομένων YEASTRACT. Η ευθυγράμμιση γίνεται με τη χρήση ενός αλγορίθμου τοπικής ευθυγράμμισης του Smith-Waterman. Για την ευθυγράμμιση εφαρμόζονται οι εξής μετρητές απόστασης (distance metrics):

Απόσταση ελαχίστων τετραγώνων (Sum of the square distances)
Μέση απόκλιση κατά Kullback-Leibler Kullback–Leibler divergence
Συντελεστής συσχέτισης Pearson Pearson correlation coefficient
Μέση τιμή λογαριθμικής πιθανότητας (Average log-likelihood ratio)

Κάθε ένας από τους παραπάνω μετρητές συγκρίνει τις δύο στήλες των PWM των μοτίβων και των περιοχών πρόσδεσης μεταγραφικών παραγόντων εκτιμώντας την ομοιότητά τους. Αφού ολοκληρωθούν οι ευθυγραμμίσεις, κατατάσσονται με βάση το ποσοστό της ομοιότητας και οι πρώτες είκοσι ευθυγραμμίσεις παρουσιάζονται σε έναν πίνακα. Επιπλέον, ο πίνακας παρέχει πληροφορίες όχι μόνο για την ομοιότητα των PWM με τις περιοχές πρόσδεσης μεταγραφικών παραγόντων και τη μέγιστη πιθανότητα εμφάνισης τους αλλά και σε ποια αλυσίδα γίνεται ευθυγράμμιση.

Μία σημαντική διαφορά του MUSA έναντι άλλων αλγορίθμων, η οποία αποτελεί και πολύ σημαντικό πλεονέκτημα, είναι το γεγονός ότι δεν απαιτεί από το χρήστη να εισάγει λεπτομερή περιγραφή των χαρακτηριστικών των υπό αναζήτηση μοτίβων.

Αλγόριθμος RISO

Ο RISO είναι ένας αλγόριθμος που αναζητά απλά και δομημένα μοτίβα σε δοσμένες αλληλουχίες DNA. Τα μοτίβα που εντοπίζονται από τον RISO συμμορφώνονται με κάποια χαρακτηριστικά που έχει καθορίσει προηγουμένως ο χρήστης.

Input:

Στον αλγόριθμο RISO ο χρήστης δίνει τα ονόματα των γονιδίων και οι αλληλουχίες των υποκινητών που αποτελούν την είσοδο (input) στον αλγόριθμο εισάγονται αυτόματα από τη βάση δεδομένων. Επίσης ο χρήστης θα πρέπει να καθορίσει κάποιες παραμέτρους και τη δομή των υπό αναζήτηση μοτίβων:

Ελάχιστο ποσοστών γονιδίων που θα πρέπει να περιλαμβάνουν τα μοτίβα
Μέγιστη P-value των μοτίβων που θα χρησιμοποιηθούν στη δημιουργία οικογενειών μοτίβων
Μέγιστο αριθμό αντικαταστάσεων για κάθε πλαίσιο του μοτίβου
Ελάχιστο/Μέγιστο μέγεθος του πλαισίου του μοτίβου
Ελάχιστη/Μέγιστη απόσταση ανάμεσα στα πλαίσια του μοτίβου

Ο αλγόριθμος ψάχνει για μοτίβα στις αλληλουχίες που έχουν εισαχθεί και διαμορφώνει ένα δένδρο-παράγοντα που μοιάζει με δένδρο με διακλαδώσεις οι οποίες φτάνουν σε βάθος ανάλογο με το μέγεθος των πλαισίων του μοτίβου που έχει καθοριστεί από το χρήστη. Στη συνέχεια, ο RISO χρησιμοποιεί μία δομή δεδομένων το box-link με σκοπό να εξάγει μοτίβα από τη λίστα των υποκινητών των γονιδίων που εισάχθηκαν. Το box-link αποθηκεύει τις πληροφορίες που χρειάζονται για τη μετάβαση από το ένα πλαίσιο στο άλλο του δομημένου μοτίβου και κατά αυτόν τον τρόπο γίνεται η εξαγωγή των μοτίβων.

Output:

Όταν ολοκληρώνεται ο αλγόριθμος, ο χρήστης λαμβάνει ένα e-mail ώστε να μεταβεί σε ένα link στο οποίο παρατίθενται τα μοτίβα που εξάχθηκαν κι επίσης ένας πίνακας με τις οικογένειες των μοτίβων. Τα μοτίβα παρουσιάζονται ταξινομημένα με βάση την P-value και εμφανίζεται το ποσοστό των αλληλουχιών που περιλαμβάνει κάθε μοτίβο. Τα μοτίβα ομαδοποιούνται σε οικογένειες (clusters) και αντιπροσωπεύονται από μία PWM (Position Weight Matrix ) περιγραφή. Κάθε PWM μίας οικογένειας μοτίβων μπορεί να επιλεγεί και να συγκριθεί με τις περιοχές δέσμευσης μεταγραφικών παραγόντων (TFBS) από τη βάση δεδομένων Yeastract. Στη συνέχεια κάθε input PWM ευθυγραμμίζεται με κάθε TFBS PWM χρησιμοποιώντας ένα συγκεκριμένο μετρητή απόστασης από ένα σετ που είναι διαθέσιμο. Η λίστα των είκοσι ευθυγραμμίσεων με το ανώτερο score παρουσιάζεται στο χρήστη.^[8]

Ταξινόμηση με βάση μεταγραφικούς παραγόντες (RANK BY T.F.)

Αυτή η νέα εφαρμογή του Discoverer δίνει τη δυνατότητα στο χρήστη να ομαδοποιήσει μία λίστα γονιδίων με βάση τους μεταγραφικούς παράγοντες που είναι γνωστό ότι εμπλέκονται στη ρύθμισή τους ή με βάση πιθανούς ρυθμιστές.^[1]

Input:

Ως εισαγωγή δίνεται υποχρεωτικά από το χρήστη μία λίστα γονιδίων και προαιρετικά μία λίστα μεταγραφικών παραγόντων. Μπορούν να ληφθούν υπόψη είτε ήδη γνωστές είτε πιθανές ρυθμίσεις. Για κάθε εδραιωμένη ρύθμιση, το ποσοστό που αντιπροσωπεύει μία συγκεκριμένη ποσότητα γονιδίων που ρυθμίζονται από κάθε T.F. μπορεί να υπολογιστεί είτε από τον αριθμό των γονιδίων που έχουν εισαχθεί είτε από τον αριθμό των γονιδίων ολόκληρου του γονιδιώματος της βάσης δεδομένων Yeastract οδηγώντας στην αναγνώριση δικτύων μεταγραφικών παραγόντων που είναι κύριοι ρυθμιστές αυτών των γονιδίων. Επίσης ο χρήστης μπορεί να περιορίσει την αναζήτηση των ρυθμίσεων με βάση άμεσες ή έμμεσες πληροφορίες που αποδεικνύουν την ύπαρξη ρυθμιστικού μηχανισμού.

Ως άμεσες πληροφορίες νοούνται πειράματα ChIP,EMSA (Electrophoretic mobility shift assay) κ.ά. που αποδεικνύουν άμεσα την πρόσδεση του μεταγραφικού παράγοντα στην περιοχή του υποκινητή του γονιδίου-στόχου ή την επίδραση στην έκφραση του γονιδίου από μεταλλαγή της αλληλουχίας όπου γίνεται η πρόσδεση του μεταγραφικού παράγοντα στην περιοχή του υποκινητή, γεγονός που υποδηλώνει την αλληλεπίδραση του μεταγραφικού παράγοντα με τον συγκεκριμένο υποκινητή.
Οι έμμεσες πληροφορίες περιλαμβάνουν πειράματα συγκριτικής ανάλυσης που παρουσιάζουν αλλαγές στη γονιδιακή έκφραση οι οποίες προκύπτουν ως αποτέλεσμα της αποσιώπησης, της μεταλλαγής ή της υπερέκφρασης ενός συγκεκριμένου μεταγραφικού παράγοντα.

Output:

Ανάλογα με τις επιλογές που επέλεξε ο χρήστης, εμφανίζεται ως αποτέλεσμα ένας πίνακας που περιλαμβάνει τα εισαχθέντα γονίδια, ομαδοποιημένα με βάση τους μεταγραφικούς παράγοντες και ταξινομημένα αναφορικά με το ποσοστό των γονιδίων που ρυθμίζονται από τον εκάστοτε μεταγραφικό παράγοντα. Επίσης, υπάρχει η δυνατότητα δύο γραφικών:

Στατικό γράφημα:

Στο γράφημα αυτό οι μεταγραφικοί παράγοντες παρουσιάζονται με διαφορετικό χρώμα από ότι τα γονίδια-στόχους. Ανάλογα με τις επιλογές του χρήστη εμφανίζονται οι αντίστοιχοι μεταγραφικοί παράγοντες και με βέλη που κατευθύνονται σε γονίδια, παρουσιάζονται οι ομάδες των γονιδίων που ρυθμίζονται από κάθε μεταγραφικό παράγοντα.

Διαδραστικό γράφημα:

Στο διαδραστικό γράφημα, οι ρυθμίσεις εμφανίζονται σε έναν κύκλο όπου οι μεταγραφικοί παράγοντες βρίσκονται αριστερά και τα γονίδια-στόχοι δεξιά. Οι μεταγραφικοί παράγοντες παρουσιάζονται σε φθίνουσα κατάταξη ως προς το ποσοστό των γονιδίων που ρυθμίζουν. Ο χρήστης επιλέγοντας ένα γονίδιο ή ένα μεταγραφικό παράγοντα, χρωματίζονται με διαφορετικό τρόπο οι άκρες που τα ενώνουν ανάλογα αν αναφέρεται στο ρυθμιστή ή το ρυθμιζόμενο γονίδιο, παρέχοντας στο χρήστη αυτή τη διαδραστικότητα.

Ταξινόμηση με βάση όρους G.O (RANK BY G.O)

Σε αυτή την επιλογή, γίνεται ομαδοποίηση μίας λίστας γονιδίων, με βάση όρους Gene Ontology (G.O).

Input:

Ως εισαγωγή απαιτείται μία λίστα γονιδίων. Η ομαδοποίηση γίνεται με έναν από τους εξής τρόπους:

Βιολογικές διαδικασίες
Μοριακή λειτουργία
Υποκυττάρια τοποθέτηση

Η ακρίβεια της ομαδοποίησης μπορεί να ενισχυθεί αυξάνοντας το επίπεδο στην ιεράρχηση των G.O. Επιπλέον ο χρήστης μπορεί να περιορίσει την αναζήτηση των ρυθμιστικών μηχανισμών με βάση άμεσες ή έμμεσες αποδείξεις, όπως αναφέρθηκε παραπάνω στην περίπτωση ομαδοποίησης ως προς τους μεταγραφικούς παράγοντες.

Output:

Εξάγεται ένας πίνακας όρων G.O οι οποίοι ταξινομούνται με βάση το ποσοστό των γονιδίων που εισήγαγε ο χρήστης, τα οποία σχετίζονται με τον εκάστοτε όρο G.O και σε κάθε όρο G.O αναφέρονται τα ονόματα αυτών των γονιδίων.^[9]

Αλγόριθμοι Pattern Matching

Οι συγκεκριμένοι αλγόριθμοι επιτρέπουν στο χρήστη να ψάξει την περιοχή των υποκινητών για ένα ή περισσότερα γονίδια, για ένα η περισσότερα μοτίβα DNA χρησιμοποιώντας ένα διαφορετικό αριθμό παρουσιάσεων. Υποστηρίζουν την αναζήτηση για μία ή περισσότερες νουκλεοτιδικές αλυσίδες μέσα στην περιοχή του υποκινητή, επομένως οδηγούν στην ανακάλυψη πιθανών γονιδίων-στόχων για συγκεκριμένους μεταγραφικούς παράγοντες.^[3]

(Α)Αναζήτηση μοτίβων(Search by DNA motif):

Η συγκεκριμένη επιλογή δίνει τη δυνατότητα στο χρήστη να αναζητήσει ένα ή περισσότερα μοτίβα στις περιοχές των υποκινητών.

Input:

Ως εισαγωγή, ο χρήστης υποχρεούται να δώσει μία λίστα από μοτίβα αλληλουχιών που θα πρέπει να περιλαμβάνουν τουλάχιστον 4 βάσεις. Επίσης προαιρετικά μπορεί να εισαχθεί μία λίστα γονιδίων. Τα μοτίβα που εισάγει ο χρήστης μπορεί να είναι απλές νουκλεοτιδικές αλληλουχίες, αλληλουχίες σε IUPAC code (Nucleic acid notation) όπου ένας χαρακτήρας μπορεί να αντιπροσωπεύει περισσότερα από ένα νουκλεοτίδια ή κανονικές εκφράσεις (regular expressions) όπου τα μοτίβα περιλαμβάνουν χαρακτήρες και συντακτικά στοιχεία που αντιπροσωπεύουν αλληλουχίες. Στην περίπτωση που ο χρήστης εισάγει μία λίστα μοτίβων και μία λίστα γονιδίων, τότε ο αλγόριθμος ψάχνει γι’ αυτά τα μοτίβα στις περιοχές των υποκινητών αυτών των εισαχθέντων γονιδίων. Αν όμως έχει επιλέξει να γίνει αναζήτηση σε όλα τα γονίδια, τότε ο αλγόριθμος αναζητά τα μοτίβα αυτά στις περιοχές όλων των γονιδίων από τη βάση δεδομένων Yeastract. Κατά αυτόν τον τρόπο είναι δυνατή η αναγνώριση γονιδίων που ρυθμίζονται από κοινούς ρυθμιστικούς μηχανισμούς. Επιπλέον, ο αλγόριθμος επιτρέπει στο χρήστη τη δυνατότητα να επιλέξει μικρό αριθμό παραλλαγών στα εισαχθέντα μοτίβα για αναζήτηση.

Output:

Όταν ολοκληρώνεται ο αλγόριθμος, επιστρέφει σαν αποτέλεσμα τη λίστα των γονιδίων στους υποκινητές των οποίων βρέθηκαν τα προς αναζήτηση μοτίβα και τη συχνότητα εμφάνισης τους σε κάθε υποκινητή. Επιπλέον, εμφανίζονται τα μοτίβα που ταυτίστηκαν με τις αλληλουχίες των υποκινητών καθώς και η θέση τους σε κάθε υποκινητή.

(Β) Αναζήτηση περιοχών πρόσδεσης μεταγραφικών παραγόντων (Find TF Binding Sites)

Η επιλογή αυτή αναζητά όλες τις περιοχές δέσμευσης μεταγραφικών παραγόντων σε μία νουκλεοτιδική αλληλουχία.

Input:

Ως εισαγωγή στον αλγόριθμο, δίνονται μία ή περισσότερες νουκλεοτιδικές ακολουθίες σε μορφή FASTA.

Output:

Ως αποτέλεσμα, δίνονται οι περιοχές δέσμευσης των μεταγραφικών παραγόντων οι οποίες παρουσιάζονται σε γράφημα και εμφανίζεται ένας πίνακας ο οποίος περιέχει πληροφορίες σχετικά με τις DNA αλυσίδες, το μεταγραφικό παράγοντα , την αλληλουχία του και τη θέση της στις αλληλουχίες που εισάχθηκαν από το χρήστη.

(Γ)Αναζήτηση μοτίβων μέσα σε μοτίβα (Search Motifs on Motifs)

Σε αυτή την επιλογή, ο αλγόριθμος δίνει τη δυνατότητα στο χρήστη να συγκρίνει δύο λίστες μοτίβων μεταξύ τους. Αυτό είναι πολύ χρήσιμο στην περίπτωση σύγκρισης νέων μοτίβων –όπως πολύ συχνά επαναλαμβανόμενων μοτίβων σε περιοχές υποκινητών συν-ρυθμιζόμενων γονιδίων -με μοτίβα που δεν συμπεριλαμβάνονται στη βάση δεδομένων Yeastract –όπως μοτίβα σε περιοχές υποκινητών γονιδίων συγγενών ειδών του yeast που φαίνονται συντηρημένα αλλά δε σχετίζονται με κάποιο συγκεκριμένο μεταγραφικό παράγοντα.

Input:

Ως εισαγωγή, απαιτούνται δύο λίστες μοτίβων DNA. Αυτά τα μοτίβα μπορούν να είναι σε μορφή απλών νουκλεοτιδικών αλληλουχιών,αλληλουχιών κατά IUPAC code ή αλληλουχιών που περιλαμβάνουν στοιχεία κανονικών εκφράσεων (regular expression elements) Η αναζήτηση ψάχνει αν μοτίβα από την πρώτη λίστα περιλαμβάνονται στη δεύτερη λίστα και αντίστροφα. Επίσης, ο αλγόριθμος επιτρέπει μέχρι και δύο παραλλαγές στις αλληλουχίες κι ο χρήστης δύναται να περιορίσει την αναζήτηση με βάση άμεσες ή έμμεσες πληροφορίες για ρυθμιστικούς μηχανισμούς, όπως αναφέρθηκε παραπάνω.

Output:

Όταν ολοκληρωθεί ο αλγόριθμος, δίνει μία λίστα από ζεύγη μοτίβων –ένα από καθεμία από τις δύο λίστες που είχε εισάγει ο χρήστης- τα οποία ταυτίζονται , τη θέση στην οποία γίνεται το match των μοτίβων και τις DNA αλυσίδες.

Μελλοντικές εξελίξεις

Όλα τα προηγούμενα και ανανεωμένα ρυθμιστικά δεδομένα σχετικά με το YEASTRACT συνεχίζουν να παρέχονται από ένα σύνολο πόρων διαδικτυακών υπηρεσιών που είναι προσβάσιμοι μέσω ενός API RESTful Application Programming Interface. Αυτό το API παρέχει στους χρήστες τη δυνατότητα να έχουν πρόσβαση στο YEASTRACT ανάλογα με τις συγκεκριμένες ανάγκες τους, αναπτύσσοντας έναν κώδικα από την πλευρά του πελάτη για την αναζήτηση, διερεύνηση και ανάκτηση των επιμελημένων δεδομένων. Παρόλο που ο κανονισμός των υπηρεσιών ιστού είναι σε θέση να ανακτήσει όλα τα ανανεωμένα δεδομένα, δεν παρέχει πληροφόρηση σχετικά με τις περιβαλλοντικές συνθήκες και τον τύπο σύνδεσης, καθώς τα πεδία αποτελεσμάτων API δεν υπέστησαν καμία αλλαγή.

Η ομάδα YEASTRACT δεσμεύεται να συνεχίσει να προσφέρει ανανεωμένη, έγκυρη και πλήρη πληροφόρηση σχετικά με τον τομέα της μεταγραφικής ρύθμισης στο ζυμομύκητα στην διεθνή κοινότητα της ζύμης και τους βιολόγους συστημάτων.

Επιπλέον, οι συνεχείς βελτιώσεις των παρεχόμενων εργαλείων θα διατεθούν, απαντώντας στα αιτήματα και τις ανάγκες των χρηστών του. Ιδιαίτερη εστίαση θα δοθεί στο μέλλον στην επέκταση της βάσης δεδομένων στο S. cerevisiae “παν-γονιδιώματος” (pan-genome) και σε άλλες ζυμομύκητες του βιοιατρικού και βιοτεχνολογικού ενδιαφέροντος, σε μια συγκριτική γονιδιωματική προσέγγιση.^[1]

Ακολουθώντας τη δομή που χρησιμοποιήθηκε στην βάση δεδομένων YEASTRACT έχει παρουσιαστεί το PathoYeastract (Pathogenic Yeast Search for Transcriptional Regulators And Consensus Tracking) που αποτελεί ένα εργαλείο για την ανάλυση και την πρόβλεψη συνδέσμων μεταγραφικής ρύθμισης στα γονιδιακά και γονιδιωματικα επίπεδα στoυς παθογόνους ζυμομύκητες Candida albicans και C. glabrata. Μετά την ανάκτηση δεδομένων από εκατοντάδες δημοσιεύσεις, η βάση δεδομένων περιλαμβάνει σήμερα 28.000 μοναδικές τεκμηριωμένες ρυθμιστικές συσχετίσεις μεταξύ των μεταγραφικών παραγόντων (TF) και των γονιδίων-στόχων και 107 θέσεις δέσμευσης DNA, λαμβάνοντας υπόψιν 134 μεταγραφικούς παράγοντες και από τα δύο είδη.

Σύμφωνα με τη δομή που χρησιμοποιείται στη βάση δεδομένων YEASTRACT, στο PathoYeastract διατίθονται εργαλεία βιοπληροφορικής που επιτρέπουν στο χρήστη να εκμεταλλευτεί τις υπάρχουσες πληροφορίες για την πρόβλεψη των μεταγραφικών παραγόντων που εμπλέκονται στη ρύθμιση μιας γονιδιακής ή γονιδιωματικής μεταγραφικής απόκρισης, καθώς ταξινομούν αυτούς τους μεταγραφικούς παράγοντες ανάλογα με τη σχετική σημασία τους.^[10]

Βιβλιογραφία

Monteiro, P.T., et al., 2005. YEASTRACT: a database of transcription regulatory associations in Saccharomyces cerevisiae, Bioinformatics: Knowledge Discovery in Biology.
Teixeira, M.C., Monteiro, P.T., et al., 2014. The YEASTRACT database: an upgraded information system for the analysis of gene and genomic transcription regulation in Saccharomyces cerevisiae, Nucleic Acids Res.
Monteiro, P.T., et al., 2017. The PathoYeastract database: an information system for the analysis of gene and genomic transcription regulation in pathogenic yeasts. Nucleic Acids Res.

Εξωτερικοί σύνδεσμοι

yeastract

Βιβλιογραφικές Παραπομπές

↑ ^1,0 ^1,1 ^1,2 Cacho Teixeira, Miguel; Pedro Tiago Monteiro, Joana Fernandes Guerreiro (2014). «The YEASTRACT database: an upgraded information system for the analysis of gene and genomic transcription regulation in Saccharomyces cerevisiae». Nucleic Acids Research 42 (D1): 161-166. doi:10.1093/nar/gkt1015.
↑ Abdulrehman, Dário; Pedro T. Monteiro, Miguel C. Teixeira (2011). «YEASTRACT: providing a programmatic access to curated transcriptional regulatory associations in Saccharomyces cerevisiae through a web services interface». Nucleic Acids Research 39 (suppl_1): D136-D140. doi:10.1093/nar/gkq964. >
↑ ^3,0 ^3,1 Monteiro, Pedro T.; Nuno D. Mendes, Miguel C. Teixeira (2008). «YEASTRACT-DISCOVERER: new tools to improve the analysis of transcriptional regulatory associations in Saccharomyces cerevisiae». Nucleic Acids Reserch 36 (suppl_1): D132-D136. doi:10.1093/nar/gkm976.
↑ ^4,0 ^4,1 Teixera, Miguel C.; Pedro Monteiro, Pooja Jain, Sandra Tenreiro et. al. (2006). «The YEASTRACT database: a tool for the analysis of transcription regulatory associations in Saccharomyces cerevisiae». Nucleic Acids Research 34 (suppl_1): 5. doi:10.1093/nar/gkj013.
↑ ^5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 Lee, Tong Ihn; Nicola J. Rinaldi, François Robert et.al. (2002). «Transcriptional Regulatory Networks in Saccharomyces cerevisiae». Science 298: 799-804. doi:10.1126/science.1075090.
↑ Babu, M. Madan; Nicholas M Luscombe, L Aravind, Mark Gerstein, Sarah A Teichmann (2004). «Structure and evolution of transcriptional regulatory networks». Current Opinion in Structural Biology 14 (3): 283-291. doi:10.1016/j.sbi.2004.05.004.
↑ Nudo D.Mendes et al. (2006). «MUSA: a paremeter free algorithm for the identification of biologically significant motifs». Bioinformatics 22 (24): 2996-3002. doi:10.1093/bioinformatics/btl537.
↑ Carvalho et al. (2006). «An efficient algorithm for the identification of structured motifs in DNA promoter sequences». IEEE/ACM Transactions on Computational Biology and Bioinformatics 3 (2): 126-140. doi:10.1109/TCBB.2006.16.
↑ Maria C. Costanzo et al. (2014). «Saccharomyces genome database provides new regulation data». Nucleic Asids Research 42 (7): 17-25. doi:10.1093/nar/gkt1158.
↑ Monteiro, Pedro Tiago; Pedro Pais, Catarina Costa (2017). «The PathoYeastract database: an information system for the analysis of gene and genomic transcription regulation in pathogenic yeasts». Nucleic Acids Research 45 (D1): 597-603. doi:10.1093/nar/gkw817.

[parap-1] 1,0 ^1,1 ^1,2 Cacho Teixeira, Miguel; Pedro Tiago Monteiro, Joana Fernandes Guerreiro (2014). «The YEASTRACT database: an upgraded information system for the analysis of gene and genomic transcription regulation in Saccharomyces cerevisiae». Nucleic Acids Research 42 (D1): 161-166. doi:10.1093/nar/gkt1015.

[2] Abdulrehman, Dário; Pedro T. Monteiro, Miguel C. Teixeira (2011). «YEASTRACT: providing a programmatic access to curated transcriptional regulatory associations in Saccharomyces cerevisiae through a web services interface». Nucleic Acids Research 39 (suppl_1): D136-D140. doi:10.1093/nar/gkq964. >

[DISCOVERER-3] 3,0 ^3,1 Monteiro, Pedro T.; Nuno D. Mendes, Miguel C. Teixeira (2008). «YEASTRACT-DISCOVERER: new tools to improve the analysis of transcriptional regulatory associations in Saccharomyces cerevisiae». Nucleic Acids Reserch 36 (suppl_1): D132-D136. doi:10.1093/nar/gkm976.

[parap_1-4] 4,0 ^4,1 Teixera, Miguel C.; Pedro Monteiro, Pooja Jain, Sandra Tenreiro et. al. (2006). «The YEASTRACT database: a tool for the analysis of transcription regulatory associations in Saccharomyces cerevisiae». Nucleic Acids Research 34 (suppl_1): 5. doi:10.1093/nar/gkj013.

[parap_2-5] 5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 Lee, Tong Ihn; Nicola J. Rinaldi, François Robert et.al. (2002). «Transcriptional Regulatory Networks in Saccharomyces cerevisiae». Science 298: 799-804. doi:10.1126/science.1075090.

[parap_3-6] Babu, M. Madan; Nicholas M Luscombe, L Aravind, Mark Gerstein, Sarah A Teichmann (2004). «Structure and evolution of transcriptional regulatory networks». Current Opinion in Structural Biology 14 (3): 283-291. doi:10.1016/j.sbi.2004.05.004.

[7] Nudo D.Mendes et al. (2006). «MUSA: a paremeter free algorithm for the identification of biologically significant motifs». Bioinformatics 22 (24): 2996-3002. doi:10.1093/bioinformatics/btl537.

[8] Carvalho et al. (2006). «An efficient algorithm for the identification of structured motifs in DNA promoter sequences». IEEE/ACM Transactions on Computational Biology and Bioinformatics 3 (2): 126-140. doi:10.1109/TCBB.2006.16.

[9] Maria C. Costanzo et al. (2014). «Saccharomyces genome database provides new regulation data». Nucleic Asids Research 42 (7): 17-25. doi:10.1093/nar/gkt1158.

[10] Monteiro, Pedro Tiago; Pedro Pais, Catarina Costa (2017). «The PathoYeastract database: an information system for the analysis of gene and genomic transcription regulation in pathogenic yeasts». Nucleic Acids Research 45 (D1): 597-603. doi:10.1093/nar/gkw817.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Περιεχόμενο
Περιγραφή	Transcriptional Regulatory Associations in Saccharomyces cerevisiae
Οργανισμός	Ζυμομύκητας
Επικοινωνία
Συγγραφείς	https://web.archive.org/web/20170515104640/http://www.yeastract.com/credits.php
Ηλεκτρονικό μήνυμα	http://yeastract.com/contactus.php
Πρόσβαση
Ηλεκτρονική διεύθυνση	http://www.yeastract.com