Συστήματα απόφασης βασισμένα στο περιεχόμενο

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια

Τα συστήματα απόφασης προτείνουν στους χρήστες ένα μικρό σύνολο αντικειμένων που πιθανόν να τους αρέσουν και η επιλογή αυτών γίνεται από ένα ευρύτερο σύνολο.

Τα συστήματα που βασίζονται στο περιεχόμενο προσπαθούν να προτείνουν αντικείμενα με βάση το σύνολο των αντικειμένων που έχει αξιολογήσει ο χρήστης στο παρελθόν.

Πώς χρησιμοποιείται[Επεξεργασία | επεξεργασία κώδικα]

Τα συστήματα που βασίζονται στο περιεχόμενο απαιτούν κάποιες τεχνικές για την αναπαράσταση των αντικειμένων και την επεξεργασία του προφίλ του χρήστη και κάποιες τεχνικές για τη σύγκριση του προφίλ του με τα αντικείμενα. Η διαδικασία των συστημάτων αυτών αποτελείται από τρία βήματα:

  1. Ανάλυση αντικειμένου. Όταν τα αντικείμενα δεν έχει κάποια συγκεκριμένη δομή (π.χ. κείμενο, έγγραφα, ιστοσελίδες), απαιτείται κάποιο είδος προεπεξεργασίας ώστε να εξαχθούν τα επιμέρους δομικά χαρακτηριστικά τους, όπως λέξεις κλειδιά, έννοιες. Τα αντικείμενα αναλύονται με τεχνικές εξαγωγής χαρακτηριστικών και τα αποτελέσματα χρησιμοποιούνται από τα επόμενα δύο βήματα, την εκμάθηση του προφίλ του χρήστη (profile learner) και το φιλτράρισμα συστατικών (filtering component).
  2. Εκμάθηση προφίλ του χρήστη (Profile Learner). Σε αυτό το στάδιο, το σύστημα συλλέγει αντικείμενα που αρέσουν ή δεν αρέσουν στο χρήστη και προσπαθεί να τα γενικεύσει με σκοπό να δημιουργήσει ένα προφίλ. Συνήθως, η γενίκευση γίνεται με τεχνικές εκμάθησης μηχανής οι οποίες δέχονται κάποια ανταπόκριση από το χρήστη. Η αλληλεπίδραση με το σύστημα μπορεί να είναι είτε άμεση, που είναι και πιο απλή, είτε έμμεση.
    • Άμεση αξιολόγηση Υπάρχουν τρεις κατηγορίες άμεσης αξιολόγησης:
      1. μου αρέσει/δεν μου αρέσει. Τα αντικείμενα χωρίζονται σε δύο κατηγορίες.
      2. αξιολόγηση με βάση μία κλίμακα. Είναι πιο αντικειμενικό και εξάγονται περισσότερες πληροφορίες για το προφίλ του χρήστη.
      3. σχόλια. Είναι πιο κουραστικό για το χρήστη, αλλά μετά την ανάλυση τους μπορούν να βγουν πολλά χρήσιμα συμπεράσματα για το προφίλ του.
    • Έμμεση αξιολόγηση μπορεί να είναι από: 1. το χρόνο που ξοδεύει ο χρήστης σε μια σελίδα 2. τα σημεία που εστιάζει στην οθόνη 3. το ιστορικό των σελίδων που επισκέφτηκε
    • Η επιλογή της κατηγορίας αξιολόγησης έγκειται στη κρίση του σχεδιαστή και η απόφαση πρέπει να ληφθεί ανάλογα με τις απαιτήσεις του συστήματος. Επιπλέον, ένας χρήστης είναι πιθανό να έχει πολλά προφίλ ανάλογα με τη θεματική ενότητα που ασχολείται τη συγκεκριμένη στιγμή. Τέλος ας αναφέρουμε μερικές μεθόδους εκμάθησης συστημάτων: 1. Πιθανοτικές μέθοδοι και η μέθοδος NaiveBayes. 2. Σχετική Αλληλεπίδραση και ο αλγόριθμος του Rocchio 3. Δέντρα απόφασης 4. Κανόνες ομαδοποίησης 5. Μέθοδος κοντινότερου γείτονα
  3. Φιλτράρισμα Συστατικών. Στο τρίτο και τελευταίο βήμα το σύστημα συγκρίνει τα επιμέρους συστατικά ενός αντικειμένου ή ενός συνόλου από αντικείμενα με την αναπαράσταση του προφίλ του χρήστη (το ιστορικό αξιολογήσεων του). Η σύγκριση αυτή μπορεί να γίνει με διάφορες μεθόδους. Τέλος, όσες πιο πολλές πληροφορίες έχει συγκεντρώσει το σύστημα για το χρήστη, τόσο πιο στοχευμένες είναι και οι προτάσεις.[1]

Τρόπος αναπαράστασης δεδομένων[Επεξεργασία | επεξεργασία κώδικα]

Ο τρόπος αναπαράστασης των δεδομένων είναι ένα σημαντικό κομμάτι στα συστήματα απόφασης. Ας εξετάσουμε τι απαιτήσεις έχουν τα συστήματα που είναι βασισμένα στο περιεχόμενο. Αρχικά, απαιτείται η αναπαράσταση των αντικειμένων από ένα διάνυσμα Χ={x1, x2,…,xn} όπου n είναι ο αριθμός των χαρακτηριστικών που έχει το αντικείμενο.

Τα χαρακτηριστικά δύνανται να έχουν τιμές:

  • δυαδικές
  • αριθμητικές
  • αλφαριθμητικές

Ακόμα, μπορούμε να προσθέσουμε και ένα βάρος σε κάθε χαρακτηριστικό.

Μερικοί τρόποι για τον ορισμό των βαρών είναι οι παρακάτω:

  1. όλα τα χαρακτηριστικά να έχουν την ίδια βαρύτητα (1/#χαρακτηριστικών)
  2. ορισμός βαρύτητας κάθε χαρακτηριστικού από τον διαχειριστή του συστήματος
  3. προσαρμογή του βάρους του κάθε χαρακτηριστικού ανάλογα με τις αξιολογήσεις του χρήστη

Επιπλέον, χρειαζόμαστε το σύνολο των χρηστών μαζί με το προφίλ τους. Ως προφίλ ορίζουμε το σύνολο των αξιολογήσεων που έχει ένας χρήστης μέχρι αυτή τη χρονική στιγμή.

Παρουσίαση βασικού αλγορίθμου[Επεξεργασία | επεξεργασία κώδικα]

Παρακάτω παρουσιάζουμε ένα βασικό αλγόριθμο για τα συστήματα βασισμένα στο περιεχόμενο.

  1. Ανάλυσε το αντικείμενο που είναι προς αξιολόγηση σε ένα διάνυσμα με τα χαρακτηριστικά του
  2. Πάρε όλα τα αντικείμενα που έχει αξιολογήσει ο χρήστης
  3. Βρες την ομοιότητα του κάθε αντικειμένου με το προς αξιολόγηση αντικείμενο
  4. Το προς αξιολόγηση αντικείμενο αξιολογείται με το σταθμισμένο μέσο όρο των αξιολογήσεων του χρήστη και βάρος την ομοιότητα που έχουν με το αντικείμενο

Πλεονεκτήματα/Μειονεκτήματα[Επεξεργασία | επεξεργασία κώδικα]

Τα συστήματα περιεχομένου έχουν τόσο πλεονεκτήματα όσο και μειονεκτήματα.

Ας εξετάσουμε αρχικά κάποια από τα πλεονεκτήματα τους.

  1. Ανεξαρτησία χρηστών. Τα προτεινόμενα αντικείμενα ενός χρήστη δεν επηρεάζονται από αυτά των υπολοίπων. Με αυτό τον τρόπο αυξάνεται η ασφάλεια του συστήματος.
  2. Αιτιολόγηση προτάσεων. Το σύστημα μπορεί να δικαιολογήσει στο χρήστη γιατί του προτείνει τα συγκεκριμένα αντικείμενα και με αυτό το τρόπο να αυξήσει την εμπιστοσύνη του στο σύστημα.
  3. Ανεξαρτησία προτάσεων σε σχέση με το χρόνο εισαγωγής τους στο σύστημα. Τα καινούρια αντικείμενα μπορούν να προταθούν με τις ίδιες πιθανότητες, ανάλογα με τις ιδιότητες τους, σε σχέση με τα πιο παλιά.

Τέλος ας εξετάσουμε μερικά από τα πιο σημαντικά μειονεκτήματα τους

  1. Προτείνονται στο χρήστη συνεχώς παρόμοια αντικείμενα με αυτά που έχει αξιολογήσει με αποτέλεσμα να χάνεται η ιδιότητα της έκπληξης. Κάποιοι τρόποι αντιμετώπισης αυτού του προβλήματος είναι οι παρακάτω: a) είναι η χαλάρωση των ορίων ομοιότητας μεταξύ των αντικειμένων b) επιλογή αντικειμένων στη τύχη c) επιλογή αντικειμένων που δεν μοιάζουν καθόλου με αυτά που έχει αξιολογήσει ο χρήστης. Με αυτό τον τρόπο πετυχαίνουμε να έχουμε ένα καλύτερο και πιο πλήρης προφίλ για το χρήστη
  2. Μεγάλη εκπαίδευση του συστήματος. Το σύστημα πρέπει να εκπαιδευτεί από μια ευρεία γκάμα αντικειμένων προκειμένου να φτιάξει ένα σωστό προφίλ. Μέχρι τότε δεν είναι σε θέση να του κάνει αξιόπιστες προτάσεις. Το μειονέκτημα αυτό χαρακτηριστικά αναφέρεται ως κρύα αρχή.
  3. Πολλές πληροφορίες για κάθε αντικείμενο. Το σύστημα απαιτεί να γνωρίζει πολλά χαρακτηριστικά για κάθε αντικείμενο προκειμένου να γίνει η σύγκριση και να κάνει σωστές προβλέψεις. Όμως αυτό δεν είναι πάντα δυνατόν σε όλες τις κατηγορίες αντικειμένων (π.χ. ανέκδοτα ή ποιήματα). Επιπλέον, θα πρέπει να οριστεί και η κατάλληλη βαρύτητα για το κάθε χαρακτηριστικό του αντικειμένου, μια διαδικασία που δεν είναι πάντα εύκολη.

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Pasquale Lops , Marco de Gemmis, Giovanni Semeraro (2011). Recommender Systems Handbook. Springer US. σελίδες 73–105. ISBN 978-0-387-85819-7. CS1 maint: Πολλαπλές ονομασίες: authors list (link)