Δίλημμα του φυλακισμένου

Το δίλημμα του φυλακισμένου γνωστό παράδειγμα της θεωρίας των παιγνίων. Μπορεί να χρησιμοποιηθεί ως πρότυπο σε πολλές καταστάσεις του πραγματικού κόσμου που αφορούν συμπεριφορές συνεργασίας. Μπορεί να εφαρμοστεί σε καταστάσεις που δεν ταιριάζουν απόλυτα τα κριτήρια των κλασικών ή επαναληπτικών παιχνιδιών. Για παράδειγμα σε αυτά που θα μπορούσαν και οι δύο οντότητες να κερδίσουν σημαντικά οφέλη από τη συνεργασία ή να υποστούν την αποτυχία αν το πράξουν, αλλά θεωρούν αδύνατο ή δαπανηρό να συντονίσουν τις δραστηριότητες τους για την επίτευξη της συνεργασίας.

Το «δίλημμα του φυλακισμένου» εξετάζει τις στρατηγικές επιλογές λογικά σκεπτόμενων παικτών που εμπλέκονται σε ανταγωνιστικές καταστάσεις.

Δύο άτομα συλλαμβάνονται από την αστυνομία σαν ύποπτοι διάπραξης κάποιων εγκλημάτων. Η αστυνομία δεν έχει όλα τα απαιτούμενα στοιχεία για να τους κατηγορήσει, οπότε τους βάζει σε χωριστά δωμάτια, εμποδίζοντάς τους να έχουν οποιαδήποτε επικοινωνία. Ο εισαγγελέας επισκέπτεται και τους δύο, τον καθένα χωριστά, και κάνει στον καθένα την εξής πρόταση:

Αν καταθέσει εναντίον του άλλου (και ο άλλος δεν μιλήσει) τότε η συνεργασία αμοίβεται με άμεση απελευθέρωση, ενώ ο «άλλος» θα τιμωρηθεί με 12 χρόνια.
Αν δε μιλήσει ούτε αυτός ούτε ο άλλος θα τιμωρηθούν και οι δύο με 1 χρόνο φυλακή για ήσσονος σημασίας αδικήματα για τα οποία η αστυνομία έχει αποδείξεις.
Αν καρφώσουν και οι δύο ο ένας τον άλλον τότε θα τιμωρηθούν με 4 χρόνια ο καθένας.

Πίνακας Φυλακισμένων
A / B	Ομολογία	Σιωπή
Ομολογία	4,4	0,12
Σιωπή	12,0	1,1

Ποια είναι η αναμενόμενη ορθολογικά «βέλτιστη» στάση του καθενός απ’ τους κρατούμενους; ρωτάει η θεωρία παιγνίων.

Θυμίζουμε ότι «ορθολογισμός» για τους ειδικούς αυτού του μοντέλου είναι να κοιτάει ο καθένας το συμφέρον του, δηλαδή είτε το μέγιστο όφελος είτε την μικρότερη ζημιά του, λαμβάνοντας υπόψη του ότι και ο άλλος (ο «αντίπαλος»…) θα κάνει το ίδιο. Πρόκειται για υπόθεση της ανάλυσης που αποδίδεται με τον όρο "κοινή γνώση" (της ορθολογικότητας). Σύμφωνα λοιπόν με την θεωρία, ο κάθε κρατούμενους, ας πούμε ο Α και ο Β, έχει τις πιο κάτω επιλογές:

Με δεδομένο ότι οι κανόνες είναι κοινοί και για τους δύο θεωρούμε ότι και οι δύο κάνουν τις ίδιες λογικές σκέψεις.

Σκέψη του Α:

"Εάν ο Β με καταδώσει τότε τι πρέπει να κάνω; Στην περίπτωση που δεν τον καταδώσω τότε εμπίπτω στον 1ο κανόνα από αυτούς που μας έθεσαν, όντας ο ένοχος και θα φυλακιστώ για 12 χρόνια, ενώ αν τον καταδώσω εμπίπτουμε και οι δύο στον 3ο κανόνα και θα φυλακιστώ για 4. Με συμφέρει λοιπόν να τον καταδώσω."

...

" Εάν ο Β δεν με καταδώσει τότε τι πρέπει να κάνω;Στην περίπτωση που τον καταδώσω τότε εμπίπτω στον 1ο κανόνα και θα απελευθερωθώ όντας ο αθώος που συνεργάστηκε, ενώ αν δεν τον καταδώσω εμπίπτουμε και οι δύο στον δεύτερο κανόνα και θα φυλακιστούμε και οι δυο 1 χρόνο. Πάλι με συμφέρει να τον καταδώσω."

Με αυτές τι λογικές σκέψεις του ο Α ως homo economicus που ενδιαφέρεται πάντα για το μεγαλύτερο για αυτόν όφελος (σε αντίθεση με τον homo reciprocans που κίνητρο του αποτελεί το κοινό όφελος με το περιβάλλον του), αποφασίζει να καταδώσει τον Β διότι τον συμφέρει και στις δύο περιπτώσεις.

Ωστόσο και για τον Β ισχύουν οι ίδιοι κανόνες με συνέπεια να καταδώσει και αυτός τον Α.

Προβλέπουμε λοιπόν ότι από αυτή τη διαδικασία και οι δύο ορθολογικοί άνθρωποι που θέλουν το άμεσο ατομικό τους συμφέρον θα τιμωρηθούν με 4 χρόνια. Αν συνυπολόγιζαν και το όφελος του συγκατηγορούμενού τους ως δικό τους όφελος τότε θα έβγαζαν το συμπέρασμα ότι το μεγαλύτερο όφελος πρέπει να λογίζεται ώς συνολικό και είναι τα 2 χρόνια φυλάκισης (1 ο καθένας), σε σχέση με τα 12 χρόνια (12 ο ένας και 0 ο άλλος) αλλά και τα 8 χρόνια (από 4 ο καθένας). Με αυτό στο μυαλό, εάν και οι δύο ήταν homo reciprocans, τότε η στρατηγική συνεργασίας τους θα ήταν να μην καταδώσει ο ένας τον άλλο και να λάβουν ποινή απο 1 χρόνο ο καθένας. Μέρος της ευθύνης της αστοχίας ορισμένων βραβευμένων κατα τ' άλλα οικονομικών θεωριών, οφείλεται στο οτι ο άνθρωπος προσεγγίζεται ως έλλογο ον (rational individual, ως homo economicus) και οι θεωρίες αυτές μόνο σε αυτή τη βάση αναπτύσσονται. Από την παραπάνω θεώρηση αποδεικνύεται οτι η συνεργασία με τις αμοιβαία επωφελείς στρατηγικές είναι πολλές φορές πιο δόκιμη από την επιδίωξη για άμεσο ατομικό όφελος (1 χρόνος ποινή αντί 4 χρόνια).

Πρέπει να πούμε ότι σε αυτό το παράδειγμα, όπως και σε κάθε κατάσταση (παίγνιο^[1]) της θεωρίας παιγνίων (Game Theory), υποθέτουμε ότι οι εμπλεκόμενοι (οι παίκτες) είναι απόλυτα λογικοί και έχουν ως αποκλειστικό γνώμονα τη μεγιστοποίηση του κέρδους ή την ελαχιστοποίηση του κόστους (όπως σε αυτή την περίπτωση). Θα περίμενε ίσως κάποιος ότι δύο λογικοί άνθρωποι θα επέλεγαν το βέλτιστο δυνατό αποτέλεσμα που θα συνέφερε και τους δύο περισσότερο από αυτό που τελικά κατάφεραν, δηλαδή, να κρατήσουν και οι δύο τη σιωπή τους και να πάνε στη φυλακή με μια ποινή μόνο ενός έτους. Πώς κατέληξαν λοιπόν εδώ τα πράγματα; Η απάντηση βρίσκεται στην εμπιστοσύνη που δείχνει ο ένας στην απόφαση του άλλου. Με άλλα λόγια, με δεδομένη κάθε επιλογή του αντίπαλου παίκτη, το αποτέλεσμα του ανταγωνισμού επικρατεί έναντι του αποτελέσματος της συνεργασίας.

Το παραπάνω παράδειγμα καταδεικνύει ότι το «κοινό συμφέρον» δεν είναι πάντα η επιλογή απόλυτα λογικά σκεπτόμενων ατόμων και πολλές φορές απόλυτα λογικά επιλογές μπορούν να οδηγήσουν σε ζημία για όλους τους εμπλεκόμενους. Η κατάσταση αλλάζει αν το παιχνίδι επαναλαμβάνεται, οπότε κάθε παίκτης έχει τη δυνατότητα να «τιμωρήσει» μέσω της επιλογής του τον άλλο παίκτη για την προηγούμενη παρασπονδία του. Σε αυτή την περίπτωση, όταν οι επαναλήψεις του παιγνίου τείνουν στο άπειρο, η επιλογή της συνεργασίας (να κρατήσουν και οι δύο τη σιωπή τους) τείνει στο να επικρατήσει.

Αν όμως οι δύο ύποπτοι, μπορούσαν να επικοινωνήσουν, θα έβλεπαν ότι η καλύτερη λύση είναι η μη ομολογία. Αλλά όπως αναφέρθηκε και πιο πάνω δεν αποκλείεται η πιθανότητα της προδοσίας. Όμως αν οι δύο ύποπτοι έχουν ξαναέρθει αντιμέτωποι με το συγκεκριμένο πρόβλημα , έχουν συνεννοηθεί και δεν υπάρχει περίπτωση προδοσίας, τότε δε θα μιλήσουν. Αυτή η ισορροπία λέγεται “υπό-παιγνιακή τέλεια ισορροπία Νας”.

Η βέλτιστη στρατηγική για κάποιον παίχτη είναι να κρατήσει το στόμα του κλειστό στον πρώτο γύρο και στην συνέχεια να επαναλαμβάνει αυτό που έκανε ο άλλος παίχτης στον προηγούμενο γύρο. Η στρατηγική αυτή επικράτησε ώς καλύτερη, σε round-robin διαγωνισμό επινοήθηκε απο τον Ανατόλ Ράποπορτ, αποκαλείται "μία σου, μία μου" (TIT FOR TAT) και αποδεικνύεται με γενετικούς αλγόριθμους.

Μεταφέροντας το παράδειγμα στην καθημερινή ζωή μπορούμε να βγάλουμε πολύ χρήσιμα συμπεράσματα για πράγματα που φαίνονται λογικό να γίνουν αλλά τελικά επιλέγεται κάτι διαφορετικό που οδηγεί σε χειρότερα αποτελέσματα.

Παραπομπές

↑ «A Course in Game Theory». MIT Press. Ανακτήθηκε στις 4 Οκτωβρίου 2015.

[1] «A Course in Game Theory». MIT Press. Ανακτήθηκε στις 4 Οκτωβρίου 2015.

[1]