AYTONOMOI ΠΡΑΚΤΟΡΕΣ

Σχετικά έγγραφα
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Αιτιολόγηση με αβεβαιότητα

HMY 795: Αναγνώριση Προτύπων

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ανάκτηση Πληροφορίας

ΔΙΗΜΕΡΕΥΣΕΙΣ ΔΙΑΝΥΚΤΕΡΕΥΣΕΙΣ ΦΑΡΜΑΚΕΙΩΝ ΓΑΖΙΟΥ, ΙΟΥΛΙΟΣ 2015 ΑΝΟΙΚΤΑ 08:30 22:00

Μαθηματικά Πληροφορικής Πιθανοτικά Εργαλεία. Υποπροσθετικότητα. Η Πιθανοτική Μέθοδος (The Probabilistic Method)

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Γιατί πιθανότητες; Γιατί πιθανότητες; Θεωρία πιθανοτήτων. Θεωρία Πιθανοτήτων. ΗΥ118, Διακριτά Μαθηματικά Άνοιξη 2017.

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Εισαγωγή Η Θεωρία Πιθανοτήτων παίζει μεγάλο ρόλο στη μοντελοποίηση και μελέτη συστημάτων των οποίων δεν μπορούμε να προβλέψουμε ή να παρατηρήσουμε την

Λήψη αποφάσεων κατά Bayes

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Διάλεξη 18: Πρόβλημα Βυζαντινών Στρατηγών. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Λύσεις 2ης Ομάδας Ασκήσεων

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

i Σύνολα w = = = i v v i=

Δείκτης Κατασκευαστικής Βιομηχανίας KNAUF SAKRET

Α1. Στον προγραµµατισµό χρησιµοποιούνται δοµές δεδοµένων. 1. Τι είναι δυναµική δοµή δεδοµένων; Μονάδες 3 2. Τι είναι στατική δοµή δεδοµένων;

Αναλυτική Στατιστική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

ΗΥ-217-ΠΙΘΑΝΟΤΗΤΕΣ-ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2016 ΔΙΔΑΣΚΩΝ: ΠΑΝΑΓΙΩΤΗΣ ΤΣΑΚΑΛΙΔΗΣ

ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ Πειραιάς, 11 Οκτωβρίου 2012 ΔΕΛΤΙΟ ΤΥΠΟΥ

Η πιθανότητα επομένως που ζητείται να υπολογίσουμε, είναι η P(A 1 M 2 ). Η πιθανότητα αυτή μπορεί να γραφεί ως εξής:

ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Διαχείριση Πολιτισμικών Δεδομένων

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ TECHNOLOGICAL EDUCATIONAL INSTITUTE OF WESTERN GREECE

ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Εισαγωγή στη Στατιστική Μάθημα του Β Εξαμήνου

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΔΙΑΚΡΙΤΑ ΜΑΘΗΜΑΤΙΚΑ» - 6/2/2014 Διάρκεια Εξέτασης: 2 ώρες και 50 λεπτά Ομάδα Α

που αντιστοιχεί στον τυχαίο αριθμό 0.6 δίνει ισχύ P Y Να βρεθεί η μεταβλητή k 2.

Με πιο σταθερά πλέον τα σημάδια ανάκαμψης στον Κατασκευαστικό Τομέα

Θεωρία Πιθανοτήτων & Στατιστική

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Μεθοδολογία της έρευνας και Ιατρική στατιστική

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

Διαγράμματα Κλάσεων στη Σχεδίαση

Η διακριτή συνάρτηση μάζας πιθανότητας δίνεται από την

Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

Υπολογιστικά & Διακριτά Μαθηματικά

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ. M. Kούτρας

HY118-Διακριτά Μαθηματικά

Στατιστική. Ενότητα 3 η : Χαρακτηριστικά Τυχαίων Μεταβλητών Θεωρητικές Κατανομές Πιθανότητας για Διακριτή Τυχαία Μεταβλητή

P (X = x) = (0.001) x (0.999) 1000 x

ΔΕΛΤΙΟ ΤΥΠΟΥ. ΕΡΕΥΝΑ ΕΡΓΑΤΙΚΟΥ ΔΥΝΑΜΙΚΟΥ: Αύγουστος 2016 ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ. Πειραιάς, 10 Νοεμβρίου 2016

Παράδειγμα «Ημίτονο και ζωγραφική!»: Έχει δει στα μαθηματικά τη γραφική παράσταση της συνάρτησης του ημιτόνου; Σας θυμίζει κάτι η παρακάτω εικόνα;

Εκφώνηση άσκησης. Η Κρεμάλα σαν παιχνίδι. Ανάλυση. Μέρος Α Αναφoρά, ανάλυση τακτικής. Υλοποίηση του παιχνιδιού «Κρεμάλα»

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

"Ανακαλύπτοντας την ένατη τέχνη...τα κόμικς!"

ΜΕ ΕΠΕΑΕΚ: ΑΝΑΜΟΡΦΩΣΗ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΤΟΥ ΤΕΦΑΑ ΠΘ ΑΥΤΕΠΙΣΤΑΣΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΦΥΣΙΚΗΣ ΑΓΩΓΗΣ & ΑΘΛΗΤΙΣΜΟΥ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Τρίτη Γραπτή Εργασία στη Στατιστική

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

Τυχαία μεταβλητή είναι μία συνάρτηση ή ένας κανόνας που αντιστοιχίζει ένα αριθμό σε κάθε αποτέλεσμα ενός πειράματος.

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ Πειραιάς, 12 Απριλίου 2012 ΕΛΤΙΟ ΤΥΠΟΥ

Τι είδαμε την προηγούμενη φορά

Μερικές φορές δεν μπορούμε να αποφανθούμε για την τιμή του άπειρου αθροίσματος.

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΜΗΜΑ: Γ2-Γ3

ΦΥΣ 145 Μαθηµατικές Μέθοδοι στη Φυσική. 5 Μαίου 2012

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Θέμα 1 ο (ΜΑΪΟΣ 2004, ΜΑΪΟΣ 2008) Να δείξετε ότι η παράγωγος της σταθερής συνάρτησης f (x) = c είναι (c) = 0. Απόδειξη

Εξαμηνιαία Εργασία Β. Κανονική Κατανομή - Επαγωγική Στατιστική

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

Θέματα ΑΕΠΠ Πανελλήνιες Εξετάσεις 2007

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΔΕΛΤΙΟ ΤΥΠΟΥ. ΕΡΕΥΝΑ ΕΡΓΑΤΙΚΟΥ ΔΥΝΑΜΙΚΟΥ: Σεπτέμβριος 2017 ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ. Πειραιάς, 7 Δεκεμβρίου 2017

ΘΕΩΡΙΑ ΠΙΘΑΝΟΤΗΤΩΝ Ι Φεβρουάριος 2018 Σειρά Α Θέματα 3 ως 7 και αναλυτικές (ή σύντομες) απαντήσεις

ΔΕΛΤΙΟ ΤΥΠΟΥ. ΕΡΕΥΝΑ ΕΡΓΑΤΙΚΟΥ ΔΥΝΑΜΙΚΟΥ: Σεπτέμβριος 2016 ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ. Πειραιάς, 8 Δεκεμβρίου 2016

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

ΕΛΤΙΟ ΤΥΠΟΥ. Εξέλιξη του ποσοστού ανεργίας, κατά µήνα: Οκτώβριος 2010 Οκτώβριος 2012

ΔΕΛΤΙΟ ΤΥΠΟΥ. ΕΡΕΥΝΑ ΕΡΓΑΤΙΚΟΥ ΔΥΝΑΜΙΚΟΥ: Ιούλιος 2018 ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ. Πειραιάς, 11 Οκτωβρίου 2018

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2019 Β ΦΑΣΗ Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Transcript:

AYTONOMOI ΠΡΑΚΤΟΡΕΣ 2012-2013 ΠΑΠΑΚΩΣΤΑΣ ΜΙΧΑΛΗΣ ΑΜ: 2007030001 ΑΚΡΙΒΗΣ ΣΥΜΠΕΡΑΣΜΟΣ ΔΙΚΤΥΟΥ BAYES ΣΕ ΑΡΘΑ ΕΦΗΜΕΡΙΔΑΣ ΠΕΡΙΛΗΨΗ Στη συγκεκριμένη εργασία προσπαθήσαμε να στήσουμε ένα δίκτυο Bayes διακριτών τιμών με σκοπό την εξαγωγή συμπερασμάτων και την απάντηση σύνθετων ερωτημάτων, με την μέθοδο της απαρίθμησης, που σχετίζονται με έναν μεγάλο όγκο άρθρων της εφημερίδας Ελευθεροτυπίας για την περίοδο 1-5-2000 έως 31-12-2000 Πιο αναλυτικά στόχος μας είναι(μοντελοποιώντας έναν μικρόκοσμο μιας και ο αριθμός των δειγμάτων μας είναι ανεπαρκής) να δούμε τι απασχολούσε την επικαιρότητα το συγκεκριμένο χρονικό διάστημα και με τι ασχολούταν η αρθρογραφία της συγκεκριμένης εφημερίδας. Ταυτόχρονα εξάγουμε πληροφορίες που σχετίζονται με τα ίδια τα άρθρα και το θεματικό τους περιεχόμενο και τα κατηγοριοποιούμε ανάλογα με το μέγεθός τους. Τέλος μας παρέχεται η δυνατότητα υπολογισμού της πιθανότητας εμφάνισης 30 συγκεκριμένων χαρακτηριστικών λέξεων ανάλογα με τις τιμές που παίρνουν οι υπόλοιπες μεταβλητές του δικτύου μας(θα ασχοληθούμε αναλυτικότερα με τη δομή του δικτύου στη συνέχεια). ΕΙΣΑΓΩΓΙΚΑ Τι είναι ένα δίκτυο Bayes Ένα δίκτυο Bayes ή κατευθυνόμενο ακυκλικό γραφικό μοντέλο είναι ένα πιθανοτικό γραφικό μοντέλο (ένα είδος στατιστικού μοντέλου), που αντιπροσωπεύει ένα σύνολο τυχαίων μεταβλητών και τις εξαρτήσεις τους μέσω ενός κατευθυνόμενου ακυκλικού γράφου. Για παράδειγμα, ένα Bayesian δίκτυο θα μπορούσε να αντιπροσωπεύει 1

πιθανοτικές συσχετίσεις μεταξύ ασθενειών και συμπτωμάτων. Δεδομένων των συμπτωμάτων, το δίκτυο μπορεί να χρησιμοποιηθεί για να υπολογίσει τις πιθανότητες της παρουσίας διαφόρων ασθενειών. Πιο συγκεκριμένα, δοθέντος μιας δομής δικτύου S η συνδυασμένη κατανομή πιθανότητας για το X δίνεται από τον εξής τύπο: n P(X 1, X 2,, X n ) = P(X i parents(x i )) i=1 Ακριβής Συμπερασμός σε δίκτυα Bayes με τη μέθοδο της απαρίθμησης Ο ακριβής συμπερασμός σε ένα δίκτυο Bayes έγκειται στον υπολογισμό της εκ των υστέρων κατανομής ενός ερωτήματος, έχοντας ως δεδομένο κάποιο συμβάν. Πιο συγκεκριμένα, έστω: X οι μεταβλητή ερωτήματος (query variables) Y οι μεταβλητές μαρτυρίας-συμβάν (evidence variables) Z οι κρυφές μεταβλητές (hidden variables) Άρα η πιθανότητα του ερωτήματος X δοθέντος του συμβάντος e είναι: P(X e) = ap(x e) = a P(X e, y) y όπου το α είναι ένας παράγοντας κανονικοποίησης της υπολογιζόμενης πιθανότητας μεταξύ [0-1], και στην πραγματικότητα είναι η πιθανότητα του συμβάντος, P(e) = Σx,y P(X, e, y) Ο ακριβής συμπερασμός με τη μέθοδο της απαρίθμησης υλοποιείται με την άθροιση των πιθανοτήτων όλων των ατομικών συμβάντων για ένα ερώτημα δοθέντος ενός συμβάντος. Όπου, σαν ατομικά συμβάντα για ένα ερώτημα δοθέντος μιας μαρτυρίας, ορίζονται όλοι οι πιθανοί συνδυασμοί των κρυφών μεταβλητών. Η μέθοδος της απαρίθμησης έχει σαν βάση γνώσης της το δίκτυο Bayes (το οποίο μας δίνει τις υπό συνθήκη ανεξαρτησίες των μεταβλητών) και τους πίνακες CPT (τις κατανομές των πιθανοτήτων των μεταβλητών). 2

Η μαθηματική διατύπωση της μεθόδου της απαρίθμησης είναι η εξής: P(X e) = αp(x, e) = a P(X, e, y) y Το δίκτυό Bayes που υλοποιήθηκε για τους σκοπούς της συγκεκριμένης εργασίας Σε αυτήν την εργασία καταφέραμε να πετύχουμε τους στόχους που αναφέραμε στη περίληψη σχεδιάζοντας ένα δίκτυο με την εξής δομή: MONTH Κάθε τιμή αυτής της μεταβλητής αντιπροσωπεύει ένα μήνα λειτουργείας της εφημερίδας TOPIC Κάθε τιμή αυτής της μεταβλητής αντιπροσωπεύει μία θεματική. Κάθε μήνας λειτουργίας της εφημερίδας περιέχει τουλάχιστον 20 άρθρα από κάθε θεματική. RANGE Κάθε τιμή αυτής της μεταβλητής αντιπροσωπεύει ένα εύρος λέξεων. Κάθε θεματική έχει κείμενα που ποικίλουν σε πλήθος λέξεων (μέγεθος κειμένου) και τα ομαδοποιούμε σε 6 κατηγορίες. DOMAIN OF WORDS Κάθε τιμή αυτής της μεταβλητής αντιπροσωπεύει μία λέξη από τις 30 που έχουμε προεπιλέξει συνολικά και που κρίναμε ως πιο ουσιώδεις και χαρακτηριστικές για τους 3

τύπους θεματικών με τους οποίους ασχολούμαστε. Κάθε λέξη εμφανίζεται με διαφορετική πιθανότητα σε κάθε θεματική. ΥΛΟΠΟΙΗΣΗ Dataset Όπως ήδη αναφέραμε τα δείγματά μας είναι άρθρα της εφημερίδας Ελευθεροτυπίας από το χρονικό διάστημα 1/5/2000-31/12/2000. Το dataset διαθέτει 214 φακέλους που αντιστοιχούν σε ημερομηνίες λειτουργίας της εφημερίδας. Κάθε τέτοιος φάκελος περιέχει τουλάχιστον ένα άρθρο από κάθε θεματική η οποία υποδηλώνεται από τον τίτλο του εκάστοτε άρθρου. Ενδεικτικά η δομή του dataset είναι η εξής: 4

Μεταβλητές Όπως αναφέραμε ήδη το δίκτυο που σχεδιάσαμε διαθέτει 4 διακριτές τυχαίες μεταβλητές. Στην ενότητα αυτή παρουσιάζονται οι δυνατές τιμές των μεταβλητών μας καθώς και ο τρόπος υπολογισμού των κατανομών τους. MONTH Πεδίο τιμών: [ 05, 06, 07, 08, 09, 10, 11, 12 ], όπου κάθε τιμή αυτής της μεταβλητής αντιπροσωπεύει ένα μήνα λειτουργείας της εφημερίδας Συγκεκριμένα: 05 Μάιος 06 Ιούνιος 07 Ιούλιος 08 Αύγουστος 09 Σεπτέμβριος 10 Οκτώβριος 11 Νοέμβριος 12 Δεκέμβριος Οι μήνες δεν είναι ισοπίθανοι και η πιθανότητα τους προκύπτει από το πλήθος των ήμερών που ανήκουν σε ένα συγκεκριμένο μήνα προς όλες της ημερομηνίες που μας παρείχε το dataset (214 ημερομηνίες) TOPIC Πεδίο τιμών: [ politics, art, economy, sport, world, Greece ], όπου κάθε τιμή αυτής της μεταβλητής αντιπροσωπεύει μία θεματική. Η πιθανότητα κάθε θεματικής δίνεται ανά μήνα λειτουργίας της εφημερίδας και πρακτικά συμβολίζει τη συνεισφορά της συγκεκριμένης θεματικής στη συνολική αρθρογραφία της 5

εφημερίδας για ένα μήνα. Δηλαδή αν το μήνα Ιούνιο η θεματική POLITICS έχει μεγαλύτερη πιθανότητα από τη θεματική SPORT συνεπάγεται πως το συγκεκριμένο μήνα γράφτηκαν περισσότερα άρθρα πολιτικού περιεχομένου από ότι αθλητικού. Η πιθανότητα κάθε θεματικής ανά μήνα υπολογίζεται ως, το πλήθος των άρθρων που την αφορούν και που συντάχθηκαν ένα συγκεκριμένο μήνα προς το σύνολο των άρθρων που γράφτηκαν τον μήνα. RANGE Πεδίο τιμών: [ c 1, c 2, c 3, c 4, c 5, c 6 ],όπου κάθε τιμή αυτής της μεταβλητής αντιπροσωπεύει ένα εύρος πλήθους λέξεων και χαρακτηρίζει το μέγεθος ενός άρθρου ανάλογα με τη θεματική στην οποία ανήκει. Συγκεκριμένα: c 1 c 2 c 3 c 4 c 5 c 6 0 200 λέξεις 201 400 λέξεις 401 600 λέξεις 601 800 λέξεις 801 1000 λέξεις 1000 < λέξεις Η πιθανότητα κάθε κατηγορίας υπολογίζεται ως το πλίθος των άρθρων που ανήκουν σε μία συγκεκριμένη θεματική και ικανοποιούν τα κριτήρια της κατηγορίας προς το σύνολο των άρθρων που ανήκουν στη συγκεκριμένη θεματική DOMAIN OF WORDS Πεδίο τιμών: οικονομία δικαιοσύνη Οι λέξεις αυτές επιλέχθηκαν από εμάς ως μια βάση λέξεων που είναι χαρακτηριστικές για τις συγκεκριμένες θεματικές. 6

χρήματα επιτυχία άνοδος πρόοδος ανάπτυξη ύφεση παρακμή χρέος παγκοσμιοποίηση αποτυχία πτώση έκθεση καλλιτέχνης τέρμα αρχή ζωγραφιά θέατρο ταινία σινεμά δάνειο αρένα μπάλα υπουργός Ελλάδα κόσμος γήπεδο εστία Κάθε λέξη, ανάλογα με τη θεματική, μπορεί να μας δώσει ενδιαφέρουσες πληροφορίες για την κατάσταση που επικρατούσε τη συγκεκριμένη χρονική περίοδο. Για παράδειγμα αν η λέξη ΥΦΕΣΗ δεδομένης της θεματικής ECONOMY και του μήνα 12 (Δεκέμβριος) παίρνει υψηλή πιθανότητα θα μπορούσαμε (αναφερόμενοι πάντα στο δικό μας μικρόκοσμο) να υποθέσουμε πως η οικονομική κατάσταση της χώρας για το συγκεκριμένο μήνα βρισκόταν σε κάμψη. Ακόμα μέσω των συγκεκριμένων λέξεων έχουμε μία δυνατότητα ελέγχου του ίδιου του συστήματός μας. Για παράδειγμα αν η λέξη ΖΩΓΡΑΦΙΑ είχε μεγαλύτερη πιθανότητα στη θεματική SPORT από ότι έχει στη θεματική ART κατά πάσα πιθανότητα το σύστημα μας θα ήταν εσφαλμένο Ιδιαίτερο ενδιαφέρον παρουσιάζει η παρατήρηση λέξεων που έχουν μεταφορικό χαρακτήρα όπως η πιθανότητα της λέξης ΑΡΕΝΑ για τις θεματικές SPORT και POLITICS Το συγκεκριμένο κομμάτι έχει ιδιαίτερο ενδιαφέρον μιας και το domain αυτό είναι ενδεικτικό και επιλέχθηκε για της ανάγκες της συγκεκριμένης εργασίας. Σε μία ευρύτερη και πιο ολοκληρωμένη εφαρμογή αντί για σκέτες λέξεις θα μπορούσαμε να ελέγχουμε, με στατικό ή και δυναμικό τρόπο, την πιθανότητα εμφάνισης μίας ολόκληρης ακολουθίας λέξεων. Η πιθανότητα κάθε λέξης ανά θεματική ενότητα δίνεται από το πλίθος εμφάνισης της συγκεκριμένης λέξης δεδομένης μίας θεματικής, προς το σύνολο εμφανίσεων αυτής της λέξεις σε όλα τα άρθρα του dataset κέρδος 7

ΠΡΟΣΟΧΗ: Ο υπολογισμός των κατανομών των μεταβλητών RANGE και WORD DOMAIN εξαρτάται αποκλειστικά από τη θεματική ενότητα την οποία εξετάζουμε κάθε φορά και είναι τελείως ανεξάρτητος από τους μήνες λειτουργίας της εφημερίδας. Αυτό προκύπτει αποκλειστικά από τη δομή του δικτύου Bayes και τον τρόπο με τον οποίο εμείς επιλέξαμε να το σχεδιάσουμε. Κώδικας Για την υλοποίηση της συγκεκριμένης εργασίας δουλέψαμε σε PERL. Η PERL είναι μια σύγχρονη γλώσσα προγραμματισμού και ενδείκνυται για την επεξεργασία μεγάλου όγκου πληροφορίας σε μορφή κειμένου καθώς διαθέτει πλίθος κατάλληλων συναρτήσεων και δομών. Για κάθε μεταβλητή του δικτύου μας υλοποιήσαμε ένα Perl-script το οποίο υπολογίζει και τυπώνει τo CPT της μεταβλητής σε μορφή κατάλληλη προς ανάγνωση από την αρχιτεκτονική του συστήματός. Ο υπολογισμός των CPTs γίνεται με βάση τη δομή του δικτύου Bayes και ανάλογα με τον τύπο της εκάστοτε μεταβλητής, με τον τρόπο που περιγράψαμε ήδη στην προηγούμενη ενότητα (βλέπε τελευταία παράγραφο κάθε μεταβλητής ). Για τον τρόπο εκτέλεσης των αρχείων που παράγουν τα CPT κοιτάξτε το αρχείο README που παρέχεται μαζί με την εργασία. Τέλος υλοποιήσαμε πάλι σε PERL, κώδικα που κάνει ακριβή συμπερασμό με τη μέθοδο της απαρίθμησης στα ερωτήματα που θέτει ο χρήστης (όσο σύνθετα και αν είναι) με βάση το δίκτυο που περιγράψαμε. Η υλοποίηση της εφαρμογής βοηθά το χρήστη να εξοικειωθεί με τον τρόπο χρήσης του προγράμματος παρέχοντας του τη δυνατότητα να δει ανά πάσα στιγμή τη δομή του δικτύου καθώς και όλες τις δυνατές τιμές των μεταβλητών. Επίσης μπορεί να δει τα CPTs ελέγχοντας έτσι την εγκυρότητα του συστήματος, ενώ σε κάθε εσφαλμένη είσοδο από το πληκτρολόγιο το πρόγραμμα τον ενημερώνει για το σφάλμα με κατάλληλο, ανά περίπτωση, μήνυμα. Να αναφέρουμε πως λόγω του ότι τα αρχεία του dataset αρχικά ήταν κωδικοποιημένα σε Greek (ISO-8859-7) χρειάστηκε η συγγραφή κώδικα για την αυτόματη μετατροπή όλων των αρχείων σε UTF-8 έτσι ώστε να είναι προσπελάσιμα από την PERL. 8

SCREENSHOTS ΚΑΙ ΠΕΡΙΠΤΩΣΕΙΣ ΧΡΗΣΗΣ Menu εφαρμογής Εμφάνιση δομής δικτύου Bayes 9

Εμφάνιση τιμών μεταβλητής Λανθασμένη είσοδος Λανθασμένη τιμή μεταβλητής 10

Εμφάνιση CPT 11

Έγκυρες είσοδοι Όπως μπορούμε να δούμε, η τιμή που υπολογίζεται στη τελευταία περίπτωση χρήσης επαληθεύεται από το CPT που παρουσιάσαμε στη λειτουργικότητα «Εμφάνιση CPT» κάτι που επιβεβαιώνει την ορθή λειτουργία του αλγορίθμου που υλοποιήσαμε. 12