Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας"

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας Semi-supervised classifier training for content-based image retrieval from samples with label uncertainty Βασίλειος Παπαπαναγιώτου ΑΕΜ: Επιβλέπων καθηγητής: Αναστάσιος Ντελόπουλος Οκτώβρης 203

2

3 Περίληψη Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας Στην παρούσα διπλωματική εργασία ασχολούμαστε με την ημι-εποπτευόμενη εκπαίδευση ταξινομητών τύπου SVM (Support vector machines) για την ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο. Προσπαθώντας να εκμεταλλευτούμε εικόνες οι οποίες βρίσκονται σε μεγάλες συλλογές διαθέσιμες στο διαδίκτυο, δημιουργήσαμε έναν αυτοματοποιημένο τρόπο εξερεύνησης τέτοιων συλλογών (συγκεκριμένα της συλλογής του Flickr) και συγκέντρωσης πιθανών εικόνων που μπορεί να συμμετέχουν σε μία διαδικασία εκπαίδευσης. Ωστόσο, τέτοιες διαδικτυακές συλλογές χαρακτηρίζονται γενικά από σημαντικό βαθμό θορύβου. Για τον λόγο αυτό δημιουργήσαμε έναν μηχανισμό αξιολόγησης, ο οποίος χρησιμοποιεί την λεκτική πληροφορία που έχουν καταθέσει χρήστες τέτοιων συστημάτων με την μορφή των tags. Στη συνέχεια αναπτύξαμε ένα μοντέλο απεικόνισης της αξιοπιστίας σε πιθανότητες και σε βάρη αξιοπιστίας που χρησιμοποιήθηκαν σε ταξινομητές fuzzy SVM. Χρησιμοποιώντας τις τιμές των scores διερευνούμε διαφορετικές μεθόδους δημιουργίας βέλτιστων και μικρών συνόλων εκπαίδευσης. Τέλος, διερευνήσαμε μεθόδους για την βελτίωση της απόδοσης των ταξινομητών με τη χρήση των βαρών αξιοπιστίας των δειγμάτων. Αποδεικνύεται πειραματικά ότι τα βάρη επιτυγχάνουν σημαντική βελτίωση στην επίδοση των ταξινομητών, επιτυγχάνοντας βελτίωση ως προς τον απλό SVM η οποία ορισμένες φορές ξεπερνά και το 00%.

4

5 Abstract Semi-supervised classifier training for content-based image retrieval from samples with label uncertainty In this work we tackle the issue of semi-supervised learning for classifier training in content based image retrieval. In an a empt to utilize images in huge online collections we have outlined and built an automated way of exploring such collections (our case being Flickr) and obtaining images that are likely to be used in such training procedures. However, such online collections contain a significant amount of erroneous information (noise). As a result, we have created a novel evaluation system that utilizes textual information assigned to images from users, in the form of tags. We subsequently developed a model for mapping the trust values to probabilities and weighting values for fuzzy SVM classifiers. Using the score values, we examined various strategies for obtaining such a robust and significantly small training set. We conclude that the use of such weighting values improve the classifier performance, achieving imporovement greater than 00% in certain cases.

6

7 Περιεχόμενα Περίληψη - abstract Περιεχόμενα Κατάλογος Σχημάτων Κατάλογος Πινάκων iii vii xii xiv I Εισαγωγή Εισαγωγικά 3. Ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο Γενικά περί ταξινομητών Στόχος της εργασίας Βιβλιογραφική επισκόπηση 7 2. Αξιοποίηση tags σε ταξινομητές Υπολογισμός πιθανότητας και κατανομών από εξόδους συστημάτων αξιολόγησης Αναζήτηση εικόνων με fuzzy SVMs Πλαίσιο της εργασίας II Θεωρητικά στοιχεία 5 3 Μέθοδος συλλογής και συναρτήσεις ομοιότητας 7 3. Έννοιες Καθορισμός από τον άνθρωπο Διαδικασία επέκτασης Δημιουργία ερωτημάτων για διαδικτυακές συλλογές Συσχέτιση εικόνας με έννοια Συσχέτιση δύο λέξεων Συσχέτιση λέξης και συνόλου λέξεων Συσχέτιση δύο συνόλων λέξεων Πειράματα αξιολόγησης ανάκτησης εννοιών με βάση τα tags Average precision και καμπύλες precision-at-k Πειραματικά δεδομένα Aποτελέσματα Απεικόνιση scores σε πιθανότητες Προσέγγιση κατανομών Εκτίμηση πιθανότητας ως προς score Υπολογισμός κατωφλιών scores Αποτελέσματα Ταξινομητές SVM και feature vectors Γενικά Fuzzy SVM Bilateral SVM Αξιοποίηση βαρών στην εκπαίδευση

8 viii Περιεχόμενα 5.5 Έξοδος ενός SVM Πειράματα με χρήση αβεβαιότητας σε ταξινομητές SVM 4 6. Συλλογή εικόνων Επιλογή παραμέτρων Εφαρμογή SVMs σε σύνολα διαφορετικής ποιότητας Σύνολα υψηλής αξιοπιστίας - Προτεινόμενη στρατηγική Σύνολα μη υψηλής αξιοπιστίας Σύνολα με μεγάλη διασπορά στην αξιοπιστία Σύνολα με χαμηλή αξιοπιστία Επαναληπτικές μέθοδοι ανατροφοδότησης III Επίλογος 57 7 Συμπεράσματα Γενικές παρατηρήσεις Προτάσεις βελτίωσης και περαιτέρω διερεύνησης IV Παραρτήματα 63 Αʹ Το εργαλείο linguistics 65 Αʹ. Βιβλιοθήκες C Αʹ.. Flickr API Αʹ..2 Porter stemmer Αʹ..3 Wordnet Αʹ..4 XML Αʹ.2 Βιβλιοθήκες Python Αʹ.3 Χρήση του εργαλείου linguistics Αʹ.4 Λειτουργικότητα των κλάσεων Αʹ.5 Παράδειγμα χρήσης Βʹ Προδιαγραφές αρχείων XML 7 Βʹ. Corpus Βʹ.2 Σύνολα εννοιών Βʹ.3 Μετα-δεδομένα Βʹ.4 Εικόνες με scores Γʹ Υλοποίηση πειραμάτων SVMs 75 Δʹ Αποδείξεις 77 Δʹ. Επιλογή κατωφλίου για την συνάρτηση συσχέτισης λέξης με λέξη Δʹ.2 Απόδειξη της σχέσης Δʹ.3 Υλοποίηση bilateral SVM με fuzzy SVM Βιβλιογραφία

9 Κατάλογος σχημάτων. Μία εικόνα του Flickr, η οποία απεικονίζει ένα δέντρο, και δίπλα τμήμα της πληροφορίας που σχετίζεται με αυτή, συμπεριλαμβανομένης και αυτής των tags Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες animal, beach, computer, cow, food και frost Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες house, moon, mountain, person, plane και police Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες reflection, sky, snow, sun, temple και train Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες tree, waterfall και window Κατανομές και καμπύλες Probability - Score για την έννοια animal Κατανομές και καμπύλες Probability - Score για τις έννοιες beach, computer, cow, food, frost και house Κατανομές και καμπύλες Probability - Score για τις έννοιες moon, mountain, person, plane, police και reflection Κατανομές και καμπύλες Probability - Score για τις έννοιες sky, snow, sun, temple, train και tree Κατανομές και καμπύλες Probability - Score για τις έννοιες waterfall και window Πείραμα 4: Μεταβολή του average precision στις 20 επαναλήψεις για κάθε έννοια, με χρήση fuzzy SVM και βάρη από τις πιθανότητες Πείραμα 5: Μεταβολή του average precision στις 20 επαναλήψεις για κάθε έννοια, με χρήση fuzzy SVM και βάρη από τα scores

10

11 Κατάλογος πινάκων 3. Οι 2 έννοιες και τα σύνολα λέξεών τους που χρησιμοποιήσαμε Average precision για τις 2 έννοιες Πείραμα : 30 εικόνες με το μεγαλύτερο score και 30 με το μικρότερο Πείραμα 2: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο Πείραμα 3: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο, με RBF πυρήνα Πείραμα 4: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο, με bilateral SVMs Πείραμα 5: Ομοιόμορφη κατανομή ως προς τα scores Πείραμα 6: Ομοιόμορφη κατανομή ως προς την πιθανότητα Pr{true S} Πείραμα 7: Ομοιόμορφη κατανομή ως προς τα scores και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 8: Ομοιόμορφη κατανομή ως προς την πιθανότητα Pr{true S} και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 9: Ομοιόμορφη κατανομή ως προς τα scores, και bilateral SVMs Πείραμα 0: Τυχαία επιλογή 000 εικόνων σε 0 Monte Carlo εκτελέσεις Πείραμα : Τυχαία επιλογή 000 εικόνων σε 0 Monte Carlo εκτελέσεις και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 2: Κανονική (gaussian) κατανομή ως προς τα scores Πείραμα 3: Κανονική (gaussian) κατανομή ως προς τα scores, με RBF πυρήνα Πείραμα 4: Επαύξηση του συνόλου εκπαίδευσης με εικόνες μεσαίας και μεγάλης αξιοπιστίας οι οποίες βρίσκονται κοντύτερα στο διαχωριστικό υπερ-επίπεδο του SVM Πείραμα 5: Επαύξηση του συνόλου εκπαίδευσης με εικόνες μεσαίας και μεγάλης αξιοπιστίας από τα άκρα της λίστας αποτελεσμάτων

12 xii Κατάλογος πινάκων

13 Μέρος I Εισαγωγή

14

15 Κεφάλαιο Εισαγωγικά Στην προσπάθεια δημιουργίας έξυπνων μηχανών, οι οποίες μπορούν να αναγνωρίζουν, σε ένα βαθμό όπως και ο άνθρωπος, έννοιες (concepts) οι οποίες βρίσκονται σε περιεχόμενο πολυμέσων, έχει δημιουργηθεί μία σειρά αλγορίθμων, oι οποίοι βασίζονται στη χρήση ταξινομητών (και αναφέρονται στη διεθνή βιβλιογραφία με τον όρο concept based retrieval ). Σημαντικό κομμάτι ενός ταξινομητή, πέρα φυσικά από τον ίδιο τον τρόπο λειτουργίας του, είναι ο τρόπος με τον οποίο αντιλαμβάνεται την έννοια που καλείται να αναγνωρίσει. Ο τρόπος αυτός προέρχεται από μία διαδικασία εκπαίδευσης πάνω σε ένα σύνολο δειγμάτων, καθένα από τα οποία σημειώνεται ως σχετικό ή μη σχετικό για την έννοια, υπονοώντας ότι η έννοια εμφανίζεται ή όχι στο κάθε δείγμα. Σημαντικό κομμάτι, αν όχι το σημαντικότερο, στην αποτελεσματικότητα του παραγόμενου ταξινομητή είναι η ποιότητα του συνόλου εκπαίδευσης. Τα χαρακτηριστικά του συνόλου καθώς και ο τρόπος δημιουργίας του δεν προκαθορίζονται από κάποια διαδικασία, αλλά παραμένουν μέχρι και σήμερα ένα ανοιχτό ερευνητικό αντικείμενο. Για παράδειγμα, θα ήταν λογικό να υποθέσουμε ότι ένα τέτοιο σύνολο πρέπει να είναι αρκετά ενδεικτικό των περιπτώσεων που θα κληθεί να αντιμετωπίσει ο ταξινομητής. Ωστόσο κάτι τέτοιο είναι απλά μία διαισθητική παρατήρηση, η οποία μέχρι στιγμής δεν έχει τεκμηριωθεί.. Ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο Στην παρούσα διπλωματική ασχολούμαστε με την ανάκτηση εικόνων με συγκεκριμένο εννοιολογικό ή σημασιολογικό περιεχόμενο χρησιμοποιώντας την οπτική τους πληροφορία (και όχι την συνοδεύουσα λεκτική). Χρησιμοποιούμε ταξινομητές τύπου SVM, καθότι θεωρούνται οι πλέον αποτελεσματικοί σε τέτοιου είδους εφαρμογές. Η συγκεκριμένη προσέγγιση παρουσιάζει ένα σημαντικό πλεονέκτημα έναντι της ανάκτησης χρησιμοποιώντας την συνοδευτική λεκτική πληροφορία, η οποία είναι η ανάκτηση μεγαλύτερου αριθμού εικόνων, καθώς η λεκτική πληροφορία που υπάρχει δεν είναι απόλυτα ορθή, και κυρίως δεν είναι πλήρης (δεν περιλαμβάνει δηλαδή όλες τις έννοιες που μπορεί να εμφανίζονται σε μία εικόνα). Συγκεκριμένα ασχολούμαστε με το πρόβλημα δημιουργίας ενός (καλού) συνόλου εκπαίδευσης. Η δημιουργία τέτοιων συνόλων μπορεί να γίνει με διάφορους τρόπους, όπως για παράδειγμα με χειροκίνητη συλλογή εικόνων από τον άνθρωπο, και με οπτική διαπίστωση για το αν περιέχουν ή όχι την έννοια. Μία τέτοια προσέγγιση ωστόσο απαιτεί μεγάλο κόπο από τον άνθρωπο, και περιορίζει σημαντικά το μέγεθος των εξεταζόμενων εικόνων. Για το λόγο αυτό γίνεται μία προσπάθεια εκμετάλλευσης διαδικτυακών συλλογών εικόνων. Οι συλλογές αυτές είναι προσβάσιμες στον απλό χρήστη συνήθως μέσω κάποιας ιστοσελίδας, από την οποία μπορεί να καταθέτει ή να λαμβάνει εικόνες που έχουν καταθέσει άλλοι. Τέτοιες ιστοσελίδες επιτρέπουν και την προσθήκη επιπλέον πληροφορίας, ως επί το πλείστον σε λεκτική μορφή. Η πληροφορία αυτή είναι (συνήθως) σχετική με το περιεχόμενό τους και έχει κατατεθεί από ανθρώπους με την μορφή των tags. Η χρήση των tags είναι ιδιαίτερα διαδεδομένη στις μέρες μας, όχι μόνο σε εφαρμογές σχετικές με εικόνες, αλλά και με οποιοδήποτε είδος πολυμέσων, όπως βίντεο (πχ YouTube) και μουσική (πχ mp3 tags). Τα tags είναι στη πραγματικότητα λέξεις, τις οποίες κάποιος άνθρωπος έχει αντιστοιχήσει σε ένα πολυμεσικό αντικείμενο. Κάτι τέτοιο προϋποθέτει από τον δημιουργό ή τον κάτοχο ή τον διαχειριστή της συλλογής των πολυμέσων την παροχή κατάλληλης υποδομής. Μία τέτοια συλλογή, την οποία χρησιμοποιούμε στην παρούσα εργασία, είναι το Flickr¹. Το Flickr είναι ένας δικτυακός τόπος στον οποίο εγγεγραμμένοι χρήστες μπορούν να καταθέτουν φωτογραφίες, συνοδευμένες (προαιρετικά) από μία σειρά πληροφοριών, με σημαντικότερη αυτή των tags, λέξεων δηλαδή οι οποίες σχετίζονται - σύμφωνα με την άποψη του χρήστη - με την φωτογραφία. Χαρακτηριστικά που αξίζει να σημειωθούν για τέτοιου είδους συλλογές είναι ο μεγάλος, και συνεχώς αυξανόμενος, όγκος τους, η ποικιλία στα tags (για παράδειγμα στον αριθμό, το βαθμό λεπτομέρειας, πληρότητας αλλά και άλλων χαρακτηριστικών). Αξίζει επίσης να σημειωθεί ότι δεν υπάρχει κανένας απολύτως μηχανισμός (είτε αυτόματος είτε χειροκίνητος) ελέγχου των tags που αποδίδονται στις εικόνες από τους χρήστες. Αυτό έχει ως αποτέλεσμα η πληροφορία αυτή (των tags) να περιέχει γενικά πολύ θόρυβο. ¹

16 4 Κεφάλαιο. Εισαγωγικά Σχήμα.: Μία εικόνα του Flickr, η οποία απεικονίζει ένα δέντρο, και δίπλα τμήμα της πληροφορίας που σχετίζεται με αυτή, συμπεριλαμβανομένης και αυτής των tags.2 Γενικά περί ταξινομητών Όπως αναφέρθηκε, οι ταξινομητές είναι στην πραγματικότητα μέθοδοι (ή αλγόριθμοι) οι οποίοι έχουν μία είσοδο και μία έξοδο. Ο τύπος της εισόδου μπορεί να ποικίλει, και μπορεί να είναι ένας αριθμός, πολλοί αριθμοί σε διατάξεις όπως διάνυσμα, πίνακας κπλ, ή και πιο σύνθετες διατάξεις. Το ίδιο ισχύει και για την έξοδο. Αυτό που ως επί το πλείστον ισχύει όμως είναι η περίπτωση όπου η είσοδος είναι ένα διάνυσμα, και η έξοδος ένα μονοδιάστατο μέγεθος. Πολλές φορές, η έξοδος μπορεί να είναι μία λογική μεταβλητή, η οποία συνήθως καθορίζεται από το πρόσημο μίας εσωτερικής μονοδιάστατης αριθμητικής μεταβλητής. Ο τύπος της εισόδου και της εξόδου καθορίζεται από τον ίδιο τον ταξινομητή. Ανάλογα δηλαδή με την δομή και τον τρόπο λειτουργίας, κάθε ταξινομητής ενδέχεται να έχει (πρακτικά έχει πάντα) περιορισμούς για τις παραμέτρους αυτές. Ο τρόπος αξιοποίησης των ταξινομητών είναι συνήθως ο ακόλουθος. Έστω ότι μας ενδιαφέρει να αναγνωρίσουμε την ύπαρξη 3 διαφορετικών εννοιών σε μία εικόνα. Για να το πετύχουμε αυτό, χρειαζόμαστε 3 διαφορετικούς ταξινομητές. Ο κάθε ένας αποφασίζει για μία συγκεκριμένη έννοια. Αυτό που πρέπει να σημειωθεί είναι ότι όταν λέμε 3 διαφορετικούς ταξινομητές, δεν εννοούμε ταξινομητές 3 διαφορετικών τύπων. Συνήθως σε κάθε εφαρμογή χρησιμοποιείται ένα μόνο είδος ταξινομητή. Για παράδειγμα στην παρούσα εργασία χρησιμοποιούνται ταξινομητές τύπου SVM. Εξαίρεση αποτελούν διαδικασίες σύγκρισης των αποδόσεων ταξινομητών διαφορετικών ειδών (benchmarking). Επίσης αναφέρουμε ενδεικτικά μερικά είδη ταξινομητών πέραν του SVM, όπως τα νευρωνικά δίκτυα, οι πιθανοτικοί ταξινομητές, ταξινομητές ομαδοποίησης (clustering) όπως πχ ο k-nn και ο k-means. Από τα παραπάνω εύκολα μπορεί κανείς να αναρωτηθεί το εξής (μιλώντας για το παράδειγμα που αναφέραμε). Εφόσον έχουμε 3 ταξινομητές ίδιου τύπου, τι είναι αυτό που τους διαφοροποιεί; Η απάντηση είναι η ακόλουθη. Κάθε τύπος ταξινομητή είναι ένας συγκεκριμένος αλγόριθμος. Ή, σε μία πιο προγραμματιστικά στοχευμένη διατύπωση, ένα συγκεκριμένο πρόγραμμα. Ο αλγόριθμος αυτός (ή το πρόγραμμα) περιέχει μια σειρά παραμέτρων, η οποίες επηρεάζουν το τελικό αποτέλεσμα κάθε απόφασης. Συνεπώς αυτό που διαφοροποιεί δύο ταξινομητές ίδιου τύπου με τα ίδια ακριβώς χαρακτηριστικά εισόδου και εξόδου οι οποίοι αποφαίνονται για διαφορετικές έννοιες είναι οι διαφορετικές τιμές των παραμέτρων που υπεισέρχονται. Η διαδικασία ρύθμισης των παραμέτρων αυτών είναι η διαδικασία εκπαίδευσης, κυρίαρχο τμήμα της οποίας είναι το σύνολο εκπαίδευσης το οποίο έχουμε ήδη αναφέρει. Οι διαδικασίες εκπαίδευσης είναι και αυτές γενικά αλγόριθμοι (πχ εξελικτικοί αλγόριθμοι), ωστόσο ο τρόπος λειτουργίας τους δεν θα μας απασχολήσει ιδιαίτερα. Συνεχίζοντας στο παράδειγμά μας, το σύνολο εκπαίδευσης για κάθε ταξινομητή είναι ένα σύνολο εικόνων, μαζί με την πληροφορία για το αν περιέχουν την ζητούμενη έννοια. Δεν απαιτείται τα σύνολα εκπαίδευσης να είναι τα ίδια και για τους 3 ταξινομητές, ούτε να είναι ξένα

17 .3. Στόχος της εργασίας 5 μεταξύ τους, ούτε ισοπληθή. Γενικά, δεν έχουμε κανέναν περιορισμό. Περισσότερα για τους ταξινομητές SVM στο κεφάλαιο 5..3 Στόχος της εργασίας Η παρούσα διπλωματική εργασία ασχολείται με την δημιουργία συνόλων εκπαίδευσης για ταξινομητές εικόνων. Αποτελείται από ένα σύνολο τριών τμημάτων, τα οποία καθορίζουν και τη δομή του κειμένου αυτού. Τα τμήματα αυτά είναι τα ακόλουθα. Το πρώτο τμήμα αφορά στην αξιοποίηση διαδικτυακών συλλογών εικόνων σε μία διαδικασία αυτόματης εξερεύνησης και αξιοποίησής τους. Στην συγκεκριμένη εργασία χρησιμοποιήθηκε το Flickr ως πηγή εικόνων. Για τον σκοπό δημιουργήσαμε ένα πλαίσιο καθορισμού των εννοιών για τα οποία ενδιαφερόμαστε, και στην συνέχεια υλοποιήσαμε ένα εργαλείο το οποίο αναλαμβάνει να εκτελέσει αυτόματα μία σειρά ενεργειών, αποτέλεσμα της οποίας είναι σύνολα με εικόνες οι οποίες έχουν χαρακτηριστεί μέσω ενός score ως προς τον βαθμό συσχέτισης με την κάθε έννοια. Το δεύτερο τμήμα είναι σε κάποιον βαθμό ανεξάρτητο από την δεδομένη εφαρμογή σε ταξινομητές εικόνων. Στόχο έχει το να καθορίσει διαδικασίες οι οποίες σχετίζονται με την αξιοποίηση μίας λίστας αποτελεσμάτων (στην προκείμενη περίπτωση η λίστα είναι οι εικόνες που συγκέντρωσε το εργαλείο που αναφέρθηκε μαζί με το score τους) με σκοπό την εκτίμηση πιθανοτικών κατανομών. Με άλλα λόγια, πώς μπορούμε να εκτιμήσουμε αν μία εικόνα περιέχει μία έννοια αν γνωρίζουμε το score της εικόνας αυτής για την συγκεκριμένη έννοια. Το τρίτο και τελευταίο τμήμα σχετίζεται με την εφαρμογή των συμπερασμάτων των δύο προηγούμενων σταδίων σε ταξινομητές SVM και fuzzy SVM. Συγκεκριμένα χρησιμοποιούμε τα προαναφερθέντα scores για να δημιουργήσουμε αυτόματα το σύνολο αληθείας - δηλαδή να χαρακτηρίσουμε κάθε εικόνα για το αν περιέχει ή όχι την κάθε έννοια - για διάφορα σύνολα εκπαίδευσης, για να επιλέξουμε ένα μικρό αλλά όσο το δυνατό βέλτιστο σύνολο εικόνων μέσα από ένα μεγαλύτερο, και τέλος για να εκφράσουμε - στην περίπτωση του fuzzy SVM - την παράμετρο βάρους/αξιοπιστίας/σημαντικότητας κάθε εικόνας.

18

19 Κεφάλαιο 2 Βιβλιογραφική επισκόπηση Στο κεφάλαιο αυτό παρουσιάζεται συνοπτικά η δουλειά που έχει γίνει από την επιστημονική κοινότητα τα τελευταία χρόνια στα σχετικά πεδία της παρούσας εργασίας. 2. Αξιοποίηση tags σε ταξινομητές Τα τελευταία χρόνια, η ανάπτυξη των δυνατοτήτων του διαδικτύου, των ηλεκτρονικών υπολογιστών καθώς και των φωτογραφικών μηχανών έχει απλοποιήσει την διαδικασία δημιουργίας ψηφιακών εικόνων. Μάλιστα, έχουν δημιουργηθεί μία σειρά από ιστοσελίδες, όπως για παράδειγμα οι Flickr, Google Picassa, Instagram, DeviantART κλπ, οι οποίες περιέχουν εικόνες. Οι εικόνες αυτές κατηγοριοποιούνται με διαφορετικούς τρόπους σε κάθε περίπτωση. Ωστόσο οι περισσότερες ιστοσελίδες δίνουν τη δυνατότητα στους χρήστες να αποδίδουν λέξεις (tags) σε κάθε εικόνα, οι οποίες συνήθως σχετίζονται με το περιεχόμενο της εικόνας. Τέτοιες ιστοσελίδες μπορούν να αξιοποιηθούν σε μεγάλο βαθμό από εφαρμογές δημιουργίας ταξινομητών εικόνων. Σχετικά με την συνήθεια των χρηστών να αποδίδουν tags σε εικόνες, έχει διαπιστωθεί [30] ότι οι χρήστες έχουν γενικά την συνήθεια να αποδίδουν tags και πληροφορία στις εικόνες, με κύριο κίνητρο την οργάνωση των εικόνων ώστε να είναι εύκολη η προσπέλασή τους από κάποιον ενδιαφερόμενο. Η παρατήρηση αυτή είναι ιδιαίτερα ενθαρρυντική για προσπάθειες εκμετάλλευσης της συνοδευτικής αυτής πληροφορίας. Επίσης, η συγκεκριμένη έρευνα κατηγοριοποιεί τα tags ως προς το είδος της πληροφορίας που περιγράφουν, με τα εξής αποτελέσματα: 28% σχετίζονται με τοποθεσία, 6% με απτά αντικείμενα, 3% με άτομα ή ομάδες ατόμων, 9% με γεγονότα και 7% με χρονική στιγμή. Επίσης, ένα 27% σχετίζονται με έννοιες που δεν μπορούν να ενταχθούν σε κάποια συγκεκριμένη κατηγορία. Ένα σημαντικό επίσης θέμα είναι το κατά πόσο τα tags είναι ακριβή ή εσφαλμένα. Μια σειρά πειραμάτων [24] έδειξε ότι χρησιμοποιώντας προσεκτική σημείωση εικόνων από experts όπως αναφέρονται, το ποσοστό στο οποίο συμφωνούν μεταξύ τους είναι μεν υψηλό (πάνω από 90%) αλλά δεν πλησιάζει καθόλου το 00%. Επίσης ερευνώντας το πόσο οι οι σημειώσεις των experts συμφωνούν με αυτές που προέρχονται από τους non-experts, δηλαδή τους χρήστες που αναθέτουν τα tags, παρατηρήθηκε ένα ποσοστό συμφωνίας περίπου 70%. Το ποσοστό αυτό είναι αρκετά μεγάλο ώστε να μας ωθεί σε μία κατεύθυνση αξιοποίησης της πληροφορίας αυτής, ωστόσο απέχει και σημαντικά από το 00%. Αυτό μας κάνει επιφυλακτικούς στην χρήση των tags, και μας αναγκάζει να δημιουργήσουμε μεθόδους αξιολόγησης της πληροφορίας αυτής. Σε μία παλαιότερη έρευνα του 2005 [0] διαπιστώθηκε το γοργά αυξανόμενο ενδιαφέρον της επιστημονικής κοινότητας για την ανάκτηση εικόνων με χρήση support vector machines. Ο όρος image retrieval αναφέρεται στη συλλογή από ένα μεγάλο πλήθος εικόνων με βάση το οπτικό περιεχόμενό τους. Στη συνέχεια παρουσιάζονται συνοπτικά κάποιες νεότερες έρευνες σχετικές με την αξιοποίηση των tags από μεγάλες συλλογές. Μία έρευνα βασισμένη ιδιαίτερα στο Flickr [4] ορίζει και χρησιμοποιεί μία μετρική με το όνομα Flickr distance, σε αντιπαραβολή με τη Google distance [8]. Η μετρική αυτή χρησιμοποιεί τα tags του Flickr για να δημιουργήσει ένα δίκτυο εννοιών τα οποία συνδέονται και μεταξύ τους. Οι έννοιες αυτές που δημιουργεί είναι αρκετά κοντά σε ανθρώπινες έννοιες, ενώ συνδέονται και με οπτικό περιεχόμενο. Επίσης, λαμβάνοντας και τις συσχετίσεις μεταξύ των εννοιών και σε λεκτικό επίπεδο και σε οπτικό, ξεπερνά σε απόδοση αντίστοιχο σύστημα που βασίζεται στη Google distance. Διάφορες έρευνες έχουν ακολουθήσει διαφορετικές μεθόδους και προσεγγίσεις στην προσπάθεια αξιοποίησης της λεκτικής πληροφορίας εικόνων. Σε μεγάλο βαθμό, οι έρευνες αυτές αντλούν την λεκτική πληροφορία από διαδικτυακές πηγές [38][37][8]. Η βασική ιδέα τους είναι ότι ξεκινώντας από μία εικόνα, αναζητούν μέσω του διαδικτύου παρόμοιες εικόνες και συλλέγουν κοινή λεκτική πληροφορία την οποία και αντιστοιχίζουν στην αρχική εικόνα. Οι [32], χρησιμοποιώντας την πληθώρα πληροφορίας που είναι διαθέσιμη σε τέτοιου είδους διαδικτυακές πηγές, συγκέντρωσαν περίπου 80 εκατομμύρια εικόνες πολύ μικρών διαστάσεων και αντιστοίχησαν κάθε μία από αυτές με ένα από τα

20 8 Κεφάλαιο 2. Βιβλιογραφική επισκόπηση 75,062 ουσιαστικά που βρίσκονται στο WordNet. Υποστήριξαν ότι με αρκετά μεγάλο αριθμό δειγμάτων, η εφαρμογή απλών αλγορίθμων ομαδοποίησης (clustering) όπως για παράδειγμα του k-nn (kth nearest neighboor) μπορούν να πετύχουν ικανοποιητικά ποσοστά απόδοσης σε προβλήματα αναγνώρισης αντικειμένων, σκηνών, προσώπων κλπ συγκρινόμενοι με νεότερα και πολυπλοκότερα συστήματα και μεθόδους. Ωστόσο, η αντιστοίχηση ενός μόνο ουσιαστικού από το WordNet και η χρήση των πολύ μικρών εικόνων (συγκεκριμένα 32 επί 32 pixels) δημιουργεί σοβαρά προβλήματα στην αποτύπωση συνθετότερων εννοιών του πραγματικού κόσμου. Τέλος, η διαδικασία αντιστοίχισης κάθε εικόνας με το ουσιαστικό έγινε χρησιμοποιώντας γειτονική πληροφορία (context) από διαδικτυακές πηγές, με αποτέλεσμα να έχει σημαντικά πολύ θόρυβο. Αρκετή προσπάθεια έχει γίνει και στο να αντιστοιχηθούν έννοιες σε μοτίβα χαμηλών χαρακτηριστικών των εικόνων (low features pa erns), συγκεντρώνοντας και πάλι εικόνες από το διαδίκτυο. Οι [] προσπάθησαν να δημιουργήσουν μοντέλα οπτικών αντικειμένων σαν συνδυασμό μερών χρησιμοποιώντας μία πιθανοτική αναπαράσταση με το όνομα TSI-pLSA. Οι [3], εφαρμόζοντας κατά κάποιον τρόπο ανάποδα την ιδέα αυτή, αντιστοίχησαν σε κάθε έννοια πολλαπλά μοτίβα χαρακτηριστικών. Και οι δύο μέθοδοι απαιτούν την συλλογή διαφορετικών συνόλων εκπαίδευσης για κάθε έννοια και απαιτείται η εκπαίδευση ενός μοντέλου για κάθε έννοια, με αποτέλεσμα να μειώνεται σημαντικά ο συνολικός αριθμός εννοιών που μπορούν να χειριστούν. Μία άλλη κατεύθυνση σχετίζεται με την χρήση γράφων για την περιγραφή σχέσεων, και εμπλέκει διαδικασίες ημι-εποπτευόμενης μάθησης (semi-supervised learning), διαδικασίες που έχουν αρχήσει να χρησιμοποιούνται αρκετά τα τελευταία χρόνια, τόσο σε προβλήματα μάθησης (machine learning) όσο και σε προβλήματα αναζήτησης πολυμεσικού περιεχομένου (multimedia retrieval). Οι πιο τυπικές μέθοδοι περιλαμβάνουν την μέθοδο τυχαίων κανονικών περιοχών (Gaussian random fields) και αρμονικών συναρτήσεων [44] και την μέθοδο τοπικής/ειδικής και γενικής συνοχής (local and global consistency) [43]. Ακόμα μια κατεύθυνση είναι η αντιστοίχηση δεικτών ομοιότητας και η σύγκριση ή συσχέτισή τους. Οι [36][27] ακολουθούν μία προσέγγιση ζεύγους όπου το πρώτο μέλος είναι η εικόνα ερώτησης (η εικόνα η οποία περιέχει την έννοια που αναζητούμε) και το δεύτερο μέλος είναι μία εικόνα απάντησης (δηλαδή μία από τις ζητούμενες εικόνες που περιέχει την έννοια). Αν και υπάρχουν πλεονεκτήματα σε τέτοιου είδους προσεγγίσεις, υπάρχει η απαίτηση η υπό αναζήτηση έννοια να δίνεται σε μορφή εικόνας, και όχι σε λεκτική, κάτι που είναι αντίθετο με τις συνήθειες των χρηστών όπως αναφέρουν και οι [7]. Οι [40], στην προσπάθεια δημιουργίας μίας μεθόδου επιλογής κατάλληλων εννοιών για αναζήτηση σε βίντεο, πρότειναν τη δημιουργία ενός εννοιολογικού χώρου ο οποίος θα επιτρέπει την άμεση σύγκριση ομοιότητας μεταξύ εννοιών. Οι [20] μελέτησαν την επιρροή δύο παραμέτρων σε έναν τέτοιο εννοιολογικό χώρο: α) την ακρίβεια των tags που αποδίδουν οι χρήστες σε σχέση με αυτή που προέρχεται από μία αυτόματη διαδικασία, και β) διάφορες συναρτήσεις υπολογισμού της ομοιότητας μεταξύ τέτοιων ζευγών/διανυσμάτων όπου κάθε στοιχείο του διανύσματος είναι ένα πολυμεσικό αντικείμενο. Mία πιο σύγχρονη προσέγγιση αφορά στην ανάλυση κανονικής συσχέτισης (canonical correlation analysis) [2][3][4][5] [28]. Στην προσέγγιση αυτή, δημιουργείται ένας χώρος διανυσμάτων τα οποία δημιουργούνται και από οπτικά χαρακτηριστικά αλλά και από λεκτικά. Έτσι είναι δυνατή η απευθείας συσχέτιση οποιονδήποτε χαρακτηριστικών. Ο χώρος αυτός είναι, όπως αναφέρεται, cross-modal, εννοώντας ότι λόγω των χαρακτηριστικών αυτών, συσχετίσεις μεταξύ εικόνας με εικόνα, εικόνας με έννοια, και έννοια με εικόνας αντιμετωπίζονται με έναν ενιαίο τρόπο. Τέλος, μία σημαντική δημοσίευση, της οποίας τα αποτελέσματα χρησιμοποιούμε άμεσα σε αυτή την εργασία, είναι η δουλειά των [7]. Αποτέλεσμα της συγκεκριμένης έρευνας είναι μία συλλογή 270,000 εικόνων περίπου από το Flickr, οι οποίες έχουν σημειωθεί για το αν είναι σχετικές για ένα σύνολο 8 διαφορετικών εννοιών. Η μέθοδος που χρησιμοποιήθηκε είναι μία μορφή ημι-εποπτευόμενης μάθησης, και η εγκυρότητά της είναι ιδιαίτερα υψηλή. Ωστόσο, το σύνολο αυτό των εικόνων δεν είναι τελείως απαλλαγμένο από θόρυβο. 2.2 Υπολογισμός πιθανότητας και κατανομών από εξόδους συστημάτων αξιολόγησης Ένα σχετικά πρόσφατο επιστημονικό πεδίο είναι το πεδίο του IR (Information Retrieval). Το πεδίο αυτό εξετάζει κάποια ζητήματα που εμπλέκονται με τις διαδικασίες που περιγράφουμε και υλοποιούμε στην συγκεκριμένη εργασία, με έναν αρκετά πιο γενικό και αφαιρετικό τρόπο ωστόσο. Σύνηθες σημείο αφετηρίας είναι διατεταγμένες λίστες αποτελεσμάτων, οι οποίες έχουν ταξινομηθεί βάσει κάποιου score. Είναι αδιάφορο αν οι λίστες είναι λίστες εικόνων, ή τραγουδιών, ή βίντεο, ή γραπτών κειμένων ή οτιδήποτε άλλου είδους. Επίσης είναι αδιάφορο (τουλάχιστον στα πρώτα στάδια) το είδος της γεννήτριας των score που εμπλέκονται στη λίστα. Δεν μας ενδιαφέρει δηλαδή αν είναι κάποιου είδους ταξινομητής, κάποιος ευριστικός μηχανισμός ή ο,τιδήποτε άλλο. Διαθέτοντας μία λίστα εγγράφων τα οποία έχουν αξιολογηθεί και διαταχθεί βάσει ενός score, οι [2][] μελέτησαν τις κατανομές scores από διάφορες μηχανές παραγωγής scores χωριστά για τα έγγραφα τα οποία θεωρούνταν σχετικά προς την αναζήτηση και για αυτά που δεν θεωρούνταν σχετικά. Κατέληξαν ότι η κατανομή των scores στα σχετικά έγγραφα προσέγγιζε κανονική κατανομή, ενώ η κατανομή των scores στα μη σχετικά προσέγγιζε εκθετική κατανομή. Επίσης μελέτησαν την αξιοποίηση κατωφλιών σε scores με στόχο την μεγιστοποίηση τιμών δεικτών αξιολόγησης, όπως για παράδειγμα των

21 2.3. Αναζήτηση εικόνων με fuzzy SVMs 9 accuracy, F-measure, utility κλπ. και πρότειναν έναν τρόπο εκτίμησης των κατωφλιών αυτών βασισμένο σε στατιστικά χαρακτηριστικά των κατανομών των scores και όχι στις ίδιες τις τιμές τους. Ένα σημαντικό ζήτημα που προέκυψε στα πλαίσια της εργασίας είναι η κανονικοποίηση των scores μίας τέτοιας λίστας αποτελεσμάτων, και στη συνέχεια η εύρεση κατωφλιών για διαδική ταξονόμιση (binary classification) και μετασχηματισμών των scores σε πιθανότητες. Το εύρος τιμών των scores ποικίλει όχι μόνο από μηχανή σε μηχανή, αλλά και διαφορετικά ερωτήματα στην ίδια μηχανή [29]. Μπορεί για παράδειγμα να επηρεάζεται από το πλήθος των όρων που μετέχουν σε ένα ερώτημα αναζήτησης. Επίσης οι τιμές των scores δεν έχουν κάποια άμεση φυσική σημασία, για παράδειγμα δεν σχετίζονται με την πιθανότητα του κάθε εγγράφου να είναι σχετικό. Συνήθως όμως είναι ένας μονότονος μετασχηματισμός αυτής [23]. Οι [2] αντιμετώπισαν ακριβώς το ίδιο ζήτημα. Υποστήριξαν ότι τρόποι κανονικοποίσης οι οποίοι λαμβάνουν υπόψη τους μόνο χαρακτηριστικά της κατανομής του τύπου min max δεν ήταν βέλτιστοι, αλλά θα έπρεπε να λαμβάνουν υπόψη και άλλα χαρακτηριστικά της κατανομής, όπως για παράδειγμα την ίδια την κατανομή της. Στη συνέχεια, θεωρώντας ότι δεν έχουμε καμία ένδειξη για τον τρόπο λειτουργίας της μηχανής που αποδίδει τα scores, καθώς επίσης και καμία πληροφορία για το ποια έγγραφα της λίστας αποτελεσμάτων είναι πράγματι σχετικά, υπέθεσαν αρχικά ότι η κατανομή των scores σε μία τέτοια λίστα αποτελεσμάτων είναι στην πραγματικότητα η συμβολή δύο κατανομών: την κατανομή των scores των σχετικών εγγράφων και την κατανομή των scores των μη σχετικών. Στη συνέχεια, υπέθεσαν ότι και η κατανομή των scores των σχετικών εγγράφων είναι συμβολή δύο κατανομών: μίας πραγματικής και μίας θορύβου, και πρότειναν έναν τρόπο δημιουργίας ερωτημάτων προς μία τέτοια μηχανή τα οποία θα μπορούσαν να φανερώσουν τις δύο αυτές κατανομές. Μία συγκεντρωτική παρουσίαση σχετικών θεμάτων παρουσιάζουν οι [3]. Παρουσιάζονται διαφορετικές προσεγγίσεις πέραν της εκθετικής-κανονικής κατανομής (για τις κατανομές των σχετικών και μη εγγράφων), όπως κανονικής-κανονικής, μεικτά μοντέλα, gamma-gamma κατανομών κλπ, και δίνονται οι υποθέσεις των οποίων την ισχύ απαιτεί θεωρητικά τουλάχιστον κάθε περίπτωση. Επίσης προτείνονται και μετασχηματισμοί των scores, χρησιμοποιώντας κατά κύριο λόγο λογιστικές συναρτήσεις (logistic functions) οι οποίες θα διευκολύνουν την διαδικασία εκτίμησης των δύο εσωτερικών κατανομών, καθώς και την διαδικασία μετασχηματισμού (ή καλύτερα εκτίμησης πιθανότητας). Ας σημειωθεί ότι ένα βασικό κίνητρο για τις έρευνες που παρουσιάζονται είναι η δυνατότητα συνδυασμού scores διαφορετικών μηχανισμών σε μέτα-μηχανές αναζήτησης (meta-search engines) και υπολογισμού ενός ενιαίου score από scores διαφορετικών μηχανισμών (score fusioning). Ωστόσο, οι [22], επικεντρώνοντας στο κομμάτι της κανονικοποίησης, υποστηρίζουν, αντίθετα με πριν, ότι μέθοδοι και μηχανισμοί οι οποίοι λαμβάνουν υπόψη τους τις κατανομές των scores είναι γενικά χειρότεροι από αυτούς που χρησιμοποιούν απλούς τελεστές τύπου min max, και αιτιολογούν τα αποτελέσματά τους δείχνοντας ότι τέτοιοι μηχανισμοί συνήθως υποθέτουν κατανομές καμπάνας (bell distributions) όπως για παράδειγμα η κανονική, κάτι που στην πράξη δεν ισχύει. Αντίθετα, καταλήγουν στο ότι απλοί τελεστές τύπου min max είναι γενικά καλύτεροι. 2.3 Αναζήτηση εικόνων με fuzzy SVMs Μία σύνοψη των μεθόδων που έχουν εφαρμοσθεί σχετικά με την εκπαίδευση ταξινομητών για αναζήτηση εικόνων βάσει περιεχομένου (content-based image retrieval), καθώς και άλλων μεθόδων σχετικά με την αναζήτηση, έχουν παρουσιάσει οι [9]. Επίσης παραθέτουμε τις δημοσιεύσεις των [9] και [35] καθώς αποτελούν σημαντικό κομμάτι του κλάδου. Οι [26] χρησιμοποίησαν fuzzy SVMs για την αναζήτηση εννοιών σε εικόνες, χρησιμοποιώντας κάθε φορά έναν αριθμό από λιγότερο αξιόπιστους fuzzy SVMs με σκοπό την δημιουργία ενός αξιόπιστου. Παρουσίασαν μία μέθοδο επαναληπτικής ημιεποπτευόμενης μάθησης, η οποία δεν έδινε απλά τη δυνατότητα χαρακτηρισμού μίας εικόνας απλά ως σχετικής ή μη, αλλά αξιοποιούσε περισσότερες ποιοτικές στάθμες, όπως πολύ σχετικό, λίγο σχετικό, ουδέτερο, κλπ., καθώς και τα αποτελέσματά της. Ωστόσο, χρησιμοποιούσαν σύνολα εκπαίδευσης με μεγάλο ποσοστό αξιόπιστων δειγμάτων, αφού μόνο ένα 20% προερχόταν από δείγματα με μικρό δείκτη αξιοπιστίας. Οι [25] πρότειναν μία μέθοδο ασαφούς συσχέτισης περιοχών ενός χώρου χαρακτηριστικών εικόνων (feature space) με συγκεκριμένες έννοιες. Χρησιμοποίησαν μεθόδους ομαδοποίησης και την ευκλείδεια απόσταση των κέντρων από τα διαχωριστικά επίπεδα. Επίσης, σε μία προσπάθεια εκμετάλλευσης της ασάφειας στα δείγματα ενός συνόλου εκπαίδευσης, οι [42] παρουσίασαν μία μέθοδο σύμφωνα με την οποία χρησιμοποιούσαν κάποια δείγματα ως υποδειγματικά και δημιουργούσαν έναν νέο χώρο χαρακτηριστικών που αποτελούνταν από συσχετίσεις των δειγμάτων με τα χαρακτηριστικά των υποδειγματικών εικόνων. Οι [4] χρησιμοποίησαν την ασάφεια των δειγμάτων σε διαδικασίες επαναληπτικής μάθησης αξιοποιώντας fuzzy SVMs. Η βασική ιδέα του αλγορίθμου υπολογισμού των βαρών για fuzzy SVMs είναι η κατάτμηση των εικόνων σε πέντε περιοχές και η ανεξάρτητη ομαδοποίησή τους σε οχτώ ομάδες. Στη συνέχεια προσομοιώνεται μία διαδικασία ημι-εποπτευόμενης μάθησης, στην οποία όμως τα τμήματα των εικόνων κληρονομούν την πληροφορία της αρχικής εικόνας αδιακρίτως. Τα αποτελέσματα της μεθόδου είναι αρκετά ικανοποιητικά συγκρινόμενα με επιδόσεις παρόμοιων μεθόδων μάθησης.

22 0 Κεφάλαιο 2. Βιβλιογραφική επισκόπηση 2.4 Πλαίσιο της εργασίας Στο σημείο αυτό, παρουσιάζουμε το πλαίσιο στο οποίο τοποθετείται η παρούσα διπλωματική εργασία, έχοντας υπόψη τα τρία τμήματα που αναφέρθηκαν στην παράγραφο.3. Σχετικά με το πρώτο κομμάτι, παρατηρούμε ότι έχει αναπτυχθεί μία πληθώρα μεθόδων και προσεγγίσεων. Κάποιες από αυτές, αν και παρουσιάζουν πολύ καλά αποτελέσματα είναι αρκετά πολύπλοκες και απαιτούν μεγάλα υπολογιστικά συστήματα για να υλοποιηθούν. Άλλες απαιτούν χαρακτηριστικά τα οποία είναι αντίθετα με τις συνήθεις πρακτικές, ενώ κάποιες απαιτούν τη (κάποιες φορές χειροκίνητη) ρύθμιση πολλών παραμέτρων. Τέλος, κάποιες δημιουργούν μοντέλα τα οποία είναι ασύνδετα μεταξύ τους, με αποτέλεσμα να απαιτείται επανάληψη των διαδικασιών σχηματισμού των μοντέλων τους σε κάθε μεταβολή των ορίων του συστήματος. Αντίθετα εμείς δεχόμαστε τις υποθέσεις ότι τέτοιες πηγές αφενός έχουν καλά ποιοτικά χαρακτηριστικά, αφετέρου περιέχουν αρκετό θόρυβο. Χρησιμοποιούμε μία μετρική η οποία βασίζεται στο PMI [5] η οποία προέρχεται από τον χώρο της αναζήτησης σε γραπτές πηγές (text retrieval), την οποία τροποποιούμε ώστε να αποδίδει καλύτερα στο δικό μας πεδίο εφαρμογής, και στην συνέχεια την επεκτείνουμε. Παρουσιάζουμε τους λόγους που μας οδηγούν στις επιλογές μας και επιβεβαιώνουμε παρουσιάζοντας ενδεικτικά αποτελέσματα εφαρμογής του συστήματός μας. Στο δεύτερο τμήμα της εργασίας, χρησιμοποιούμε τους τελεστές min max για την κανονικοποίηση, και υιοθετούμε τις κατανομές gamma, καθώς είναι οι γενικότερες αλλά και αυτές που θεωρητικά (αλλά και πρακτικά όπως διαπιστώσαμε) ταιριάζουν καλύτερα στα πραγματικά δεδομένα. Επίσης, προτείνουμε μία μέθοδο για τον υπολογισμό μετασχηματισμών από scores σε πιθανότητες και διαπιστώνουμε ότι συμπίπτουν σε πολύ μεγάλο βαθμό με την πειραματικά μετρούμενη σχέση μεταξύ scores και πιθανότητας συσχέτισης. Τέλος, σχετικά με το τρίτο και τελευταίο τμήμα της εργασίας, αναφέρουμε ότι η υπάρχουσα βιβλιογραφία είναι μάλλον περιορισμένη. Η έννοια της ασάφειας χρησιμοποιείται περισσότερο στην σύνδεση εννοιών με στόχο την δημιουργία σύνθετων μοντέλων. Υπάρχουν ωστόσο και περιπτώσεις που η ασάφεια χρησιμοποιείται άμεσα σε fuzzy SVMs, κατά κύριο όμως λόγο σε επαναληπτικές διαδικασίες μάθησης. Αντίθετα εμείς υλοποιούμε μία ευθεία διαδικασία εκτίμησης της ασάφειας κάθε δείγματος εκπαίδευσης, και διερευνούμε την επιρροή που έχουν στην απόδοση δείγματα μεγάλης ασάφειας. Επίσης, διερευνούμε παράλληλα διαδικασίες σχηματισμού συνόλων εκπαίδευσης από μεγάλα σύνολα βάσει της αξιοπιστίας των δειγμάτων τους.

23 Μέρος II Θεωρητικά στοιχεία

24

25 Κεφάλαιο 3 Μέθοδος συλλογής και συναρτήσεις ομοιότητας Στο κεφάλαιο αυτό, περιγράφεται ο τρόπος καθορισμού των εννοιών (concepts) που θα χρησιμοποιήσουμε στα πειράματά μας, ο τρόπος απόκτησης από το διαδίκτυο (downloading) υποψήφιων προς χρήση εικόνων, καθώς και η διαδικασία ανάθεσης μίας τιμής συσχέτισης (score) σε κάθε εικόνα για κάθε έννοια. Το πρώτο αυτό τμήμα της διπλωματικής έχει υλοποιηθεί σε ένα εργαλείο γραμμένο σε C++, με το όνομα linguistics. Το τμήμα αυτό της εργασίας βασίζεται σε μεγάλο βαθμό στη διπλωματική εργασία του Τριαντάφυλλου Τσιρέλη [33][34]. Συγκεκριμένα, ο βασικός τρόπος ορισμού των εννοιών που περιγράφεται στην επόμενη παράγραφο χρησιμοποιώντας το WordNet βασίζεται στο σχεδιασμό του Τ. Τσιρέλη. Επίσης, η χρήση ενός corpus και του δείκτη PMI, καθώς και συναρτήσεων μεγίστου και μέσου όρου για τον υπολογισμό συσχετίσεων αποτελεί το βασικό τμήμα της εργασίας του. Θα πρέπει ωστόσο να σημειωθεί ότι στα πλαίσια της παρούσας εργασίας, αν και αρχικά βασιστήκαμε σχεδόν απόλυτα στις επιλογές του Τ. Τσιρέλη, στη συνέχεια επανεξετάσαμε όλα τα σημεία της διαδικασίας που υλοποιήθηκε, και τα τροποποιήσαμε, με αποτέλεσμα να βελτιώσουμε σημαντικά την συμπεριφορά του συστήματος που περιγράφεται. 3. Έννοιες Όπως έχει αναφερθεί, σκοπός μας είναι η δημιουργία ταξινομητών SVM οι οποίοι θα αναγνωρίζουν την ύπαρξη ή απουσία μίας συγκεκριμένης έννοιας. Οι έννοιες αυτές καθορίζονται από τον άνθρωπο, και αρχικά μπορούν να αποδοθούν με μία πληθώρα τρόπων, για παράδειγμα χρησιμοποιώντας μία λέξη, όπως αυτοκίνητο, τραπέζι, βροχή, ευτυχία κλπ. Παρατηρούμε ότι δεν είναι απαραίτητο να αναφέρονται σε απτά αντικείμενα, όπως για παράδειγμα η έννοια που καθορίζεται από την λέξη ευτυχία. Επίσης, μπορούμε να χρησιμοποιήσουμε περισσότερες λέξεις, όπως κόκκινο αυτοκίνητο, τραπέζι με σερβιρισμένο φαγητό, βροχή σε αστικό περιβάλλον μέσα από παράθυρο. Ας σημειωθεί ότι αυτές οι έννοιες δεν είναι καλύτερα ορισμένες από τις προηγούμενες, αλλά μάλλον αποτελούν υποπεριπτώσεις αυτών. Τέλος, είναι δυνατή και η περιγραφή των εννοιών που ζητούμε να αναγνωρίσουμε και με πιο πολύπλοκους τρόπους, όπως συνδυασμός προτάσεων, με οπτικοακουστικό υλικό (πχ ταινίες, μουσική, κλπ) καθώς και άλλους γενικά τρόπους. Στα πλαίσια της παρούσας διπλωματικής, ο τρόπος καθορισμού κάθε έννοιας είναι συγκεκριμένος και περιγράφεται στις επόμενες παραγράφους. 3.. Καθορισμός από τον άνθρωπο Για τον καθορισμό μίας έννοιας, το σύστημα απαιτεί να δοθεί μία λέξη και ένα σύνολο λέξεων¹. Η λέξη αποτελεί μία μονολεκτική περιγραφή της έννοιας. Το σύνολο λέξεων αποτελείται από λέξεις οι οποίες σχετίζονται (σύμφωνα με την γνώμη του ανθρώπου που καθορίζει την έννοια) σε μεγάλο βαθμό με την έννοια. Οι 2 έννοιες που χρησιμοποιήσαμε στα πειράματά μας δίνονται στον πίνακα 3.. Όπως διαπιστώνεται και από τα παραδείγματα, απαιτούμε το σύνολο λέξεων κάθε έννοιας να περιλαμβάνει και την μονολεκτική περιγραφή της έννοιας. Θα αναφερόμαστε στο σύνολο αυτό με το σύμβολο C. ¹η παραδοχή αυτή συμπίπτει με την παραδοχή του Τ. Τσιρέλη

26 4 Κεφάλαιο 3. Μέθοδος συλλογής και συναρτήσεις ομοιότητας λέξη animal beach computer cow food frost house moon mountain person plane police reflection sky snow sun temple train tree waterfall window σύνολο λέξεων animal, nature, mammal, pet, wildlife, fauna, zoo beach, sand, sun, sea, water, summer, waves, ocean, umbrella, holidays computer, monitor, desk, workstation, keyboard, mouse, work, pc, laptop, office cow, milk, grass, farm, nature, ca le, moo, field food, kitchen, plate, breakfast, lunch, dessert, snack, fruit, vegetables, salad frost, ice, cold, snow, winter, nature, lake house, home, roof, door, window, building moon, luna, sky, satellite, craters, eclipse, night, crescent, moonlight mountain, landscape, outdoors, rocks, peak, hiking, travel, snow person, man, woman, self, human, people plane, aircra, airport, jet, aviation, sky, wing, clouds, air, cockpit, fuselage police, cop, street, securitym arrest, policeman, officer, crime reflection, mirror, water, sea, lake, surface, light sky, blue, clouds, sun, moon, stars, atmosphere, skyline snow, white, winter, mountain, cold, snowflake, landscape sun, sunlight, sky, sunset, sunrise, summer, sunray, sunglasses temple, priest, religion, mosaic, faith, prayer, god, church, architecture train, rails, subway, railway, travel, station, underground, transportation, metro tree, green, leaves, nature, landscape, trunk, woods waterfall, water, motion, nature, river, cascade window, house, curtain, light, view, glass, shu er, architecture Πίνακας 3.: Οι 2 έννοιες και τα σύνολα λέξεών τους που χρησιμοποιήσαμε 3..2 Διαδικασία επέκτασης Στη συνέχεια, προδιαγράφουμε μία διαδικασία επέκτασης, το πρώτο στάδιο της οποίας είναι η προσθήκη περισσότερων λέξεων για την περιγραφή της έννοιας. Αυτό επιτυγχάνεται με την χρήση του WordNet. Το WordNet είναι ένα λεξικό το οποίο περιλαμβάνει πολλές πληροφορίες και συσχετίσεις μεταξύ των λέξεών του, αφορά δε την αγγλική γλώσσα. Η διαδικασία που ακολουθείται είναι η ερώτηση του WordNet για κάθε μία λέξη του συνόλου C. Η απάντηση του WordNet δίνεται με μορφή υποσυνόλου, ή γενικότερα υποσυνόλων, τα οποία ονομάζονται synsets, καθένα εκ των οποίων περιέχει έναν αριθμό λέξεων. Κάθε υποσύνολο αντιστοιχεί σε μία διαφορετική σημασία² της λέξης. Φυσικά, εάν μία λέξη έχει μόνο μία σημασία, το WordNet επιστρέφει ως απάντηση ένα μόνο synset. Η ένωση όλων των υποσυνόλων όλων των απαντήσεων των ερωτημάτων για μία έννοια αποτελεί ένα νέο σύνολο, έστω W syns. Επιθυμούμε να αντιστοιχήσουμε την έννοια με ένα σύνολο λέξεων το οποίο να περιέχει το σύνολο C. Για το σκοπό αυτό, ορίζουμε αρχικά το προκαταρκτικό σύνολο έννοιας W init με την ακόλουθη σχέση. W init = W syns C (3.) Στην συνέχεια, το εργαλείο επεξεργάζεται κάθε λέξη του W init, αντικαθιστώντας όλα τα κεφαλαία γράμματα με τα πεζά, διαγράφοντας αριθμητικά ψηφία και χαρακτήρες όπως $, #, %, και έπειτα μετασχηματίζει την λέξη στο θέμα της χρησιμοποιώντας τον αλγόριθμο του Porter. Επίσης αφαιρούνται και οι λεγόμενες stop words³. Σε αυτό το στάδιο αφαιρούνται στοιχεία του συνόλου που πιθανώς υπάρχουν πάνω από μία φορά. Το σύνολο που προκύπτει μετά από τη διαδικασία αυτή είναι το σύνολο έννοιας, το οποίο συμβολίζουμε με W. Ακολούθως, αποδίδουμε σε κάθε λέξη του W έναν πραγματικό αριθμό, τον οποίο καλούμε (και στη συνέχεια χρησιμοποιούμε ως) βάρος⁴. Η διαδικασία είναι η ακόλουθη. Αρχικά υπολογίζουμε την συσχέτιση sim(w, C) κάθε λέξης w του W με το σύνολο C. Ο ορισμός της συσχέτισης μεταξύ μίας λέξης και ενός συνόλου λέξεων δίνεται στην παράγραφο Στην συνέχεια, κανονικοποιούμε γραμμικά το σύνολο A w των συσχετίσεων στο διάστημα [0, ], χρησιμοποιώντας την απλή σχέση weight(w) = sim(w, C) min{a w} max{a w } min{a w } (3.2) όπου A w = {sim(w, C) : w W }. Η ανάγκη κανονικοποίησης αναλύεται επίσης στην παράγραφο Η προκύπτουσα κανονικοποιημένη τιμή weight(w) της συσχέτισης κάθε λέξης αποτελεί ακριβώς το βάρος της λέξης. Έχοντας λοιπόν δημιουργήσει το σύνολο W και έχοντας καθορίσει την τιμή της ιδιότητας weight(w), έχουμε ορίσει πλήρως (για τα πλαίσια της εργασίας) μία έννοια. ²ως παράδειγμα αναφέρουμε τη λέξη ζυγός, όπου τρεις διαφορετικές σημασίες της είναι α) ακέραιο πολλαπλάσιο του 2, β) ζυγαριά, γ) ηλεκτρικός ζυγός ³λίγα περισσότερα για τις stop words στην παράγραφο Αʹ.2 ⁴η απόδοση βάρους σε κάθε λέξη του W είναι η πρώτη διαφοροποίηση σε σχέση με την εργασία του Τ. Τσιρέλη

27 3.2. Συσχέτιση εικόνας με έννοια Δημιουργία ερωτημάτων για διαδικτυακές συλλογές Έχοντας δημιουργήσει τα σύνολα W για κάθε έννοια που μας ενδιαφέρει, το επόμενο βήμα είναι να υπολογίσουμε το score όλων των υποψήφιων⁵ εικόνων. Οι εικόνες των οποίων των score θέλουμε να υπολογίσουμε προέρχονται γενικά από το διαδίκτυο. Στην συγκεκριμένη περίπτωση της εφαρμογής μας προέρχονται από το διαδικτυακό τόπο Ωστόσο, είναι αρκετά προφανές ότι δεν μπορούμε να υπολογίσουμε το score κάθε έννοιας σε κάθε εικόνα του Flickr. Ο βασικός λόγος είναι ότι ο αριθμός των διαθέσιμων εικόνων είναι υπερβολικά μεγάλος. Αντί αυτού, επιθυμούμε να συγκεντρώσουμε ένα υποσύνολο εικόνων του Flickr στο οποίο θα υπολογίσουμε τα score κάθε εικόνας του για κάθε έννοια και στη συνέχεια, διαλέγοντας με κάποιο κριτήριο εικόνες από αυτό το υποσύνολο, θα σχηματίσουμε τα σύνολα εκπαίδευσης. Για το σκοπό τούτο το σύστημα δημιουργεί μία σειρά ερωτημάτων (queries) για το Flickr. Η διαδικασία δημιουργίας ερωτημάτων μοιάζει με την επέκταση μέσω του WordNet του συνόλου C στο σύνολο W. Εδώ επεκτείνουμε το σύνολο W στο σύνολο Q, με παρόμοιο τρόπο. Η διαφορά είναι ότι δεν ζητούμε μόνο τα synsets της εκάστοτε λέξης, αλλά και τα synsets άλλων λέξεων που σχετίζονται με την αυτή με σχέσης συνωνυμίας, αντιονυμίας, γενίκευσης, ειδίκευσης, υποσυνόλου, μέρους κλπ, καθώς και λέξεις που υπάρχουν σε προτάσεις - παραδείγματα στο WordNet. Φυσικά, επαναλαμβάνουμε τα ίδια βήματα σχετικά με αφαίρεση αριθμητικών, εξαγωγής θέματος κλπ, που ακολουθήσαμε και πριν. Έχοντας δημιουργήσει το σύνολο Q, δημιουργούμε ερωτήματα μίας λέξης από τα στοιχεία του Q τα οποία καταθέτουμε στο Flickr και λαμβάνουμε λίστες αποτελεσμάτων (μήκους της επιλογής μας). Ας σημειωθεί ότι οι λίστες αυτές περιέχουν μόνο τα μετα-δεδομένα (metadata) κάθε εικόνας και όχι την ίδια την οπτική πληροφορία, γεγονός που μειώνει τον απαιτούμενο χρόνο εκτέλεσης, τις απαιτήσεις σε ταχύτητα σύνδεσης με το διαδίκτυο, και τον αποθηκευτικό χώρο. Στο σημείο αυτό έχουμε πλέον στην διάθεσή μας ένα σύνολο μετα-δεδομένων εικόνων. 3.2 Συσχέτιση εικόνας με έννοια Το επόμενο βήμα είναι η απόδοση ενός score για κάθε έννοια σε κάθε εικόνα του συνόλου που μόλις δημιουργήσαμε. Το score αυτό θα αποτελέσει σημαντική παράμετρο σε όλη την διάρκεια αυτής της εργασίας. Ακολουθεί ο τρόπος υπολογισμού με σχόλια και αιτιολογήσεις για τους διάφορους ευριστικούς μηχανισμούς που υιοθετούνται. Το υπολογιζόμενο score αποτελεί μία ποσοτική εκτίμηση του κατά πόσο μία εικόνα σχετίζεται με μία έννοια. Στο σημείο αυτό κάθε έννοια αναπαρίσταται από ένα σύνολο λέξεων (με ιδιότητα βάρους). Επίσης, και κάθε εικόνα αναπαρίσταται από ένα σύνολο λέξεων T, το οποίο περιέχει όλα τα tags που έχουν αποδώσει οι χρήστες στην εικόνα μέσω του Flickr. Συνεπώς το πρόβλημα υπολογισμού συσχέτισης μεταξύ εικόνας και έννοιας απλοποιείται στο πρόβλημα υπολογισμού της συσχέτισης δύο συνόλων λέξεων, του W και του T (όπου το W διαθέτει και βάρη για τα στοιχεία του) Συσχέτιση δύο λέξεων Αρχικά ορίζουμε την απόσταση μεταξύ δύο λέξεων. Για τον ορισμό μας θα βασιστούμε στον ορισμό ενός ευρέως χρησιμοποιούμενου δείκτη συσχέτισης, του PMI (pointwise mutual information) [5]. Για να είμαστε θέση να ορίσουμε τον δείκτη PMI, απαιτείται να διαθέτουμε ένα συγκεκριμένο corpus. Με τον όρο corpus αναφερόμαστε σε μία συλλογή κειμένων. Κάθε κείμενο περιέχει λέξεις, προτάσεις, ή και παραγράφους ολόκληρες. Στην δική μας περίπτωση χρησιμοποιούμε το ευρέως διαδεδομένο Brown Corpus. Το Brown Corpus περιλαμβάνει συνολικά 500 κείμενα των 2000 λέξεων περίπου. Έτσι λοιπόν ορίζουμε το PMI δύο λέξεων w και w 2 ως ( P MI(w, w 2 ) = ln N N ) c (3.3) N N 2 όπου N είναι ο αριθμός των κειμένων του corpus (500 για το Brown), N είναι ο αριθμός των κειμένων στα οποία εμφανίζεται η λέξη w, N 2 είναι ο αριθμός των κειμένων στα οποία εμφανίζεται η λέξη w 2 και N c ο αριθμός των κειμένων στα οποία εμφανίζονται και οι δύο λέξεις w και w 2. Ωστόσο εμείς χρησιμοποιούμε έναν διαφορετικό τρόπο υπολογισμού της συσχέτισης μεταξύ δύο λέξεων⁶. Οι λόγοι γίνονται προφανείς αν παρατηρήσουμε τα παρακάτω. Αρχικά παρατηρούμε ότι 0 N i N, i {, 2, c}. Στη συνέχεια παρατηρούμε ότι αν N c = 0 και N 0 και N 2 0, τότε P MI. Δηλαδή, στην περίπτωση αυτή οι λέξεις w και w 2 είναι παντελώς ασυσχέτιστες. Όμοια και στην περίπτωση όπου N c = 0 και N N 2 = 0. Θεωρούμε δηλαδή ότι και σε αυτή την περίπτωση οι δύο λέξεις είναι εντελώς ασυσχέτιστες. Γενικά μπορούμε να πούμε ότι αν για μία λέξη w i είναι N i = 0 τότε η λέξη w δεν εμφανίζεται σε κανένα κείμενο του corpus, συνεπώς δεν μπορούμε να εξάγουμε καμία ⁵υποψήφιων ως προς την συμμετοχή τους στο σύνολο εκπαίδευσης για κάθε έννοια ⁶και διαφοροποιούμαστε από την προσέγγιση του Τ. Τσιρέλη η οποία χρησιμοποιούσε μία απλοποιημένη εκδοχή του PMI

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ασάφεια (Fuzziness) Ποσοτικοποίηση της ποιοτικής πληροφορίας Οφείλεται κυρίως

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ Μαθηματικά Σταύρος Παπαϊωάννου Ιούνιος 015 Τίτλος Μαθήματος Περιεχόμενα Χρηματοδότηση... Error! Bookmark not defined. Σκοποί Μαθήματος (Επικεφαλίδα

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium Iii Η Κανονική Κατανομή Λέμε ότι μία τυχαία μεταβλητή X, ακολουθεί την Κανονική Κατανομή με παραμέτρους και και συμβολίζουμε X N, αν έχει συνάρτηση πυκνότητας

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ ΠΛΗ 53 Αυτόνομοι Πράκτορες Εύρεση του utility χρηστών με χρήση Markov chain Monte Carlo Παπίλαρης Μιχαήλ Άγγελος 29349 Περίληψη Η εργασία

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Συμπληρωματικές σημειώσεις για τον μηχανισμό VCG 1 Εισαγωγή στις Συνδυαστικές

Διαβάστε περισσότερα

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan)

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan) On-the-fly feedback, Upper Secondary Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan) Τάξη: Β Λυκείου Διάρκεια ενότητας Μάθημα: Φυσική Θέμα: Ταλαντώσεις (αριθμός Χ διάρκεια μαθήματος): 6X90

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ασαφής Λογική (Fuzzy Logic)

Ασαφής Λογική (Fuzzy Logic) Ασαφής Λογική (Fuzzy Logic) Ασάφεια: έννοια που σχετίζεται με την ποσοτικοποίηση της πληροφορίας και οφείλεται κυρίως σε μη-ακριβή (imprecise) δεδομένα. Π.χ. "Ο Νίκος είναι ψηλός": δεν προσδιορίζεται με

Διαβάστε περισσότερα

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 1η Classification

Αναγνώριση Προτύπων Εργασία 1η Classification ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,

Διαβάστε περισσότερα

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Οικονομικό Πανεπιστήμιο Αθηνών Πρόγραμμα Μεταπτυχιακών Σπουδών «Επιστήμη των Υπολογιστών» Διπλωματική Εργασία Μαρία-Ελένη Κολλιάρου 2

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ ΕΞΕΤΑΣΕΩΝ Μ ΑΪΟΥ 2002 2004 Δ ΕΥΤΕΡΟ ΜΕΡΟΣ Π ΕΡΙΛΗΨΗ: Η μελέτη αυτή έχει σκοπό να παρουσιάσει και να ερμηνεύσει τα ευρήματα που προέκυψαν από τη στατιστική

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ H O G feature descriptor global feature the most common algorithm associated with person detection Με τα Ιστογράμματα της Βάθμωσης (Gradient) μετράμε τον προσανατολισμό και την ένταση της βάθμωσης σε μία

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr Βασίλης Κατσάρης, telia.co.gr Σύνοψη Το σύστημα ΕΥΡΗΚΑ

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΜΕΡΛΙΑΟΥΝΤΑΣ ΣΤΕΦΑΝΟΣ, ΠΕ19 ΚΕΦΑΛΑΙΟ 3 Αλγόριθμοι 3. Αλγόριθμοι 2 3. Αλγόριθμοι 3.1 Η έννοια του αλγορίθμου 3.2 Χαρακτηριστικά αλγορίθμου 3.3 Ανάλυση αλγορίθμων

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Μεθοδολογία ερευνητικής εργασίας

Μεθοδολογία ερευνητικής εργασίας Μεθοδολογία ερευνητικής εργασίας Σύντομος οδηγός επιβίωσης Μεθοδολογία Ερευνητικής Εργασίας: Γ. Τράπαλης & Ά. Μητρέλης 1 Τι είναι Έρευνα: η παραγωγή πρωτότυπων αποτελεσμάτων μέσω της συστηματικής, ορθολογικής

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 1ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 3: ΟΡΙΑ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

ΚΕΦΑΛΑΙΟ 1ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 3: ΟΡΙΑ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ ΚΕΦΑΛΑΙΟ ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ : ΟΡΙΑ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ Η έννοια του ορίου στο x ο Υπάρχουν συναρτήσεις οι τιμές των οποίων πλησιάζουν ένα πραγματικό αριθμό L, όταν η ανεξάρτητη μεταβλητή

Διαβάστε περισσότερα

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΤΟΠΟΓΡΑΦΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΧΑΡΤΟΓΡΑΦΙΑΣ ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ

Διαβάστε περισσότερα

Τρόποι αναπαράστασης των επιστημονικών ιδεών στο διαδίκτυο και η επίδρασή τους στην τυπική εκπαίδευση

Τρόποι αναπαράστασης των επιστημονικών ιδεών στο διαδίκτυο και η επίδρασή τους στην τυπική εκπαίδευση Τρόποι αναπαράστασης των επιστημονικών ιδεών στο διαδίκτυο και η επίδρασή τους στην τυπική εκπαίδευση Κ. Χαλκιά Εθνικόν και Καποδιστριακόν Πανεπιστήμιον Αθηνών 2 Το διαδίκτυο: αποτελεί ένα νέο διδακτικό

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ ΚΕΦΑΛΑΙΟ ΔΙΑΤΑΞΕΙΣ ΜΕΤΑΘΕΣΕΙΣ ΣΥΝΔΥΑΣΜΟΙ Εισαγωγή. Οι σχηματισμοί που προκύπτουν με την επιλογή ενός συγκεκριμένου αριθμού στοιχείων από το ίδιο σύνολο καλούνται διατάξεις αν μας ενδιαφέρει η σειρά καταγραφή

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ποσοτικές Μέθοδοι Ανάλυσης στις Ενότητα 5: Ανάλυση στοιχείων. Θεόδωρος Χατζηπαντελής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Τι είναι η ερευνητική εργασία Η ερευνητική εργασία στο σχολείο είναι μια δυναμική διαδικασία, ανοιχτή στην αναζήτηση για την κατανόηση του πραγματικού κόσμου.

Διαβάστε περισσότερα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ρ. Χαράλαµπος Π. Στρουθόπουλος Αναπληρωτής Καθηγητής

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Πρόκειται για την έρευνα που διεξάγουν οι επιστήμονες. Είναι μια πολύπλοκη δραστηριότητα που απαιτεί ειδικό ακριβό

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΕΛΕΤΗ ΓΙΑ ΤΗΝ ΕΚΤΙΜΗΣΗ ΤΗΣ ΑΛΗΘΟΦΑΝΕΙΑΣ ΤΩΝ ΧΩΡΙΚΩΝ ΣΧΕΣΕΩΝ (COGNITIVE PLAUSIBILITY ASSESSMENT)... 2 ΣΥΝΔΥΑΣΜΟΣ ΤΟΠΟΛΟΓΙΚΩΝ ΚΑΙ ΚΑΤΕΥΘΥΝΤΗΡΙΩΝ ΣΧΕΣΕΩΝ ΣΕ ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ...

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΤΗΣ ΧΩΡΙΚΗΣ ΔΟΜΗΣ ΤΗΣ ΒΡΟΧΗΣ. Παρουσίαση διπλωματικής εργασίας Αθανάσιος Πασχάλης Επιβλέπων καθηγητής: Δημήτρης Κουτσογιάννης

ΣΤΟΧΑΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΤΗΣ ΧΩΡΙΚΗΣ ΔΟΜΗΣ ΤΗΣ ΒΡΟΧΗΣ. Παρουσίαση διπλωματικής εργασίας Αθανάσιος Πασχάλης Επιβλέπων καθηγητής: Δημήτρης Κουτσογιάννης ΣΤΟΧΑΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΤΗΣ ΧΩΡΙΚΗΣ ΔΟΜΗΣ ΤΗΣ ΒΡΟΧΗΣ Παρουσίαση διπλωματικής εργασίας Αθανάσιος Πασχάλης Επιβλέπων καθηγητής: Δημήτρης Κουτσογιάννης Διάρθρωση ρ της παρουσίασης Εισαγωγή Στατιστική επεξεργασία

Διαβάστε περισσότερα

Μ Α Θ Η Μ Α Τ Α Γ Λ Υ Κ Ε Ι Ο Υ

Μ Α Θ Η Μ Α Τ Α Γ Λ Υ Κ Ε Ι Ο Υ Μ Α Θ Η Μ Α Τ Α Γ Λ Υ Κ Ε Ι Ο Υ ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΚΑΙ ΣΠΟΥΔΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ (Α ΜΕΡΟΣ: ΣΥΝΑΡΤΗΣΕΙΣ) Επιμέλεια: Καραγιάννης Ιωάννης, Σχολικός Σύμβουλος Μαθηματικών

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΔΕΔΟΜΕΝΑ Δεδομένα μπορούν να αποκτηθούν στα πλαίσια διαφόρων εφαρμογών, χρησιμοποιώντας, όπου είναι απαραίτητο, κατάλληλο εξοπλισμό. Μερικά παραδείγματα

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

Στ Τάξη. Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1

Στ Τάξη. Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1 Ενδεικτική Οργάνωση Ενοτήτων Στ Τάξη Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1 15 Αρ3.1 Απαγγέλουν, διαβάζουν, γράφουν και αναγνωρίζουν ποσότητες αριθμών Επανάληψη μέχρι το 1 000

Διαβάστε περισσότερα

Εφαρμοσμένη Βελτιστοποίηση

Εφαρμοσμένη Βελτιστοποίηση Εφαρμοσμένη Βελτιστοποίηση Ενότητα 1: Το πρόβλημα της βελτιστοποίησης Καθηγητής Αντώνιος Αλεξανδρίδης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σημείωμα Αδειοδότησης Το

Διαβάστε περισσότερα

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) Θεοχαράτος Χρήστος Εργαστήριο Ηλεκτρονικής (ELLAB), Τµήµα Φυσικής, Πανεπιστήµιο Πατρών email: htheohar@upatras.gr http://www.ellab.physics.upatras.gr/users/theoharatos/default.htm

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων

Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων Copyright 2009 Cengage Learning 8.1 Συναρτήσεις Πυκνότητας Πιθανοτήτων Αντίθετα με τη διακριτή τυχαία μεταβλητή που μελετήσαμε στο Κεφάλαιο 7, μια συνεχής τυχαία

Διαβάστε περισσότερα

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques) Αναγνώριση Προτύπων Μη παραμετρικές τεχνικές Αριθμητικά Παραδείγματα (Non Parametric Techniques) Καθηγητής Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη 19ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών, 3-5 Νοεμβρίου 2010, Αθήνα Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη Άννα Μάστορα (1) Μαρία Μονόπωλη (2) Σαράντος Καπιδάκης

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet Σημασιολογικά Δίκτυα Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών. Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές

Διαβάστε περισσότερα

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος Αναστασιάδης Αντώνιος Τα ιστολόγια σήμερα Διπλωματική Εργασία Η σημασία των πληροφοριών των ιστολόγιων Μέθοδοι κατάτμησης ιστολόγιων Αξιολόγηση κατάτμησης Ταξινόμηση καταχωρήσεων Αξιολόγηση ταξινόμησης

Διαβάστε περισσότερα

Τίτλος Πακέτου Certified Computer Expert-ACTA

Τίτλος Πακέτου Certified Computer Expert-ACTA Κωδικός Πακέτου ACTA - CCE - 002 Τίτλος Πακέτου Certified Computer Expert-ACTA Εκπαιδευτικές Ενότητες Επεξεργασία Κειμένου - Word Δημιουργία Εγγράφου Προχωρημένες τεχνικές επεξεργασίας κειμένου & αρχείων

Διαβάστε περισσότερα

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης 1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης Στη συγκεκριμένη ενότητα εξετάζουμε θέματα σχετικά με την αριθμητική πεπερασμένης ακρίβειας που χρησιμοποιούν οι σημερινοί υπολογιστές και τα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Εισαγωγή στους Υπολογιστές

Εισαγωγή στους Υπολογιστές Εισαγωγή στους Υπολογιστές Ενότητα #2: Αναπαράσταση δεδομένων Αβεβαιότητα και Ακρίβεια Καθ. Δημήτρης Ματαράς Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών Αναπαράσταση δεδομένων (Data Representation), Αβεβαιότητα

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2 (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: lzabetak@dpem.tuc.gr Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ 28210 37323 Διάλεξη 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

Αβεβαιότητα που εισάγεται στη μέτρηση ραδιενέργειας εδάφους από τα σφάλματα ορισμού δειγματοληψίας

Αβεβαιότητα που εισάγεται στη μέτρηση ραδιενέργειας εδάφους από τα σφάλματα ορισμού δειγματοληψίας Αβεβαιότητα που εισάγεται στη μέτρηση ραδιενέργειας εδάφους από τα σφάλματα ορισμού δειγματοληψίας Γ.Ν. Παπαδάκος, Δ.Ι. Καράγγελος, Ν.Π. Πετρόπουλος, Μ.Ι. Αναγνωστάκης, Ε.Π. Χίνης, Σ.Ε. Σιμόπουλος Τομέας

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα

Διαβάστε περισσότερα

710 -Μάθηση - Απόδοση

710 -Μάθηση - Απόδοση 710 -Μάθηση - Απόδοση Διάλεξη 6η Ποιοτική αξιολόγηση της Κινητικής Συμπεριφοράς Παρατήρηση III Η διάλεξη αυτή περιλαμβάνει: Διαδικασία της παρατήρησης & της αξιολόγησης Στόχοι και περιεχόμενο παρατήρησης

Διαβάστε περισσότερα