Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας"

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας Semi-supervised classifier training for content-based image retrieval from samples with label uncertainty Βασίλειος Παπαπαναγιώτου ΑΕΜ: Επιβλέπων καθηγητής: Αναστάσιος Ντελόπουλος Οκτώβρης 203

2

3 Περίληψη Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας Στην παρούσα διπλωματική εργασία ασχολούμαστε με την ημι-εποπτευόμενη εκπαίδευση ταξινομητών τύπου SVM (Support vector machines) για την ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο. Προσπαθώντας να εκμεταλλευτούμε εικόνες οι οποίες βρίσκονται σε μεγάλες συλλογές διαθέσιμες στο διαδίκτυο, δημιουργήσαμε έναν αυτοματοποιημένο τρόπο εξερεύνησης τέτοιων συλλογών (συγκεκριμένα της συλλογής του Flickr) και συγκέντρωσης πιθανών εικόνων που μπορεί να συμμετέχουν σε μία διαδικασία εκπαίδευσης. Ωστόσο, τέτοιες διαδικτυακές συλλογές χαρακτηρίζονται γενικά από σημαντικό βαθμό θορύβου. Για τον λόγο αυτό δημιουργήσαμε έναν μηχανισμό αξιολόγησης, ο οποίος χρησιμοποιεί την λεκτική πληροφορία που έχουν καταθέσει χρήστες τέτοιων συστημάτων με την μορφή των tags. Στη συνέχεια αναπτύξαμε ένα μοντέλο απεικόνισης της αξιοπιστίας σε πιθανότητες και σε βάρη αξιοπιστίας που χρησιμοποιήθηκαν σε ταξινομητές fuzzy SVM. Χρησιμοποιώντας τις τιμές των scores διερευνούμε διαφορετικές μεθόδους δημιουργίας βέλτιστων και μικρών συνόλων εκπαίδευσης. Τέλος, διερευνήσαμε μεθόδους για την βελτίωση της απόδοσης των ταξινομητών με τη χρήση των βαρών αξιοπιστίας των δειγμάτων. Αποδεικνύεται πειραματικά ότι τα βάρη επιτυγχάνουν σημαντική βελτίωση στην επίδοση των ταξινομητών, επιτυγχάνοντας βελτίωση ως προς τον απλό SVM η οποία ορισμένες φορές ξεπερνά και το 00%.

4

5 Abstract Semi-supervised classifier training for content-based image retrieval from samples with label uncertainty In this work we tackle the issue of semi-supervised learning for classifier training in content based image retrieval. In an a empt to utilize images in huge online collections we have outlined and built an automated way of exploring such collections (our case being Flickr) and obtaining images that are likely to be used in such training procedures. However, such online collections contain a significant amount of erroneous information (noise). As a result, we have created a novel evaluation system that utilizes textual information assigned to images from users, in the form of tags. We subsequently developed a model for mapping the trust values to probabilities and weighting values for fuzzy SVM classifiers. Using the score values, we examined various strategies for obtaining such a robust and significantly small training set. We conclude that the use of such weighting values improve the classifier performance, achieving imporovement greater than 00% in certain cases.

6

7 Περιεχόμενα Περίληψη - abstract Περιεχόμενα Κατάλογος Σχημάτων Κατάλογος Πινάκων iii vii xii xiv I Εισαγωγή Εισαγωγικά 3. Ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο Γενικά περί ταξινομητών Στόχος της εργασίας Βιβλιογραφική επισκόπηση 7 2. Αξιοποίηση tags σε ταξινομητές Υπολογισμός πιθανότητας και κατανομών από εξόδους συστημάτων αξιολόγησης Αναζήτηση εικόνων με fuzzy SVMs Πλαίσιο της εργασίας II Θεωρητικά στοιχεία 5 3 Μέθοδος συλλογής και συναρτήσεις ομοιότητας 7 3. Έννοιες Καθορισμός από τον άνθρωπο Διαδικασία επέκτασης Δημιουργία ερωτημάτων για διαδικτυακές συλλογές Συσχέτιση εικόνας με έννοια Συσχέτιση δύο λέξεων Συσχέτιση λέξης και συνόλου λέξεων Συσχέτιση δύο συνόλων λέξεων Πειράματα αξιολόγησης ανάκτησης εννοιών με βάση τα tags Average precision και καμπύλες precision-at-k Πειραματικά δεδομένα Aποτελέσματα Απεικόνιση scores σε πιθανότητες Προσέγγιση κατανομών Εκτίμηση πιθανότητας ως προς score Υπολογισμός κατωφλιών scores Αποτελέσματα Ταξινομητές SVM και feature vectors Γενικά Fuzzy SVM Bilateral SVM Αξιοποίηση βαρών στην εκπαίδευση

8 viii Περιεχόμενα 5.5 Έξοδος ενός SVM Πειράματα με χρήση αβεβαιότητας σε ταξινομητές SVM 4 6. Συλλογή εικόνων Επιλογή παραμέτρων Εφαρμογή SVMs σε σύνολα διαφορετικής ποιότητας Σύνολα υψηλής αξιοπιστίας - Προτεινόμενη στρατηγική Σύνολα μη υψηλής αξιοπιστίας Σύνολα με μεγάλη διασπορά στην αξιοπιστία Σύνολα με χαμηλή αξιοπιστία Επαναληπτικές μέθοδοι ανατροφοδότησης III Επίλογος 57 7 Συμπεράσματα Γενικές παρατηρήσεις Προτάσεις βελτίωσης και περαιτέρω διερεύνησης IV Παραρτήματα 63 Αʹ Το εργαλείο linguistics 65 Αʹ. Βιβλιοθήκες C Αʹ.. Flickr API Αʹ..2 Porter stemmer Αʹ..3 Wordnet Αʹ..4 XML Αʹ.2 Βιβλιοθήκες Python Αʹ.3 Χρήση του εργαλείου linguistics Αʹ.4 Λειτουργικότητα των κλάσεων Αʹ.5 Παράδειγμα χρήσης Βʹ Προδιαγραφές αρχείων XML 7 Βʹ. Corpus Βʹ.2 Σύνολα εννοιών Βʹ.3 Μετα-δεδομένα Βʹ.4 Εικόνες με scores Γʹ Υλοποίηση πειραμάτων SVMs 75 Δʹ Αποδείξεις 77 Δʹ. Επιλογή κατωφλίου για την συνάρτηση συσχέτισης λέξης με λέξη Δʹ.2 Απόδειξη της σχέσης Δʹ.3 Υλοποίηση bilateral SVM με fuzzy SVM Βιβλιογραφία

9 Κατάλογος σχημάτων. Μία εικόνα του Flickr, η οποία απεικονίζει ένα δέντρο, και δίπλα τμήμα της πληροφορίας που σχετίζεται με αυτή, συμπεριλαμβανομένης και αυτής των tags Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες animal, beach, computer, cow, food και frost Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες house, moon, mountain, person, plane και police Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες reflection, sky, snow, sun, temple και train Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες tree, waterfall και window Κατανομές και καμπύλες Probability - Score για την έννοια animal Κατανομές και καμπύλες Probability - Score για τις έννοιες beach, computer, cow, food, frost και house Κατανομές και καμπύλες Probability - Score για τις έννοιες moon, mountain, person, plane, police και reflection Κατανομές και καμπύλες Probability - Score για τις έννοιες sky, snow, sun, temple, train και tree Κατανομές και καμπύλες Probability - Score για τις έννοιες waterfall και window Πείραμα 4: Μεταβολή του average precision στις 20 επαναλήψεις για κάθε έννοια, με χρήση fuzzy SVM και βάρη από τις πιθανότητες Πείραμα 5: Μεταβολή του average precision στις 20 επαναλήψεις για κάθε έννοια, με χρήση fuzzy SVM και βάρη από τα scores

10

11 Κατάλογος πινάκων 3. Οι 2 έννοιες και τα σύνολα λέξεών τους που χρησιμοποιήσαμε Average precision για τις 2 έννοιες Πείραμα : 30 εικόνες με το μεγαλύτερο score και 30 με το μικρότερο Πείραμα 2: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο Πείραμα 3: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο, με RBF πυρήνα Πείραμα 4: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο, με bilateral SVMs Πείραμα 5: Ομοιόμορφη κατανομή ως προς τα scores Πείραμα 6: Ομοιόμορφη κατανομή ως προς την πιθανότητα Pr{true S} Πείραμα 7: Ομοιόμορφη κατανομή ως προς τα scores και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 8: Ομοιόμορφη κατανομή ως προς την πιθανότητα Pr{true S} και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 9: Ομοιόμορφη κατανομή ως προς τα scores, και bilateral SVMs Πείραμα 0: Τυχαία επιλογή 000 εικόνων σε 0 Monte Carlo εκτελέσεις Πείραμα : Τυχαία επιλογή 000 εικόνων σε 0 Monte Carlo εκτελέσεις και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 2: Κανονική (gaussian) κατανομή ως προς τα scores Πείραμα 3: Κανονική (gaussian) κατανομή ως προς τα scores, με RBF πυρήνα Πείραμα 4: Επαύξηση του συνόλου εκπαίδευσης με εικόνες μεσαίας και μεγάλης αξιοπιστίας οι οποίες βρίσκονται κοντύτερα στο διαχωριστικό υπερ-επίπεδο του SVM Πείραμα 5: Επαύξηση του συνόλου εκπαίδευσης με εικόνες μεσαίας και μεγάλης αξιοπιστίας από τα άκρα της λίστας αποτελεσμάτων

12 xii Κατάλογος πινάκων

13 Μέρος I Εισαγωγή

14

15 Κεφάλαιο Εισαγωγικά Στην προσπάθεια δημιουργίας έξυπνων μηχανών, οι οποίες μπορούν να αναγνωρίζουν, σε ένα βαθμό όπως και ο άνθρωπος, έννοιες (concepts) οι οποίες βρίσκονται σε περιεχόμενο πολυμέσων, έχει δημιουργηθεί μία σειρά αλγορίθμων, oι οποίοι βασίζονται στη χρήση ταξινομητών (και αναφέρονται στη διεθνή βιβλιογραφία με τον όρο concept based retrieval ). Σημαντικό κομμάτι ενός ταξινομητή, πέρα φυσικά από τον ίδιο τον τρόπο λειτουργίας του, είναι ο τρόπος με τον οποίο αντιλαμβάνεται την έννοια που καλείται να αναγνωρίσει. Ο τρόπος αυτός προέρχεται από μία διαδικασία εκπαίδευσης πάνω σε ένα σύνολο δειγμάτων, καθένα από τα οποία σημειώνεται ως σχετικό ή μη σχετικό για την έννοια, υπονοώντας ότι η έννοια εμφανίζεται ή όχι στο κάθε δείγμα. Σημαντικό κομμάτι, αν όχι το σημαντικότερο, στην αποτελεσματικότητα του παραγόμενου ταξινομητή είναι η ποιότητα του συνόλου εκπαίδευσης. Τα χαρακτηριστικά του συνόλου καθώς και ο τρόπος δημιουργίας του δεν προκαθορίζονται από κάποια διαδικασία, αλλά παραμένουν μέχρι και σήμερα ένα ανοιχτό ερευνητικό αντικείμενο. Για παράδειγμα, θα ήταν λογικό να υποθέσουμε ότι ένα τέτοιο σύνολο πρέπει να είναι αρκετά ενδεικτικό των περιπτώσεων που θα κληθεί να αντιμετωπίσει ο ταξινομητής. Ωστόσο κάτι τέτοιο είναι απλά μία διαισθητική παρατήρηση, η οποία μέχρι στιγμής δεν έχει τεκμηριωθεί.. Ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο Στην παρούσα διπλωματική ασχολούμαστε με την ανάκτηση εικόνων με συγκεκριμένο εννοιολογικό ή σημασιολογικό περιεχόμενο χρησιμοποιώντας την οπτική τους πληροφορία (και όχι την συνοδεύουσα λεκτική). Χρησιμοποιούμε ταξινομητές τύπου SVM, καθότι θεωρούνται οι πλέον αποτελεσματικοί σε τέτοιου είδους εφαρμογές. Η συγκεκριμένη προσέγγιση παρουσιάζει ένα σημαντικό πλεονέκτημα έναντι της ανάκτησης χρησιμοποιώντας την συνοδευτική λεκτική πληροφορία, η οποία είναι η ανάκτηση μεγαλύτερου αριθμού εικόνων, καθώς η λεκτική πληροφορία που υπάρχει δεν είναι απόλυτα ορθή, και κυρίως δεν είναι πλήρης (δεν περιλαμβάνει δηλαδή όλες τις έννοιες που μπορεί να εμφανίζονται σε μία εικόνα). Συγκεκριμένα ασχολούμαστε με το πρόβλημα δημιουργίας ενός (καλού) συνόλου εκπαίδευσης. Η δημιουργία τέτοιων συνόλων μπορεί να γίνει με διάφορους τρόπους, όπως για παράδειγμα με χειροκίνητη συλλογή εικόνων από τον άνθρωπο, και με οπτική διαπίστωση για το αν περιέχουν ή όχι την έννοια. Μία τέτοια προσέγγιση ωστόσο απαιτεί μεγάλο κόπο από τον άνθρωπο, και περιορίζει σημαντικά το μέγεθος των εξεταζόμενων εικόνων. Για το λόγο αυτό γίνεται μία προσπάθεια εκμετάλλευσης διαδικτυακών συλλογών εικόνων. Οι συλλογές αυτές είναι προσβάσιμες στον απλό χρήστη συνήθως μέσω κάποιας ιστοσελίδας, από την οποία μπορεί να καταθέτει ή να λαμβάνει εικόνες που έχουν καταθέσει άλλοι. Τέτοιες ιστοσελίδες επιτρέπουν και την προσθήκη επιπλέον πληροφορίας, ως επί το πλείστον σε λεκτική μορφή. Η πληροφορία αυτή είναι (συνήθως) σχετική με το περιεχόμενό τους και έχει κατατεθεί από ανθρώπους με την μορφή των tags. Η χρήση των tags είναι ιδιαίτερα διαδεδομένη στις μέρες μας, όχι μόνο σε εφαρμογές σχετικές με εικόνες, αλλά και με οποιοδήποτε είδος πολυμέσων, όπως βίντεο (πχ YouTube) και μουσική (πχ mp3 tags). Τα tags είναι στη πραγματικότητα λέξεις, τις οποίες κάποιος άνθρωπος έχει αντιστοιχήσει σε ένα πολυμεσικό αντικείμενο. Κάτι τέτοιο προϋποθέτει από τον δημιουργό ή τον κάτοχο ή τον διαχειριστή της συλλογής των πολυμέσων την παροχή κατάλληλης υποδομής. Μία τέτοια συλλογή, την οποία χρησιμοποιούμε στην παρούσα εργασία, είναι το Flickr¹. Το Flickr είναι ένας δικτυακός τόπος στον οποίο εγγεγραμμένοι χρήστες μπορούν να καταθέτουν φωτογραφίες, συνοδευμένες (προαιρετικά) από μία σειρά πληροφοριών, με σημαντικότερη αυτή των tags, λέξεων δηλαδή οι οποίες σχετίζονται - σύμφωνα με την άποψη του χρήστη - με την φωτογραφία. Χαρακτηριστικά που αξίζει να σημειωθούν για τέτοιου είδους συλλογές είναι ο μεγάλος, και συνεχώς αυξανόμενος, όγκος τους, η ποικιλία στα tags (για παράδειγμα στον αριθμό, το βαθμό λεπτομέρειας, πληρότητας αλλά και άλλων χαρακτηριστικών). Αξίζει επίσης να σημειωθεί ότι δεν υπάρχει κανένας απολύτως μηχανισμός (είτε αυτόματος είτε χειροκίνητος) ελέγχου των tags που αποδίδονται στις εικόνες από τους χρήστες. Αυτό έχει ως αποτέλεσμα η πληροφορία αυτή (των tags) να περιέχει γενικά πολύ θόρυβο. ¹www.flickr.com

16 4 Κεφάλαιο. Εισαγωγικά Σχήμα.: Μία εικόνα του Flickr, η οποία απεικονίζει ένα δέντρο, και δίπλα τμήμα της πληροφορίας που σχετίζεται με αυτή, συμπεριλαμβανομένης και αυτής των tags.2 Γενικά περί ταξινομητών Όπως αναφέρθηκε, οι ταξινομητές είναι στην πραγματικότητα μέθοδοι (ή αλγόριθμοι) οι οποίοι έχουν μία είσοδο και μία έξοδο. Ο τύπος της εισόδου μπορεί να ποικίλει, και μπορεί να είναι ένας αριθμός, πολλοί αριθμοί σε διατάξεις όπως διάνυσμα, πίνακας κπλ, ή και πιο σύνθετες διατάξεις. Το ίδιο ισχύει και για την έξοδο. Αυτό που ως επί το πλείστον ισχύει όμως είναι η περίπτωση όπου η είσοδος είναι ένα διάνυσμα, και η έξοδος ένα μονοδιάστατο μέγεθος. Πολλές φορές, η έξοδος μπορεί να είναι μία λογική μεταβλητή, η οποία συνήθως καθορίζεται από το πρόσημο μίας εσωτερικής μονοδιάστατης αριθμητικής μεταβλητής. Ο τύπος της εισόδου και της εξόδου καθορίζεται από τον ίδιο τον ταξινομητή. Ανάλογα δηλαδή με την δομή και τον τρόπο λειτουργίας, κάθε ταξινομητής ενδέχεται να έχει (πρακτικά έχει πάντα) περιορισμούς για τις παραμέτρους αυτές. Ο τρόπος αξιοποίησης των ταξινομητών είναι συνήθως ο ακόλουθος. Έστω ότι μας ενδιαφέρει να αναγνωρίσουμε την ύπαρξη 3 διαφορετικών εννοιών σε μία εικόνα. Για να το πετύχουμε αυτό, χρειαζόμαστε 3 διαφορετικούς ταξινομητές. Ο κάθε ένας αποφασίζει για μία συγκεκριμένη έννοια. Αυτό που πρέπει να σημειωθεί είναι ότι όταν λέμε 3 διαφορετικούς ταξινομητές, δεν εννοούμε ταξινομητές 3 διαφορετικών τύπων. Συνήθως σε κάθε εφαρμογή χρησιμοποιείται ένα μόνο είδος ταξινομητή. Για παράδειγμα στην παρούσα εργασία χρησιμοποιούνται ταξινομητές τύπου SVM. Εξαίρεση αποτελούν διαδικασίες σύγκρισης των αποδόσεων ταξινομητών διαφορετικών ειδών (benchmarking). Επίσης αναφέρουμε ενδεικτικά μερικά είδη ταξινομητών πέραν του SVM, όπως τα νευρωνικά δίκτυα, οι πιθανοτικοί ταξινομητές, ταξινομητές ομαδοποίησης (clustering) όπως πχ ο k-nn και ο k-means. Από τα παραπάνω εύκολα μπορεί κανείς να αναρωτηθεί το εξής (μιλώντας για το παράδειγμα που αναφέραμε). Εφόσον έχουμε 3 ταξινομητές ίδιου τύπου, τι είναι αυτό που τους διαφοροποιεί; Η απάντηση είναι η ακόλουθη. Κάθε τύπος ταξινομητή είναι ένας συγκεκριμένος αλγόριθμος. Ή, σε μία πιο προγραμματιστικά στοχευμένη διατύπωση, ένα συγκεκριμένο πρόγραμμα. Ο αλγόριθμος αυτός (ή το πρόγραμμα) περιέχει μια σειρά παραμέτρων, η οποίες επηρεάζουν το τελικό αποτέλεσμα κάθε απόφασης. Συνεπώς αυτό που διαφοροποιεί δύο ταξινομητές ίδιου τύπου με τα ίδια ακριβώς χαρακτηριστικά εισόδου και εξόδου οι οποίοι αποφαίνονται για διαφορετικές έννοιες είναι οι διαφορετικές τιμές των παραμέτρων που υπεισέρχονται. Η διαδικασία ρύθμισης των παραμέτρων αυτών είναι η διαδικασία εκπαίδευσης, κυρίαρχο τμήμα της οποίας είναι το σύνολο εκπαίδευσης το οποίο έχουμε ήδη αναφέρει. Οι διαδικασίες εκπαίδευσης είναι και αυτές γενικά αλγόριθμοι (πχ εξελικτικοί αλγόριθμοι), ωστόσο ο τρόπος λειτουργίας τους δεν θα μας απασχολήσει ιδιαίτερα. Συνεχίζοντας στο παράδειγμά μας, το σύνολο εκπαίδευσης για κάθε ταξινομητή είναι ένα σύνολο εικόνων, μαζί με την πληροφορία για το αν περιέχουν την ζητούμενη έννοια. Δεν απαιτείται τα σύνολα εκπαίδευσης να είναι τα ίδια και για τους 3 ταξινομητές, ούτε να είναι ξένα

17 .3. Στόχος της εργασίας 5 μεταξύ τους, ούτε ισοπληθή. Γενικά, δεν έχουμε κανέναν περιορισμό. Περισσότερα για τους ταξινομητές SVM στο κεφάλαιο 5..3 Στόχος της εργασίας Η παρούσα διπλωματική εργασία ασχολείται με την δημιουργία συνόλων εκπαίδευσης για ταξινομητές εικόνων. Αποτελείται από ένα σύνολο τριών τμημάτων, τα οποία καθορίζουν και τη δομή του κειμένου αυτού. Τα τμήματα αυτά είναι τα ακόλουθα. Το πρώτο τμήμα αφορά στην αξιοποίηση διαδικτυακών συλλογών εικόνων σε μία διαδικασία αυτόματης εξερεύνησης και αξιοποίησής τους. Στην συγκεκριμένη εργασία χρησιμοποιήθηκε το Flickr ως πηγή εικόνων. Για τον σκοπό δημιουργήσαμε ένα πλαίσιο καθορισμού των εννοιών για τα οποία ενδιαφερόμαστε, και στην συνέχεια υλοποιήσαμε ένα εργαλείο το οποίο αναλαμβάνει να εκτελέσει αυτόματα μία σειρά ενεργειών, αποτέλεσμα της οποίας είναι σύνολα με εικόνες οι οποίες έχουν χαρακτηριστεί μέσω ενός score ως προς τον βαθμό συσχέτισης με την κάθε έννοια. Το δεύτερο τμήμα είναι σε κάποιον βαθμό ανεξάρτητο από την δεδομένη εφαρμογή σε ταξινομητές εικόνων. Στόχο έχει το να καθορίσει διαδικασίες οι οποίες σχετίζονται με την αξιοποίηση μίας λίστας αποτελεσμάτων (στην προκείμενη περίπτωση η λίστα είναι οι εικόνες που συγκέντρωσε το εργαλείο που αναφέρθηκε μαζί με το score τους) με σκοπό την εκτίμηση πιθανοτικών κατανομών. Με άλλα λόγια, πώς μπορούμε να εκτιμήσουμε αν μία εικόνα περιέχει μία έννοια αν γνωρίζουμε το score της εικόνας αυτής για την συγκεκριμένη έννοια. Το τρίτο και τελευταίο τμήμα σχετίζεται με την εφαρμογή των συμπερασμάτων των δύο προηγούμενων σταδίων σε ταξινομητές SVM και fuzzy SVM. Συγκεκριμένα χρησιμοποιούμε τα προαναφερθέντα scores για να δημιουργήσουμε αυτόματα το σύνολο αληθείας - δηλαδή να χαρακτηρίσουμε κάθε εικόνα για το αν περιέχει ή όχι την κάθε έννοια - για διάφορα σύνολα εκπαίδευσης, για να επιλέξουμε ένα μικρό αλλά όσο το δυνατό βέλτιστο σύνολο εικόνων μέσα από ένα μεγαλύτερο, και τέλος για να εκφράσουμε - στην περίπτωση του fuzzy SVM - την παράμετρο βάρους/αξιοπιστίας/σημαντικότητας κάθε εικόνας.

18

19 Κεφάλαιο 2 Βιβλιογραφική επισκόπηση Στο κεφάλαιο αυτό παρουσιάζεται συνοπτικά η δουλειά που έχει γίνει από την επιστημονική κοινότητα τα τελευταία χρόνια στα σχετικά πεδία της παρούσας εργασίας. 2. Αξιοποίηση tags σε ταξινομητές Τα τελευταία χρόνια, η ανάπτυξη των δυνατοτήτων του διαδικτύου, των ηλεκτρονικών υπολογιστών καθώς και των φωτογραφικών μηχανών έχει απλοποιήσει την διαδικασία δημιουργίας ψηφιακών εικόνων. Μάλιστα, έχουν δημιουργηθεί μία σειρά από ιστοσελίδες, όπως για παράδειγμα οι Flickr, Google Picassa, Instagram, DeviantART κλπ, οι οποίες περιέχουν εικόνες. Οι εικόνες αυτές κατηγοριοποιούνται με διαφορετικούς τρόπους σε κάθε περίπτωση. Ωστόσο οι περισσότερες ιστοσελίδες δίνουν τη δυνατότητα στους χρήστες να αποδίδουν λέξεις (tags) σε κάθε εικόνα, οι οποίες συνήθως σχετίζονται με το περιεχόμενο της εικόνας. Τέτοιες ιστοσελίδες μπορούν να αξιοποιηθούν σε μεγάλο βαθμό από εφαρμογές δημιουργίας ταξινομητών εικόνων. Σχετικά με την συνήθεια των χρηστών να αποδίδουν tags σε εικόνες, έχει διαπιστωθεί [30] ότι οι χρήστες έχουν γενικά την συνήθεια να αποδίδουν tags και πληροφορία στις εικόνες, με κύριο κίνητρο την οργάνωση των εικόνων ώστε να είναι εύκολη η προσπέλασή τους από κάποιον ενδιαφερόμενο. Η παρατήρηση αυτή είναι ιδιαίτερα ενθαρρυντική για προσπάθειες εκμετάλλευσης της συνοδευτικής αυτής πληροφορίας. Επίσης, η συγκεκριμένη έρευνα κατηγοριοποιεί τα tags ως προς το είδος της πληροφορίας που περιγράφουν, με τα εξής αποτελέσματα: 28% σχετίζονται με τοποθεσία, 6% με απτά αντικείμενα, 3% με άτομα ή ομάδες ατόμων, 9% με γεγονότα και 7% με χρονική στιγμή. Επίσης, ένα 27% σχετίζονται με έννοιες που δεν μπορούν να ενταχθούν σε κάποια συγκεκριμένη κατηγορία. Ένα σημαντικό επίσης θέμα είναι το κατά πόσο τα tags είναι ακριβή ή εσφαλμένα. Μια σειρά πειραμάτων [24] έδειξε ότι χρησιμοποιώντας προσεκτική σημείωση εικόνων από experts όπως αναφέρονται, το ποσοστό στο οποίο συμφωνούν μεταξύ τους είναι μεν υψηλό (πάνω από 90%) αλλά δεν πλησιάζει καθόλου το 00%. Επίσης ερευνώντας το πόσο οι οι σημειώσεις των experts συμφωνούν με αυτές που προέρχονται από τους non-experts, δηλαδή τους χρήστες που αναθέτουν τα tags, παρατηρήθηκε ένα ποσοστό συμφωνίας περίπου 70%. Το ποσοστό αυτό είναι αρκετά μεγάλο ώστε να μας ωθεί σε μία κατεύθυνση αξιοποίησης της πληροφορίας αυτής, ωστόσο απέχει και σημαντικά από το 00%. Αυτό μας κάνει επιφυλακτικούς στην χρήση των tags, και μας αναγκάζει να δημιουργήσουμε μεθόδους αξιολόγησης της πληροφορίας αυτής. Σε μία παλαιότερη έρευνα του 2005 [0] διαπιστώθηκε το γοργά αυξανόμενο ενδιαφέρον της επιστημονικής κοινότητας για την ανάκτηση εικόνων με χρήση support vector machines. Ο όρος image retrieval αναφέρεται στη συλλογή από ένα μεγάλο πλήθος εικόνων με βάση το οπτικό περιεχόμενό τους. Στη συνέχεια παρουσιάζονται συνοπτικά κάποιες νεότερες έρευνες σχετικές με την αξιοποίηση των tags από μεγάλες συλλογές. Μία έρευνα βασισμένη ιδιαίτερα στο Flickr [4] ορίζει και χρησιμοποιεί μία μετρική με το όνομα Flickr distance, σε αντιπαραβολή με τη Google distance [8]. Η μετρική αυτή χρησιμοποιεί τα tags του Flickr για να δημιουργήσει ένα δίκτυο εννοιών τα οποία συνδέονται και μεταξύ τους. Οι έννοιες αυτές που δημιουργεί είναι αρκετά κοντά σε ανθρώπινες έννοιες, ενώ συνδέονται και με οπτικό περιεχόμενο. Επίσης, λαμβάνοντας και τις συσχετίσεις μεταξύ των εννοιών και σε λεκτικό επίπεδο και σε οπτικό, ξεπερνά σε απόδοση αντίστοιχο σύστημα που βασίζεται στη Google distance. Διάφορες έρευνες έχουν ακολουθήσει διαφορετικές μεθόδους και προσεγγίσεις στην προσπάθεια αξιοποίησης της λεκτικής πληροφορίας εικόνων. Σε μεγάλο βαθμό, οι έρευνες αυτές αντλούν την λεκτική πληροφορία από διαδικτυακές πηγές [38][37][8]. Η βασική ιδέα τους είναι ότι ξεκινώντας από μία εικόνα, αναζητούν μέσω του διαδικτύου παρόμοιες εικόνες και συλλέγουν κοινή λεκτική πληροφορία την οποία και αντιστοιχίζουν στην αρχική εικόνα. Οι [32], χρησιμοποιώντας την πληθώρα πληροφορίας που είναι διαθέσιμη σε τέτοιου είδους διαδικτυακές πηγές, συγκέντρωσαν περίπου 80 εκατομμύρια εικόνες πολύ μικρών διαστάσεων και αντιστοίχησαν κάθε μία από αυτές με ένα από τα

20 8 Κεφάλαιο 2. Βιβλιογραφική επισκόπηση 75,062 ουσιαστικά που βρίσκονται στο WordNet. Υποστήριξαν ότι με αρκετά μεγάλο αριθμό δειγμάτων, η εφαρμογή απλών αλγορίθμων ομαδοποίησης (clustering) όπως για παράδειγμα του k-nn (kth nearest neighboor) μπορούν να πετύχουν ικανοποιητικά ποσοστά απόδοσης σε προβλήματα αναγνώρισης αντικειμένων, σκηνών, προσώπων κλπ συγκρινόμενοι με νεότερα και πολυπλοκότερα συστήματα και μεθόδους. Ωστόσο, η αντιστοίχηση ενός μόνο ουσιαστικού από το WordNet και η χρήση των πολύ μικρών εικόνων (συγκεκριμένα 32 επί 32 pixels) δημιουργεί σοβαρά προβλήματα στην αποτύπωση συνθετότερων εννοιών του πραγματικού κόσμου. Τέλος, η διαδικασία αντιστοίχισης κάθε εικόνας με το ουσιαστικό έγινε χρησιμοποιώντας γειτονική πληροφορία (context) από διαδικτυακές πηγές, με αποτέλεσμα να έχει σημαντικά πολύ θόρυβο. Αρκετή προσπάθεια έχει γίνει και στο να αντιστοιχηθούν έννοιες σε μοτίβα χαμηλών χαρακτηριστικών των εικόνων (low features pa erns), συγκεντρώνοντας και πάλι εικόνες από το διαδίκτυο. Οι [] προσπάθησαν να δημιουργήσουν μοντέλα οπτικών αντικειμένων σαν συνδυασμό μερών χρησιμοποιώντας μία πιθανοτική αναπαράσταση με το όνομα TSI-pLSA. Οι [3], εφαρμόζοντας κατά κάποιον τρόπο ανάποδα την ιδέα αυτή, αντιστοίχησαν σε κάθε έννοια πολλαπλά μοτίβα χαρακτηριστικών. Και οι δύο μέθοδοι απαιτούν την συλλογή διαφορετικών συνόλων εκπαίδευσης για κάθε έννοια και απαιτείται η εκπαίδευση ενός μοντέλου για κάθε έννοια, με αποτέλεσμα να μειώνεται σημαντικά ο συνολικός αριθμός εννοιών που μπορούν να χειριστούν. Μία άλλη κατεύθυνση σχετίζεται με την χρήση γράφων για την περιγραφή σχέσεων, και εμπλέκει διαδικασίες ημι-εποπτευόμενης μάθησης (semi-supervised learning), διαδικασίες που έχουν αρχήσει να χρησιμοποιούνται αρκετά τα τελευταία χρόνια, τόσο σε προβλήματα μάθησης (machine learning) όσο και σε προβλήματα αναζήτησης πολυμεσικού περιεχομένου (multimedia retrieval). Οι πιο τυπικές μέθοδοι περιλαμβάνουν την μέθοδο τυχαίων κανονικών περιοχών (Gaussian random fields) και αρμονικών συναρτήσεων [44] και την μέθοδο τοπικής/ειδικής και γενικής συνοχής (local and global consistency) [43]. Ακόμα μια κατεύθυνση είναι η αντιστοίχηση δεικτών ομοιότητας και η σύγκριση ή συσχέτισή τους. Οι [36][27] ακολουθούν μία προσέγγιση ζεύγους όπου το πρώτο μέλος είναι η εικόνα ερώτησης (η εικόνα η οποία περιέχει την έννοια που αναζητούμε) και το δεύτερο μέλος είναι μία εικόνα απάντησης (δηλαδή μία από τις ζητούμενες εικόνες που περιέχει την έννοια). Αν και υπάρχουν πλεονεκτήματα σε τέτοιου είδους προσεγγίσεις, υπάρχει η απαίτηση η υπό αναζήτηση έννοια να δίνεται σε μορφή εικόνας, και όχι σε λεκτική, κάτι που είναι αντίθετο με τις συνήθειες των χρηστών όπως αναφέρουν και οι [7]. Οι [40], στην προσπάθεια δημιουργίας μίας μεθόδου επιλογής κατάλληλων εννοιών για αναζήτηση σε βίντεο, πρότειναν τη δημιουργία ενός εννοιολογικού χώρου ο οποίος θα επιτρέπει την άμεση σύγκριση ομοιότητας μεταξύ εννοιών. Οι [20] μελέτησαν την επιρροή δύο παραμέτρων σε έναν τέτοιο εννοιολογικό χώρο: α) την ακρίβεια των tags που αποδίδουν οι χρήστες σε σχέση με αυτή που προέρχεται από μία αυτόματη διαδικασία, και β) διάφορες συναρτήσεις υπολογισμού της ομοιότητας μεταξύ τέτοιων ζευγών/διανυσμάτων όπου κάθε στοιχείο του διανύσματος είναι ένα πολυμεσικό αντικείμενο. Mία πιο σύγχρονη προσέγγιση αφορά στην ανάλυση κανονικής συσχέτισης (canonical correlation analysis) [2][3][4][5] [28]. Στην προσέγγιση αυτή, δημιουργείται ένας χώρος διανυσμάτων τα οποία δημιουργούνται και από οπτικά χαρακτηριστικά αλλά και από λεκτικά. Έτσι είναι δυνατή η απευθείας συσχέτιση οποιονδήποτε χαρακτηριστικών. Ο χώρος αυτός είναι, όπως αναφέρεται, cross-modal, εννοώντας ότι λόγω των χαρακτηριστικών αυτών, συσχετίσεις μεταξύ εικόνας με εικόνα, εικόνας με έννοια, και έννοια με εικόνας αντιμετωπίζονται με έναν ενιαίο τρόπο. Τέλος, μία σημαντική δημοσίευση, της οποίας τα αποτελέσματα χρησιμοποιούμε άμεσα σε αυτή την εργασία, είναι η δουλειά των [7]. Αποτέλεσμα της συγκεκριμένης έρευνας είναι μία συλλογή 270,000 εικόνων περίπου από το Flickr, οι οποίες έχουν σημειωθεί για το αν είναι σχετικές για ένα σύνολο 8 διαφορετικών εννοιών. Η μέθοδος που χρησιμοποιήθηκε είναι μία μορφή ημι-εποπτευόμενης μάθησης, και η εγκυρότητά της είναι ιδιαίτερα υψηλή. Ωστόσο, το σύνολο αυτό των εικόνων δεν είναι τελείως απαλλαγμένο από θόρυβο. 2.2 Υπολογισμός πιθανότητας και κατανομών από εξόδους συστημάτων αξιολόγησης Ένα σχετικά πρόσφατο επιστημονικό πεδίο είναι το πεδίο του IR (Information Retrieval). Το πεδίο αυτό εξετάζει κάποια ζητήματα που εμπλέκονται με τις διαδικασίες που περιγράφουμε και υλοποιούμε στην συγκεκριμένη εργασία, με έναν αρκετά πιο γενικό και αφαιρετικό τρόπο ωστόσο. Σύνηθες σημείο αφετηρίας είναι διατεταγμένες λίστες αποτελεσμάτων, οι οποίες έχουν ταξινομηθεί βάσει κάποιου score. Είναι αδιάφορο αν οι λίστες είναι λίστες εικόνων, ή τραγουδιών, ή βίντεο, ή γραπτών κειμένων ή οτιδήποτε άλλου είδους. Επίσης είναι αδιάφορο (τουλάχιστον στα πρώτα στάδια) το είδος της γεννήτριας των score που εμπλέκονται στη λίστα. Δεν μας ενδιαφέρει δηλαδή αν είναι κάποιου είδους ταξινομητής, κάποιος ευριστικός μηχανισμός ή ο,τιδήποτε άλλο. Διαθέτοντας μία λίστα εγγράφων τα οποία έχουν αξιολογηθεί και διαταχθεί βάσει ενός score, οι [2][] μελέτησαν τις κατανομές scores από διάφορες μηχανές παραγωγής scores χωριστά για τα έγγραφα τα οποία θεωρούνταν σχετικά προς την αναζήτηση και για αυτά που δεν θεωρούνταν σχετικά. Κατέληξαν ότι η κατανομή των scores στα σχετικά έγγραφα προσέγγιζε κανονική κατανομή, ενώ η κατανομή των scores στα μη σχετικά προσέγγιζε εκθετική κατανομή. Επίσης μελέτησαν την αξιοποίηση κατωφλιών σε scores με στόχο την μεγιστοποίηση τιμών δεικτών αξιολόγησης, όπως για παράδειγμα των

21 2.3. Αναζήτηση εικόνων με fuzzy SVMs 9 accuracy, F-measure, utility κλπ. και πρότειναν έναν τρόπο εκτίμησης των κατωφλιών αυτών βασισμένο σε στατιστικά χαρακτηριστικά των κατανομών των scores και όχι στις ίδιες τις τιμές τους. Ένα σημαντικό ζήτημα που προέκυψε στα πλαίσια της εργασίας είναι η κανονικοποίηση των scores μίας τέτοιας λίστας αποτελεσμάτων, και στη συνέχεια η εύρεση κατωφλιών για διαδική ταξονόμιση (binary classification) και μετασχηματισμών των scores σε πιθανότητες. Το εύρος τιμών των scores ποικίλει όχι μόνο από μηχανή σε μηχανή, αλλά και διαφορετικά ερωτήματα στην ίδια μηχανή [29]. Μπορεί για παράδειγμα να επηρεάζεται από το πλήθος των όρων που μετέχουν σε ένα ερώτημα αναζήτησης. Επίσης οι τιμές των scores δεν έχουν κάποια άμεση φυσική σημασία, για παράδειγμα δεν σχετίζονται με την πιθανότητα του κάθε εγγράφου να είναι σχετικό. Συνήθως όμως είναι ένας μονότονος μετασχηματισμός αυτής [23]. Οι [2] αντιμετώπισαν ακριβώς το ίδιο ζήτημα. Υποστήριξαν ότι τρόποι κανονικοποίσης οι οποίοι λαμβάνουν υπόψη τους μόνο χαρακτηριστικά της κατανομής του τύπου min max δεν ήταν βέλτιστοι, αλλά θα έπρεπε να λαμβάνουν υπόψη και άλλα χαρακτηριστικά της κατανομής, όπως για παράδειγμα την ίδια την κατανομή της. Στη συνέχεια, θεωρώντας ότι δεν έχουμε καμία ένδειξη για τον τρόπο λειτουργίας της μηχανής που αποδίδει τα scores, καθώς επίσης και καμία πληροφορία για το ποια έγγραφα της λίστας αποτελεσμάτων είναι πράγματι σχετικά, υπέθεσαν αρχικά ότι η κατανομή των scores σε μία τέτοια λίστα αποτελεσμάτων είναι στην πραγματικότητα η συμβολή δύο κατανομών: την κατανομή των scores των σχετικών εγγράφων και την κατανομή των scores των μη σχετικών. Στη συνέχεια, υπέθεσαν ότι και η κατανομή των scores των σχετικών εγγράφων είναι συμβολή δύο κατανομών: μίας πραγματικής και μίας θορύβου, και πρότειναν έναν τρόπο δημιουργίας ερωτημάτων προς μία τέτοια μηχανή τα οποία θα μπορούσαν να φανερώσουν τις δύο αυτές κατανομές. Μία συγκεντρωτική παρουσίαση σχετικών θεμάτων παρουσιάζουν οι [3]. Παρουσιάζονται διαφορετικές προσεγγίσεις πέραν της εκθετικής-κανονικής κατανομής (για τις κατανομές των σχετικών και μη εγγράφων), όπως κανονικής-κανονικής, μεικτά μοντέλα, gamma-gamma κατανομών κλπ, και δίνονται οι υποθέσεις των οποίων την ισχύ απαιτεί θεωρητικά τουλάχιστον κάθε περίπτωση. Επίσης προτείνονται και μετασχηματισμοί των scores, χρησιμοποιώντας κατά κύριο λόγο λογιστικές συναρτήσεις (logistic functions) οι οποίες θα διευκολύνουν την διαδικασία εκτίμησης των δύο εσωτερικών κατανομών, καθώς και την διαδικασία μετασχηματισμού (ή καλύτερα εκτίμησης πιθανότητας). Ας σημειωθεί ότι ένα βασικό κίνητρο για τις έρευνες που παρουσιάζονται είναι η δυνατότητα συνδυασμού scores διαφορετικών μηχανισμών σε μέτα-μηχανές αναζήτησης (meta-search engines) και υπολογισμού ενός ενιαίου score από scores διαφορετικών μηχανισμών (score fusioning). Ωστόσο, οι [22], επικεντρώνοντας στο κομμάτι της κανονικοποίησης, υποστηρίζουν, αντίθετα με πριν, ότι μέθοδοι και μηχανισμοί οι οποίοι λαμβάνουν υπόψη τους τις κατανομές των scores είναι γενικά χειρότεροι από αυτούς που χρησιμοποιούν απλούς τελεστές τύπου min max, και αιτιολογούν τα αποτελέσματά τους δείχνοντας ότι τέτοιοι μηχανισμοί συνήθως υποθέτουν κατανομές καμπάνας (bell distributions) όπως για παράδειγμα η κανονική, κάτι που στην πράξη δεν ισχύει. Αντίθετα, καταλήγουν στο ότι απλοί τελεστές τύπου min max είναι γενικά καλύτεροι. 2.3 Αναζήτηση εικόνων με fuzzy SVMs Μία σύνοψη των μεθόδων που έχουν εφαρμοσθεί σχετικά με την εκπαίδευση ταξινομητών για αναζήτηση εικόνων βάσει περιεχομένου (content-based image retrieval), καθώς και άλλων μεθόδων σχετικά με την αναζήτηση, έχουν παρουσιάσει οι [9]. Επίσης παραθέτουμε τις δημοσιεύσεις των [9] και [35] καθώς αποτελούν σημαντικό κομμάτι του κλάδου. Οι [26] χρησιμοποίησαν fuzzy SVMs για την αναζήτηση εννοιών σε εικόνες, χρησιμοποιώντας κάθε φορά έναν αριθμό από λιγότερο αξιόπιστους fuzzy SVMs με σκοπό την δημιουργία ενός αξιόπιστου. Παρουσίασαν μία μέθοδο επαναληπτικής ημιεποπτευόμενης μάθησης, η οποία δεν έδινε απλά τη δυνατότητα χαρακτηρισμού μίας εικόνας απλά ως σχετικής ή μη, αλλά αξιοποιούσε περισσότερες ποιοτικές στάθμες, όπως πολύ σχετικό, λίγο σχετικό, ουδέτερο, κλπ., καθώς και τα αποτελέσματά της. Ωστόσο, χρησιμοποιούσαν σύνολα εκπαίδευσης με μεγάλο ποσοστό αξιόπιστων δειγμάτων, αφού μόνο ένα 20% προερχόταν από δείγματα με μικρό δείκτη αξιοπιστίας. Οι [25] πρότειναν μία μέθοδο ασαφούς συσχέτισης περιοχών ενός χώρου χαρακτηριστικών εικόνων (feature space) με συγκεκριμένες έννοιες. Χρησιμοποίησαν μεθόδους ομαδοποίησης και την ευκλείδεια απόσταση των κέντρων από τα διαχωριστικά επίπεδα. Επίσης, σε μία προσπάθεια εκμετάλλευσης της ασάφειας στα δείγματα ενός συνόλου εκπαίδευσης, οι [42] παρουσίασαν μία μέθοδο σύμφωνα με την οποία χρησιμοποιούσαν κάποια δείγματα ως υποδειγματικά και δημιουργούσαν έναν νέο χώρο χαρακτηριστικών που αποτελούνταν από συσχετίσεις των δειγμάτων με τα χαρακτηριστικά των υποδειγματικών εικόνων. Οι [4] χρησιμοποίησαν την ασάφεια των δειγμάτων σε διαδικασίες επαναληπτικής μάθησης αξιοποιώντας fuzzy SVMs. Η βασική ιδέα του αλγορίθμου υπολογισμού των βαρών για fuzzy SVMs είναι η κατάτμηση των εικόνων σε πέντε περιοχές και η ανεξάρτητη ομαδοποίησή τους σε οχτώ ομάδες. Στη συνέχεια προσομοιώνεται μία διαδικασία ημι-εποπτευόμενης μάθησης, στην οποία όμως τα τμήματα των εικόνων κληρονομούν την πληροφορία της αρχικής εικόνας αδιακρίτως. Τα αποτελέσματα της μεθόδου είναι αρκετά ικανοποιητικά συγκρινόμενα με επιδόσεις παρόμοιων μεθόδων μάθησης.

22 0 Κεφάλαιο 2. Βιβλιογραφική επισκόπηση 2.4 Πλαίσιο της εργασίας Στο σημείο αυτό, παρουσιάζουμε το πλαίσιο στο οποίο τοποθετείται η παρούσα διπλωματική εργασία, έχοντας υπόψη τα τρία τμήματα που αναφέρθηκαν στην παράγραφο.3. Σχετικά με το πρώτο κομμάτι, παρατηρούμε ότι έχει αναπτυχθεί μία πληθώρα μεθόδων και προσεγγίσεων. Κάποιες από αυτές, αν και παρουσιάζουν πολύ καλά αποτελέσματα είναι αρκετά πολύπλοκες και απαιτούν μεγάλα υπολογιστικά συστήματα για να υλοποιηθούν. Άλλες απαιτούν χαρακτηριστικά τα οποία είναι αντίθετα με τις συνήθεις πρακτικές, ενώ κάποιες απαιτούν τη (κάποιες φορές χειροκίνητη) ρύθμιση πολλών παραμέτρων. Τέλος, κάποιες δημιουργούν μοντέλα τα οποία είναι ασύνδετα μεταξύ τους, με αποτέλεσμα να απαιτείται επανάληψη των διαδικασιών σχηματισμού των μοντέλων τους σε κάθε μεταβολή των ορίων του συστήματος. Αντίθετα εμείς δεχόμαστε τις υποθέσεις ότι τέτοιες πηγές αφενός έχουν καλά ποιοτικά χαρακτηριστικά, αφετέρου περιέχουν αρκετό θόρυβο. Χρησιμοποιούμε μία μετρική η οποία βασίζεται στο PMI [5] η οποία προέρχεται από τον χώρο της αναζήτησης σε γραπτές πηγές (text retrieval), την οποία τροποποιούμε ώστε να αποδίδει καλύτερα στο δικό μας πεδίο εφαρμογής, και στην συνέχεια την επεκτείνουμε. Παρουσιάζουμε τους λόγους που μας οδηγούν στις επιλογές μας και επιβεβαιώνουμε παρουσιάζοντας ενδεικτικά αποτελέσματα εφαρμογής του συστήματός μας. Στο δεύτερο τμήμα της εργασίας, χρησιμοποιούμε τους τελεστές min max για την κανονικοποίηση, και υιοθετούμε τις κατανομές gamma, καθώς είναι οι γενικότερες αλλά και αυτές που θεωρητικά (αλλά και πρακτικά όπως διαπιστώσαμε) ταιριάζουν καλύτερα στα πραγματικά δεδομένα. Επίσης, προτείνουμε μία μέθοδο για τον υπολογισμό μετασχηματισμών από scores σε πιθανότητες και διαπιστώνουμε ότι συμπίπτουν σε πολύ μεγάλο βαθμό με την πειραματικά μετρούμενη σχέση μεταξύ scores και πιθανότητας συσχέτισης. Τέλος, σχετικά με το τρίτο και τελευταίο τμήμα της εργασίας, αναφέρουμε ότι η υπάρχουσα βιβλιογραφία είναι μάλλον περιορισμένη. Η έννοια της ασάφειας χρησιμοποιείται περισσότερο στην σύνδεση εννοιών με στόχο την δημιουργία σύνθετων μοντέλων. Υπάρχουν ωστόσο και περιπτώσεις που η ασάφεια χρησιμοποιείται άμεσα σε fuzzy SVMs, κατά κύριο όμως λόγο σε επαναληπτικές διαδικασίες μάθησης. Αντίθετα εμείς υλοποιούμε μία ευθεία διαδικασία εκτίμησης της ασάφειας κάθε δείγματος εκπαίδευσης, και διερευνούμε την επιρροή που έχουν στην απόδοση δείγματα μεγάλης ασάφειας. Επίσης, διερευνούμε παράλληλα διαδικασίες σχηματισμού συνόλων εκπαίδευσης από μεγάλα σύνολα βάσει της αξιοπιστίας των δειγμάτων τους.

23 Μέρος II Θεωρητικά στοιχεία

24

25 Κεφάλαιο 3 Μέθοδος συλλογής και συναρτήσεις ομοιότητας Στο κεφάλαιο αυτό, περιγράφεται ο τρόπος καθορισμού των εννοιών (concepts) που θα χρησιμοποιήσουμε στα πειράματά μας, ο τρόπος απόκτησης από το διαδίκτυο (downloading) υποψήφιων προς χρήση εικόνων, καθώς και η διαδικασία ανάθεσης μίας τιμής συσχέτισης (score) σε κάθε εικόνα για κάθε έννοια. Το πρώτο αυτό τμήμα της διπλωματικής έχει υλοποιηθεί σε ένα εργαλείο γραμμένο σε C++, με το όνομα linguistics. Το τμήμα αυτό της εργασίας βασίζεται σε μεγάλο βαθμό στη διπλωματική εργασία του Τριαντάφυλλου Τσιρέλη [33][34]. Συγκεκριμένα, ο βασικός τρόπος ορισμού των εννοιών που περιγράφεται στην επόμενη παράγραφο χρησιμοποιώντας το WordNet βασίζεται στο σχεδιασμό του Τ. Τσιρέλη. Επίσης, η χρήση ενός corpus και του δείκτη PMI, καθώς και συναρτήσεων μεγίστου και μέσου όρου για τον υπολογισμό συσχετίσεων αποτελεί το βασικό τμήμα της εργασίας του. Θα πρέπει ωστόσο να σημειωθεί ότι στα πλαίσια της παρούσας εργασίας, αν και αρχικά βασιστήκαμε σχεδόν απόλυτα στις επιλογές του Τ. Τσιρέλη, στη συνέχεια επανεξετάσαμε όλα τα σημεία της διαδικασίας που υλοποιήθηκε, και τα τροποποιήσαμε, με αποτέλεσμα να βελτιώσουμε σημαντικά την συμπεριφορά του συστήματος που περιγράφεται. 3. Έννοιες Όπως έχει αναφερθεί, σκοπός μας είναι η δημιουργία ταξινομητών SVM οι οποίοι θα αναγνωρίζουν την ύπαρξη ή απουσία μίας συγκεκριμένης έννοιας. Οι έννοιες αυτές καθορίζονται από τον άνθρωπο, και αρχικά μπορούν να αποδοθούν με μία πληθώρα τρόπων, για παράδειγμα χρησιμοποιώντας μία λέξη, όπως αυτοκίνητο, τραπέζι, βροχή, ευτυχία κλπ. Παρατηρούμε ότι δεν είναι απαραίτητο να αναφέρονται σε απτά αντικείμενα, όπως για παράδειγμα η έννοια που καθορίζεται από την λέξη ευτυχία. Επίσης, μπορούμε να χρησιμοποιήσουμε περισσότερες λέξεις, όπως κόκκινο αυτοκίνητο, τραπέζι με σερβιρισμένο φαγητό, βροχή σε αστικό περιβάλλον μέσα από παράθυρο. Ας σημειωθεί ότι αυτές οι έννοιες δεν είναι καλύτερα ορισμένες από τις προηγούμενες, αλλά μάλλον αποτελούν υποπεριπτώσεις αυτών. Τέλος, είναι δυνατή και η περιγραφή των εννοιών που ζητούμε να αναγνωρίσουμε και με πιο πολύπλοκους τρόπους, όπως συνδυασμός προτάσεων, με οπτικοακουστικό υλικό (πχ ταινίες, μουσική, κλπ) καθώς και άλλους γενικά τρόπους. Στα πλαίσια της παρούσας διπλωματικής, ο τρόπος καθορισμού κάθε έννοιας είναι συγκεκριμένος και περιγράφεται στις επόμενες παραγράφους. 3.. Καθορισμός από τον άνθρωπο Για τον καθορισμό μίας έννοιας, το σύστημα απαιτεί να δοθεί μία λέξη και ένα σύνολο λέξεων¹. Η λέξη αποτελεί μία μονολεκτική περιγραφή της έννοιας. Το σύνολο λέξεων αποτελείται από λέξεις οι οποίες σχετίζονται (σύμφωνα με την γνώμη του ανθρώπου που καθορίζει την έννοια) σε μεγάλο βαθμό με την έννοια. Οι 2 έννοιες που χρησιμοποιήσαμε στα πειράματά μας δίνονται στον πίνακα 3.. Όπως διαπιστώνεται και από τα παραδείγματα, απαιτούμε το σύνολο λέξεων κάθε έννοιας να περιλαμβάνει και την μονολεκτική περιγραφή της έννοιας. Θα αναφερόμαστε στο σύνολο αυτό με το σύμβολο C. ¹η παραδοχή αυτή συμπίπτει με την παραδοχή του Τ. Τσιρέλη

26 4 Κεφάλαιο 3. Μέθοδος συλλογής και συναρτήσεις ομοιότητας λέξη animal beach computer cow food frost house moon mountain person plane police reflection sky snow sun temple train tree waterfall window σύνολο λέξεων animal, nature, mammal, pet, wildlife, fauna, zoo beach, sand, sun, sea, water, summer, waves, ocean, umbrella, holidays computer, monitor, desk, workstation, keyboard, mouse, work, pc, laptop, office cow, milk, grass, farm, nature, ca le, moo, field food, kitchen, plate, breakfast, lunch, dessert, snack, fruit, vegetables, salad frost, ice, cold, snow, winter, nature, lake house, home, roof, door, window, building moon, luna, sky, satellite, craters, eclipse, night, crescent, moonlight mountain, landscape, outdoors, rocks, peak, hiking, travel, snow person, man, woman, self, human, people plane, aircra, airport, jet, aviation, sky, wing, clouds, air, cockpit, fuselage police, cop, street, securitym arrest, policeman, officer, crime reflection, mirror, water, sea, lake, surface, light sky, blue, clouds, sun, moon, stars, atmosphere, skyline snow, white, winter, mountain, cold, snowflake, landscape sun, sunlight, sky, sunset, sunrise, summer, sunray, sunglasses temple, priest, religion, mosaic, faith, prayer, god, church, architecture train, rails, subway, railway, travel, station, underground, transportation, metro tree, green, leaves, nature, landscape, trunk, woods waterfall, water, motion, nature, river, cascade window, house, curtain, light, view, glass, shu er, architecture Πίνακας 3.: Οι 2 έννοιες και τα σύνολα λέξεών τους που χρησιμοποιήσαμε 3..2 Διαδικασία επέκτασης Στη συνέχεια, προδιαγράφουμε μία διαδικασία επέκτασης, το πρώτο στάδιο της οποίας είναι η προσθήκη περισσότερων λέξεων για την περιγραφή της έννοιας. Αυτό επιτυγχάνεται με την χρήση του WordNet. Το WordNet είναι ένα λεξικό το οποίο περιλαμβάνει πολλές πληροφορίες και συσχετίσεις μεταξύ των λέξεών του, αφορά δε την αγγλική γλώσσα. Η διαδικασία που ακολουθείται είναι η ερώτηση του WordNet για κάθε μία λέξη του συνόλου C. Η απάντηση του WordNet δίνεται με μορφή υποσυνόλου, ή γενικότερα υποσυνόλων, τα οποία ονομάζονται synsets, καθένα εκ των οποίων περιέχει έναν αριθμό λέξεων. Κάθε υποσύνολο αντιστοιχεί σε μία διαφορετική σημασία² της λέξης. Φυσικά, εάν μία λέξη έχει μόνο μία σημασία, το WordNet επιστρέφει ως απάντηση ένα μόνο synset. Η ένωση όλων των υποσυνόλων όλων των απαντήσεων των ερωτημάτων για μία έννοια αποτελεί ένα νέο σύνολο, έστω W syns. Επιθυμούμε να αντιστοιχήσουμε την έννοια με ένα σύνολο λέξεων το οποίο να περιέχει το σύνολο C. Για το σκοπό αυτό, ορίζουμε αρχικά το προκαταρκτικό σύνολο έννοιας W init με την ακόλουθη σχέση. W init = W syns C (3.) Στην συνέχεια, το εργαλείο επεξεργάζεται κάθε λέξη του W init, αντικαθιστώντας όλα τα κεφαλαία γράμματα με τα πεζά, διαγράφοντας αριθμητικά ψηφία και χαρακτήρες όπως $, #, %, και έπειτα μετασχηματίζει την λέξη στο θέμα της χρησιμοποιώντας τον αλγόριθμο του Porter. Επίσης αφαιρούνται και οι λεγόμενες stop words³. Σε αυτό το στάδιο αφαιρούνται στοιχεία του συνόλου που πιθανώς υπάρχουν πάνω από μία φορά. Το σύνολο που προκύπτει μετά από τη διαδικασία αυτή είναι το σύνολο έννοιας, το οποίο συμβολίζουμε με W. Ακολούθως, αποδίδουμε σε κάθε λέξη του W έναν πραγματικό αριθμό, τον οποίο καλούμε (και στη συνέχεια χρησιμοποιούμε ως) βάρος⁴. Η διαδικασία είναι η ακόλουθη. Αρχικά υπολογίζουμε την συσχέτιση sim(w, C) κάθε λέξης w του W με το σύνολο C. Ο ορισμός της συσχέτισης μεταξύ μίας λέξης και ενός συνόλου λέξεων δίνεται στην παράγραφο Στην συνέχεια, κανονικοποιούμε γραμμικά το σύνολο A w των συσχετίσεων στο διάστημα [0, ], χρησιμοποιώντας την απλή σχέση weight(w) = sim(w, C) min{a w} max{a w } min{a w } (3.2) όπου A w = {sim(w, C) : w W }. Η ανάγκη κανονικοποίησης αναλύεται επίσης στην παράγραφο Η προκύπτουσα κανονικοποιημένη τιμή weight(w) της συσχέτισης κάθε λέξης αποτελεί ακριβώς το βάρος της λέξης. Έχοντας λοιπόν δημιουργήσει το σύνολο W και έχοντας καθορίσει την τιμή της ιδιότητας weight(w), έχουμε ορίσει πλήρως (για τα πλαίσια της εργασίας) μία έννοια. ²ως παράδειγμα αναφέρουμε τη λέξη ζυγός, όπου τρεις διαφορετικές σημασίες της είναι α) ακέραιο πολλαπλάσιο του 2, β) ζυγαριά, γ) ηλεκτρικός ζυγός ³λίγα περισσότερα για τις stop words στην παράγραφο Αʹ.2 ⁴η απόδοση βάρους σε κάθε λέξη του W είναι η πρώτη διαφοροποίηση σε σχέση με την εργασία του Τ. Τσιρέλη

27 3.2. Συσχέτιση εικόνας με έννοια Δημιουργία ερωτημάτων για διαδικτυακές συλλογές Έχοντας δημιουργήσει τα σύνολα W για κάθε έννοια που μας ενδιαφέρει, το επόμενο βήμα είναι να υπολογίσουμε το score όλων των υποψήφιων⁵ εικόνων. Οι εικόνες των οποίων των score θέλουμε να υπολογίσουμε προέρχονται γενικά από το διαδίκτυο. Στην συγκεκριμένη περίπτωση της εφαρμογής μας προέρχονται από το διαδικτυακό τόπο Ωστόσο, είναι αρκετά προφανές ότι δεν μπορούμε να υπολογίσουμε το score κάθε έννοιας σε κάθε εικόνα του Flickr. Ο βασικός λόγος είναι ότι ο αριθμός των διαθέσιμων εικόνων είναι υπερβολικά μεγάλος. Αντί αυτού, επιθυμούμε να συγκεντρώσουμε ένα υποσύνολο εικόνων του Flickr στο οποίο θα υπολογίσουμε τα score κάθε εικόνας του για κάθε έννοια και στη συνέχεια, διαλέγοντας με κάποιο κριτήριο εικόνες από αυτό το υποσύνολο, θα σχηματίσουμε τα σύνολα εκπαίδευσης. Για το σκοπό τούτο το σύστημα δημιουργεί μία σειρά ερωτημάτων (queries) για το Flickr. Η διαδικασία δημιουργίας ερωτημάτων μοιάζει με την επέκταση μέσω του WordNet του συνόλου C στο σύνολο W. Εδώ επεκτείνουμε το σύνολο W στο σύνολο Q, με παρόμοιο τρόπο. Η διαφορά είναι ότι δεν ζητούμε μόνο τα synsets της εκάστοτε λέξης, αλλά και τα synsets άλλων λέξεων που σχετίζονται με την αυτή με σχέσης συνωνυμίας, αντιονυμίας, γενίκευσης, ειδίκευσης, υποσυνόλου, μέρους κλπ, καθώς και λέξεις που υπάρχουν σε προτάσεις - παραδείγματα στο WordNet. Φυσικά, επαναλαμβάνουμε τα ίδια βήματα σχετικά με αφαίρεση αριθμητικών, εξαγωγής θέματος κλπ, που ακολουθήσαμε και πριν. Έχοντας δημιουργήσει το σύνολο Q, δημιουργούμε ερωτήματα μίας λέξης από τα στοιχεία του Q τα οποία καταθέτουμε στο Flickr και λαμβάνουμε λίστες αποτελεσμάτων (μήκους της επιλογής μας). Ας σημειωθεί ότι οι λίστες αυτές περιέχουν μόνο τα μετα-δεδομένα (metadata) κάθε εικόνας και όχι την ίδια την οπτική πληροφορία, γεγονός που μειώνει τον απαιτούμενο χρόνο εκτέλεσης, τις απαιτήσεις σε ταχύτητα σύνδεσης με το διαδίκτυο, και τον αποθηκευτικό χώρο. Στο σημείο αυτό έχουμε πλέον στην διάθεσή μας ένα σύνολο μετα-δεδομένων εικόνων. 3.2 Συσχέτιση εικόνας με έννοια Το επόμενο βήμα είναι η απόδοση ενός score για κάθε έννοια σε κάθε εικόνα του συνόλου που μόλις δημιουργήσαμε. Το score αυτό θα αποτελέσει σημαντική παράμετρο σε όλη την διάρκεια αυτής της εργασίας. Ακολουθεί ο τρόπος υπολογισμού με σχόλια και αιτιολογήσεις για τους διάφορους ευριστικούς μηχανισμούς που υιοθετούνται. Το υπολογιζόμενο score αποτελεί μία ποσοτική εκτίμηση του κατά πόσο μία εικόνα σχετίζεται με μία έννοια. Στο σημείο αυτό κάθε έννοια αναπαρίσταται από ένα σύνολο λέξεων (με ιδιότητα βάρους). Επίσης, και κάθε εικόνα αναπαρίσταται από ένα σύνολο λέξεων T, το οποίο περιέχει όλα τα tags που έχουν αποδώσει οι χρήστες στην εικόνα μέσω του Flickr. Συνεπώς το πρόβλημα υπολογισμού συσχέτισης μεταξύ εικόνας και έννοιας απλοποιείται στο πρόβλημα υπολογισμού της συσχέτισης δύο συνόλων λέξεων, του W και του T (όπου το W διαθέτει και βάρη για τα στοιχεία του) Συσχέτιση δύο λέξεων Αρχικά ορίζουμε την απόσταση μεταξύ δύο λέξεων. Για τον ορισμό μας θα βασιστούμε στον ορισμό ενός ευρέως χρησιμοποιούμενου δείκτη συσχέτισης, του PMI (pointwise mutual information) [5]. Για να είμαστε θέση να ορίσουμε τον δείκτη PMI, απαιτείται να διαθέτουμε ένα συγκεκριμένο corpus. Με τον όρο corpus αναφερόμαστε σε μία συλλογή κειμένων. Κάθε κείμενο περιέχει λέξεις, προτάσεις, ή και παραγράφους ολόκληρες. Στην δική μας περίπτωση χρησιμοποιούμε το ευρέως διαδεδομένο Brown Corpus. Το Brown Corpus περιλαμβάνει συνολικά 500 κείμενα των 2000 λέξεων περίπου. Έτσι λοιπόν ορίζουμε το PMI δύο λέξεων w και w 2 ως ( P MI(w, w 2 ) = ln N N ) c (3.3) N N 2 όπου N είναι ο αριθμός των κειμένων του corpus (500 για το Brown), N είναι ο αριθμός των κειμένων στα οποία εμφανίζεται η λέξη w, N 2 είναι ο αριθμός των κειμένων στα οποία εμφανίζεται η λέξη w 2 και N c ο αριθμός των κειμένων στα οποία εμφανίζονται και οι δύο λέξεις w και w 2. Ωστόσο εμείς χρησιμοποιούμε έναν διαφορετικό τρόπο υπολογισμού της συσχέτισης μεταξύ δύο λέξεων⁶. Οι λόγοι γίνονται προφανείς αν παρατηρήσουμε τα παρακάτω. Αρχικά παρατηρούμε ότι 0 N i N, i {, 2, c}. Στη συνέχεια παρατηρούμε ότι αν N c = 0 και N 0 και N 2 0, τότε P MI. Δηλαδή, στην περίπτωση αυτή οι λέξεις w και w 2 είναι παντελώς ασυσχέτιστες. Όμοια και στην περίπτωση όπου N c = 0 και N N 2 = 0. Θεωρούμε δηλαδή ότι και σε αυτή την περίπτωση οι δύο λέξεις είναι εντελώς ασυσχέτιστες. Γενικά μπορούμε να πούμε ότι αν για μία λέξη w i είναι N i = 0 τότε η λέξη w δεν εμφανίζεται σε κανένα κείμενο του corpus, συνεπώς δεν μπορούμε να εξάγουμε καμία ⁵υποψήφιων ως προς την συμμετοχή τους στο σύνολο εκπαίδευσης για κάθε έννοια ⁶και διαφοροποιούμαστε από την προσέγγιση του Τ. Τσιρέλη η οποία χρησιμοποιούσε μία απλοποιημένη εκδοχή του PMI

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ασάφεια (Fuzziness) Ποσοτικοποίηση της ποιοτικής πληροφορίας Οφείλεται κυρίως

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ H O G feature descriptor global feature the most common algorithm associated with person detection Με τα Ιστογράμματα της Βάθμωσης (Gradient) μετράμε τον προσανατολισμό και την ένταση της βάθμωσης σε μία

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium Iii Η Κανονική Κατανομή Λέμε ότι μία τυχαία μεταβλητή X, ακολουθεί την Κανονική Κατανομή με παραμέτρους και και συμβολίζουμε X N, αν έχει συνάρτηση πυκνότητας

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ ΚΕΦΑΛΑΙΟ ΔΙΑΤΑΞΕΙΣ ΜΕΤΑΘΕΣΕΙΣ ΣΥΝΔΥΑΣΜΟΙ Εισαγωγή. Οι σχηματισμοί που προκύπτουν με την επιλογή ενός συγκεκριμένου αριθμού στοιχείων από το ίδιο σύνολο καλούνται διατάξεις αν μας ενδιαφέρει η σειρά καταγραφή

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ Μαθηματικά Σταύρος Παπαϊωάννου Ιούνιος 015 Τίτλος Μαθήματος Περιεχόμενα Χρηματοδότηση... Error! Bookmark not defined. Σκοποί Μαθήματος (Επικεφαλίδα

Διαβάστε περισσότερα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ρ. Χαράλαµπος Π. Στρουθόπουλος Αναπληρωτής Καθηγητής

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr Βασίλης Κατσάρης, telia.co.gr Σύνοψη Το σύστημα ΕΥΡΗΚΑ

Διαβάστε περισσότερα

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Συμπληρωματικές σημειώσεις για τον μηχανισμό VCG 1 Εισαγωγή στις Συνδυαστικές

Διαβάστε περισσότερα

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan)

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan) On-the-fly feedback, Upper Secondary Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan) Τάξη: Β Λυκείου Διάρκεια ενότητας Μάθημα: Φυσική Θέμα: Ταλαντώσεις (αριθμός Χ διάρκεια μαθήματος): 6X90

Διαβάστε περισσότερα

Ασαφής Λογική (Fuzzy Logic)

Ασαφής Λογική (Fuzzy Logic) Ασαφής Λογική (Fuzzy Logic) Ασάφεια: έννοια που σχετίζεται με την ποσοτικοποίηση της πληροφορίας και οφείλεται κυρίως σε μη-ακριβή (imprecise) δεδομένα. Π.χ. "Ο Νίκος είναι ψηλός": δεν προσδιορίζεται με

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ποσοτικές Μέθοδοι Ανάλυσης στις Ενότητα 5: Ανάλυση στοιχείων. Θεόδωρος Χατζηπαντελής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet Σημασιολογικά Δίκτυα Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών. Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές

Διαβάστε περισσότερα

Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ

Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ 1 Λειτουργικές απαιτήσεις Το σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών στοχεύει στο να επιτρέπει την πλήρως ηλεκτρονική υποβολή αιτήσεων από υποψήφιους

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη 19ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών, 3-5 Νοεμβρίου 2010, Αθήνα Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη Άννα Μάστορα (1) Μαρία Μονόπωλη (2) Σαράντος Καπιδάκης

Διαβάστε περισσότερα

Εισαγωγή στους Υπολογιστές

Εισαγωγή στους Υπολογιστές Εισαγωγή στους Υπολογιστές Ενότητα #2: Αναπαράσταση δεδομένων Αβεβαιότητα και Ακρίβεια Καθ. Δημήτρης Ματαράς Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών Αναπαράσταση δεδομένων (Data Representation), Αβεβαιότητα

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος Αναστασιάδης Αντώνιος Τα ιστολόγια σήμερα Διπλωματική Εργασία Η σημασία των πληροφοριών των ιστολόγιων Μέθοδοι κατάτμησης ιστολόγιων Αξιολόγηση κατάτμησης Ταξινόμηση καταχωρήσεων Αξιολόγηση ταξινόμησης

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ ΕΞΕΤΑΣΕΩΝ Μ ΑΪΟΥ 2002 2004 Δ ΕΥΤΕΡΟ ΜΕΡΟΣ Π ΕΡΙΛΗΨΗ: Η μελέτη αυτή έχει σκοπό να παρουσιάσει και να ερμηνεύσει τα ευρήματα που προέκυψαν από τη στατιστική

Διαβάστε περισσότερα

Τίτλος Πακέτου Certified Computer Expert-ACTA

Τίτλος Πακέτου Certified Computer Expert-ACTA Κωδικός Πακέτου ACTA - CCE - 002 Τίτλος Πακέτου Certified Computer Expert-ACTA Εκπαιδευτικές Ενότητες Επεξεργασία Κειμένου - Word Δημιουργία Εγγράφου Προχωρημένες τεχνικές επεξεργασίας κειμένου & αρχείων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

TRAVIS TRAFFIC VIOLATION INFORMATION SYSTEM ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΗΣΗΣ ΠΑΡΑΒΑΣΕΩΝ ΦΩΤΟΕΠΙΣΗΜΑΝΣΗΣ

TRAVIS TRAFFIC VIOLATION INFORMATION SYSTEM ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΗΣΗΣ ΠΑΡΑΒΑΣΕΩΝ ΦΩΤΟΕΠΙΣΗΜΑΝΣΗΣ TRAFFIC VIOLATION INFORMATION SYSTEM ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΗΣΗΣ ΠΑΡΑΒΑΣΕΩΝ ΦΩΤΟΕΠΙΣΗΜΑΝΣΗΣ TRAVIS-V1-2012 TRAVIS Λογισμικό Διαχείρισης Παραβάσεων Φωτοεπισήμανσης Το σύστημα διαχείρισης παραβάσεων φωτοεπισήμανσης

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Οικονομικό Πανεπιστήμιο Αθηνών Πρόγραμμα Μεταπτυχιακών Σπουδών «Επιστήμη των Υπολογιστών» Διπλωματική Εργασία Μαρία-Ελένη Κολλιάρου 2

Διαβάστε περισσότερα

Μ Α Θ Η Μ Α Τ Α Γ Λ Υ Κ Ε Ι Ο Υ

Μ Α Θ Η Μ Α Τ Α Γ Λ Υ Κ Ε Ι Ο Υ Μ Α Θ Η Μ Α Τ Α Γ Λ Υ Κ Ε Ι Ο Υ ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΚΑΙ ΣΠΟΥΔΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ (Α ΜΕΡΟΣ: ΣΥΝΑΡΤΗΣΕΙΣ) Επιμέλεια: Καραγιάννης Ιωάννης, Σχολικός Σύμβουλος Μαθηματικών

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΤΗΣ ΧΩΡΙΚΗΣ ΔΟΜΗΣ ΤΗΣ ΒΡΟΧΗΣ. Παρουσίαση διπλωματικής εργασίας Αθανάσιος Πασχάλης Επιβλέπων καθηγητής: Δημήτρης Κουτσογιάννης

ΣΤΟΧΑΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΤΗΣ ΧΩΡΙΚΗΣ ΔΟΜΗΣ ΤΗΣ ΒΡΟΧΗΣ. Παρουσίαση διπλωματικής εργασίας Αθανάσιος Πασχάλης Επιβλέπων καθηγητής: Δημήτρης Κουτσογιάννης ΣΤΟΧΑΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΤΗΣ ΧΩΡΙΚΗΣ ΔΟΜΗΣ ΤΗΣ ΒΡΟΧΗΣ Παρουσίαση διπλωματικής εργασίας Αθανάσιος Πασχάλης Επιβλέπων καθηγητής: Δημήτρης Κουτσογιάννης Διάρθρωση ρ της παρουσίασης Εισαγωγή Στατιστική επεξεργασία

Διαβάστε περισσότερα

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε.

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Χημική Τεχνολογία Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε. Άδειες Χρήσης

Διαβάστε περισσότερα

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΤΟΠΟΓΡΑΦΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΧΑΡΤΟΓΡΑΦΙΑΣ ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Εφαρμοσμένη Βελτιστοποίηση

Εφαρμοσμένη Βελτιστοποίηση Εφαρμοσμένη Βελτιστοποίηση Ενότητα 1: Το πρόβλημα της βελτιστοποίησης Καθηγητής Αντώνιος Αλεξανδρίδης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σημείωμα Αδειοδότησης Το

Διαβάστε περισσότερα

Διαχείριση Υδατικών Πόρων Πολυκριτηριακή ανάλυση

Διαχείριση Υδατικών Πόρων Πολυκριτηριακή ανάλυση Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος Διαχείριση Υδατικών Πόρων Πολυκριτηριακή ανάλυση Ανδρέας Ευστρατιάδης & Δημήτρης Κουτσογιάννης Σχολή Πολιτικών Μηχανικών, Αθήνα Άδεια

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η Μονοδιάστατοι Πίνακες Τι είναι ο πίνακας γενικά : Πίνακας είναι μια Στατική Δομή Δεδομένων. Δηλαδή συνεχόμενες θέσεις μνήμης, όπου το πλήθος των θέσεων είναι συγκεκριμένο. Στις θέσεις αυτές καταχωρούμε

Διαβάστε περισσότερα

Σκοπός του μαθήματος

Σκοπός του μαθήματος Σκοπός του μαθήματος Στο μάθημα αυτό γίνεται εφαρμογή, με τη βοήθεια του υπολογιστή και τη χρήση του στατιστικού προγράμματος S.P.S.S., της στατιστικής θεωρίας που αναπτύχθηκε στα μαθήματα «Εισαγωγή στη

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Τι είναι η ερευνητική εργασία Η ερευνητική εργασία στο σχολείο είναι μια δυναμική διαδικασία, ανοιχτή στην αναζήτηση για την κατανόηση του πραγματικού κόσμου.

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Μάθηση και γνώση: μια συνεχής και καθοριστική αλληλοεπίδραση Αντώνης Λιοναράκης Στην παρουσίαση που θα ακολουθήσει θα μιλήσουμε

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Αβεβαιότητα που εισάγεται στη μέτρηση ραδιενέργειας εδάφους από τα σφάλματα ορισμού δειγματοληψίας

Αβεβαιότητα που εισάγεται στη μέτρηση ραδιενέργειας εδάφους από τα σφάλματα ορισμού δειγματοληψίας Αβεβαιότητα που εισάγεται στη μέτρηση ραδιενέργειας εδάφους από τα σφάλματα ορισμού δειγματοληψίας Γ.Ν. Παπαδάκος, Δ.Ι. Καράγγελος, Ν.Π. Πετρόπουλος, Μ.Ι. Αναγνωστάκης, Ε.Π. Χίνης, Σ.Ε. Σιμόπουλος Τομέας

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 Η Θεωρία Πιθανοτήτων είναι ένας σχετικά νέος κλάδος των Μαθηματικών, ο οποίος παρουσιάζει πολλά ιδιαίτερα χαρακτηριστικά στοιχεία. Επειδή η ιδιαιτερότητα

Διαβάστε περισσότερα

3. Προσομοίωση ενός Συστήματος Αναμονής.

3. Προσομοίωση ενός Συστήματος Αναμονής. 3. Προσομοίωση ενός Συστήματος Αναμονής. 3.1. Διατύπωση του Προβλήματος. Τα συστήματα αναμονής (queueing systems), βρίσκονται πίσω από τα περισσότερα μοντέλα μελέτης της απόδοσης υπολογιστικών συστημάτων,

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version Εκφράζοντας τον ταξινομητή Bayes (a) Με χρήση συναρτήσεων διάκρισης (discriminant functions) - Έστω g q (x)=f(p(ω q )p(x ω q )), q=,,m, όπου f γνησίως

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Τεχνικές Έρευνας. Εισήγηση 10 η Κατασκευή Ερωτηματολογίων

Τεχνικές Έρευνας. Εισήγηση 10 η Κατασκευή Ερωτηματολογίων Τεχνικές Έρευνας Ε. Ζέτου Ε εξάμηνο 2010-2011 Εισήγηση 10 η Κατασκευή Ερωτηματολογίων ΣΚΟΠΟΣ Η συγκεκριμένη εισήγηση έχει σαν σκοπό να δώσει τις απαραίτητες γνώσεις στο/στη φοιτητή/τρια για τον τρόπο διεξαγωγής

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης Διδάσκων: Δαφέρμος Βασίλειος ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΣΧΟΛΗΣ ΚΟΙΝΩΝΙΚΩΝ

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ 1.1 Να δοθεί ο ορισμός του προβλήματος καθώς και τρία παραδείγματα

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας Μακεδόνας Ανδρέας Μεταδιδακτορικός Ερευνητής Τμ. Φυσικής, Εργαστήριο Ηλεκτρονικής Ένα απλό ερώτημα Στον κόσμο την πληροφορίας υπάρχει

Διαβάστε περισσότερα

Μεθοδολογία ερευνητικής εργασίας

Μεθοδολογία ερευνητικής εργασίας Μεθοδολογία ερευνητικής εργασίας Σύντομος οδηγός επιβίωσης Μεθοδολογία Ερευνητικής Εργασίας: Γ. Τράπαλης & Ά. Μητρέλης 1 Τι είναι Έρευνα: η παραγωγή πρωτότυπων αποτελεσμάτων μέσω της συστηματικής, ορθολογικής

Διαβάστε περισσότερα

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ 3.1 Εισαγωγή ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ Στο κεφ. 2 είδαμε πώς θα μπορούσαμε να σχεδιάσουμε έναν βέλτιστο ταξινομητή εάν ξέραμε τις προγενέστερες(prior) πιθανότητες ( ) και τις κλάση-υπό όρους πυκνότητες

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

Αν Α και Β είναι δύο ενδεχόμενα ενός δειγματικού χώρου να αποδείξετε ότι: Αν Α Β τότε Ρ(Α) Ρ(Β)

Αν Α και Β είναι δύο ενδεχόμενα ενός δειγματικού χώρου να αποδείξετε ότι: Αν Α Β τότε Ρ(Α) Ρ(Β) ΠΡΟΤΥΠΟ ΠΕΙΡΑΜΑΤΙΚΟ ΛΥΚΕΙΟ ΑΝΑΒΡΥΤΩΝ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΕΞΕΤΑΣΕΙΣ ΠΡΟΣΟΜΟΙΩΣΗΣ 04 ΘΕΜΑ ο Α. Πότε δύο ενδεχόμενα Α και Β ενός δειγματικού χώρου Ω ονομάζονται ασυμβίβαστα;

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C Επιμέλεια: Κ Μυλωνάκης ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΕΡΩΤΗΣΗ Τι ονομάζεται πραγματική συνάρτηση με πεδίο ορισμού το Α; Έστω Α ένα υποσύνολο του R Ονομάζουμε πραγματική συνάρτηση με πεδίο ορισμού το Α μια διαδικασία

Διαβάστε περισσότερα