«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης»

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης»"

Transcript

1 «Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το ίπλωµα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστηµάτων του ΝΙΚΟΛΑΟΥ ΚΩΝΣΤΑΝΤΟΥ ΑΚΗ

2 ΠΕΡΙΛΗΨΗ Η Αυτόµατη Κατηγοριοποίηση των Ιστοσελίδων είναι ένας επιστηµονικός τοµέας που συνεχώς κερδίζει έδαφος στις προτεραιότητες του κλάδου της Αυτόµατης Κατηγοριοποίησης Κειµένου εξαιτίας της ραγδαίας ανάπτυξης του ιαδικτύου και της, αναλόγου µεγέθους, ανάγκης των χρηστών για ευκολότερη πρόσβαση στην προσφερόµενη πληροφορία. Η παρούσα εργασία έχει ως σκοπό την σχεδίαση και ανάπτυξη ενός συστήµατος αυτόµατης ταξινόµησης ιστοσελίδων σε προκαθορισµένες κατηγορίες, που θα βασίζεται σε γνωστούς αλγορίθµους µηχανικής µάθησης. Για την επίτευξη του σκοπού αυτού µελετήθηκε το πρόβληµα της αυτόµατης κατηγοριοποίησης κειµένου και η εφαρµογή του στην ιδιαίτερη φύση των ιστοσελίδων. Χρησιµοποιήθηκε ένα σώµα ιστοσελίδων από το οποίο καθορίστηκαν οι θεµατικές κατηγορίες που άνηκαν τα στοιχεία του, καθώς και από το οποίο ορίστηκε το υποσύνολο του πάνω στο οποίο εκπαιδεύτηκε το σύστηµα. Τα πειράµατα που έγιναν για την παρούσα εργασία χαρακτηρίζονται από το είδος των αλγορίθµων µηχανικής µάθησης που χρησιµοποιήθηκαν, των τεχνικών εξαγωγής των χαρακτηριστικών, του τρόπου ανάθεσης βαρών στους όρους και των τεχνικών µείωσης του χώρου των χαρακτηριστικών. Τέλος, επιλεγούµε την τεχνική αυτή ταξινόµησης που επιφέρει την µεγαλύτερη αποτελεσµατικότητα στο σύστηµα που αναπτύξαµε. ii

3 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ... ii ΕΥΡΕΤΗΡΙΟ ΣΧΗΜΑΤΩΝ και ΠΙΝΑΚΩΝ... v 1.1 Αντικείµενο της διπλωµατικής εργασίας Στόχοι της διπλωµατικής εργασίας Αυτόµατη Κατηγοριοποίηση Κειµένου Ορισµός Είδη Κατηγοριοποίησης Κειµένου Εφαρµογές της Κατηγοριοποίησης Κειµένου Μηχανική Μάθηση Μηχανική Μάθηση και Κατηγοριοποίηση Κειµένου Κατασκευή Συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου Μελέτη και αναπαράσταση του σώµατος κειµένων Επαγωγική κατασκευή του ταξινοµητή κειµένου Αποτίµηση της απόδοσης του ταξινοµητή Αλγόριθµοι Μάθηση κατά Bayes έντρα Απόφασης Μάθηση Βασισµένη σε Παραδείγµατα Μέθοδοι on-line Τεχνητά Νευρωνικά ίκτυα Μηχανές Υποστήριξης ιανυσµάτων Η µέθοδος της Ενδυνάµωσης Algorithm AdaBoost.M Do for t=1,2,,t Αυτόµατη Κατηγοριοποίηση Ιστοσελίδων Η γλώσσα προγραµµατισµού HTML Ιστοσελίδες και Αυτόµατη Κατηγοριοποίηση Επεξεργασία Ιστοσελίδων Πειράµατα και η Αξιολόγηση της Απόδοσης των Ταξινοµητών Οργάνωση των πειραµάτων Αξιολόγηση της Απόδοσης των Αλγορίθµων Ταξινόµησης Πειράµατα µε ανάθεση βάρους σύµφωνα µε την Συχνότητα εµφάνισης των Όρων των ιστοσελίδων Naïve Bayes Multinomial iii

4 Sequential Minimal Optimization k-nearest Neighbor AdaBoost.M Συµπεράσµατα πειραµάτων κεφαλαίου Πειράµατα µε ανάθεση βάρους σύµφωνα µε την συνάρτηση tfidf Naïve Bayes Multinomial Sequential Minimal Optimization k-nearest Neighbor AdaBoost.M Συµπεράσµατα πειραµάτων κεφαλαίου ΚΕΦΑΛΑΙΟ 4 Συµπεράσµατα 105 ΒΙΒΛΙΟΓΡΑΦΙΑ.108 iv

5 ΕΥΡΕΤΗΡΙΟ ΣΧΗΜΑΤΩΝ και ΠΙΝΑΚΩΝ Σχήµα 1: διαγραµµατική απεικόνιση του προβλήµατος κατηγοριοποίησης δυο γραµµικά διαχωρίσιµων κλάσεων... σελ. 30 Πίνακας : πίνακας κατάταξης των ιστοσελίδων του πειράµατος στις θεµατικές τους κατηγορίες και πλήθος τους ανά κατηγορία. σελ. 41 Πίνακας : είκοσι πρώτες σε συχνότητα λέξεις του συνόλου εκπαίδευσης για την οµάδα πειραµάτων µε λεξικό που δεν βασίζεται σε έτοιµη stoplist..... σελ. 45 Πίνακας : είκοσι πρώτες σε συχνότητα λέξεις του συνόλου εκπαίδευσης για την οµάδα πειραµάτων µε καταρχήν επεξεργασία τους µε τον αλγόριθµο Porter Stemmer.. σελ. 47 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 48 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 50 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης..... σελ. 51 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 53 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 55 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 55 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial,, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 56 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial,, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 56 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 57 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 58 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης. σελ. 60 v

6 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 61 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 63 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 63 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 64 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization,, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 64 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 65 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης... σελ. 66 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 68 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 69 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 70 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 70 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 71 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 71 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 72 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 74 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης... σελ. 75 vi

7 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης... σελ. 76 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 78 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 78 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 79 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 79 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 81 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 82 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 84 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 85 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 86 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 86 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial,, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 87 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 87 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 88 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 89 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 91 vii

8 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 92 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 94 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 94 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 95 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 95 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 96 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 97 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 99 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 100 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 102 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 102 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 103 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 104 viii

9 ΚΕΦΑΛΑΙΟ 1 - Εισαγωγή 1.1 Αντικείµενο της διπλωµατικής εργασίας Η Κατηγοριοποίηση Κειµένων, ξεκινώντας πίσω στην δεκαετία του 1960 και κυρίως την δεκαετία του 1980 µε την ανάπτυξη της τεχνολογίας, προσφέρεται για µελέτη και έρευνα, προκειµένου να αντιµετωπιστούν οι ανάγκες για την ταξινόµηση εγγράφων µε όσο το δυνατότερο λιγότερο χρόνο και κόπο. Η ανάγκη αυτή έγινε ακόµα µεγαλύτερη, επιτακτική θα µπορούσαµε να πούµε, µε την πρόοδο της τεχνολογίας των τελευταίων χρόνων και την ευρεία πλέον χρήση των ηλεκτρονικών υπολογιστών. Τα κείµενα ψηφιακής µορφής έχουν µπει στη ζωή µας και το φαινόµενο αυτό αυξάνεται, όσο διογκώνεται µε ταχείς ρυθµούς, το ιαδίκτυο και αυξάνεται η δηµοφιλία του (ο αριθµός των σελίδων που ήταν διαθέσιµες στο ιαδίκτυο το 2000 ήταν 1 δισεκατοµµύριο µε πρόσθεση 1,5 εκατοµµυρίων καθηµερινά[john M.Pierce]). Το ιαδίκτυο προσφέρει µια ευρεία και εύκολη πρόσβαση σε µια τεράστια βιβλιοθήκη, σε µια τεράστια δεξαµενή πληροφοριών, µέσω της µορφής των ψηφιακών κειµένων. Όµως το παραπάνω γεγονός, αυτόµατα αυξάνει την ανάγκη των χρηστών να έχουν πρόσβαση στις πληροφορίες που του προσφέρονται, όσο το δυνατό ευκολότερα και ταχύτερα. Η ανάγκη αυτή των χρηστών του ιαδικτύου αντιµετωπίζεται µε την Κατηγοριοποίηση των Ιστοσελίδων σε συγκεκριµένες κατηγορίες ανάλογα µε το θεµατικό τους περιεχόµενο. Με αυτόν τον τρόπο επιτυγχάνεται η οµαδοποίηση των πληροφοριών µε βάση το είδος του θέµατος που ασχολούνται ώστε αυτές µετέπειτα να χρησιµοποιηθούν από µια µηχανή αναζήτησης του ιαδικτύου ή για την κατασκευή ιεραρχικών καταλόγων που έχουν στόχο να οργανώσουν ιστοσελίδες σε θεµατικές συλλογές όπως π.χ. οι ιεραρχικοί κατάλογοι του Yahoo. Κάτι τέτοιο προσφέρει στον χρήστη µια ευκολότερη και ταχύτερη πρόσβαση στις πληροφορίες που αναζητά, καθώς οι µηχανές αναζήτησης και οι ιεραρχικοί κατάλογοι, όπως έχουν δείξει έρευνες [Chen και Dumais], είναι οι δηµοφιλέστεροι τρόποι µέχρι σήµερα µέσω των οποίων ένας χρήστης του ιαδικτύου περιηγείται στις ιστοσελίδες. Το αποτέλεσµα των παραπάνω είναι ότι η Κατηγοριοποίηση των Ιστοσελίδων παίζει σηµαντικό ρόλο στην λειτουργικότητα του ιαδικτύου, και αναµένεται να παίξει ακόµα σηµαντικότερο ρόλο στο µέλλον, καθώς ο συγκεκριµένος επιστηµονικός κλάδος έχει ραγδαία ανάπτυξη. Προφανώς, η Κατηγοριοποίηση των Ιστοσελίδων, εξαιτίας του τεράστιου όγκου δεδοµένων, δεν µπορεί να γίνει παρά αυτόµατα. Βασίζεται σε στατιστικές και αλγόριθµους Μηχανικής Μάθησης όπως η µάθηση κατά Bayes, ο αλγόριθµος κ- πλησιέστερων γειτόνων, οι µηχανές υποστήριξης διανυσµάτων, τα νευρωνικά δίκτυα, τα δέντρα απόφασης κ.ά. Σε σχέση µε την Κατηγοριοποίηση Κειµένου, είναι δυσκολότερη εξαιτίας της ιδιαίτερης φύσης των ιστοσελίδων, οι οποίες µπορεί να παραπέµπουν σε άλλες ιστοσελίδες, να περιέχουν πληροφορίες µέσα σε εντολές της γλώσσας προγραµµατισµού της HTML, µεταδεδοµένα, πληροφορίες για την δοµή τους, εικόνες, βίντεο και άλλα multimedia χαρακτηριστικά. 1

10 Όλες οι πληροφορίες από τα παραπάνω χαρακτηριστικά που µπορεί να έχει µια ιστοσελίδα, µπορούν να κάνουν αποδοτικότερη την κατηγοριοποίηση από ότι θα ήταν αν βασιζόµαστε στο κυρίως κείµενο της, αλλά υπάρχει και το ενδεχόµενο αν δεν χρησιµοποιηθούν σωστά να οδηγήσουν στο αντίθετο αποτέλεσµα. 1.2 Στόχοι της διπλωµατικής εργασίας Η παρούσα εργασία ασχολείται µε την ανάπτυξη ενός συστήµατος αυτόµατης ταξινόµησης ιστοσελίδων, οι οποίες υπόκεινται κάτω από προκαθορισµένες θεµατικές κατηγορίες. Το σύστηµα αυτό βασίζεται στους γνωστούς αλγορίθµους µηχανικής µάθησης: Naïve Bayes Multinomial, SMO, k-nn και Ada.Boost.M1. Χρησιµοποιήθηκε ένα έτοιµο σώµα ιστοσελίδων από την µελέτη του οποίου προήρθαν οι θεµατικές κατηγορίες στις οποίες ανήκουν αυτές και από το σώµα αυτό πρόεκυψε το υποσύνολο εκείνο που χρησιµοποιήθηκε για την εκπαίδευση του συστήµατος. Ως απώτερο σκοπό της η εργασία αυτή έχει την µελέτη του προβλήµατος της Αυτόµατης Κατηγοριοποίησης των Ιστοσελίδων και για αυτό, µέσω του συστήµατος ταξινόµησης που αναπτύσσεται, διερευνούµε τεχνικές ταξινόµησης και µελετάτε η αποτελεσµατικότητά τους. Ιδιαίτερα προσανατολιζόµαστε στο πρόβληµα της εξαγωγής των χαρακτηριστικών των ιστοσελίδων, στην ποσοτική αναπαράσταση των χαρακτηριστικών αυτών και στο πρόβληµα της µείωσης της διαστατικότητας. Τα χαρακτηριστικά των ιστοσελίδων προέρχονται από το κυρίως σώµα τους και από τα HTML tags των: τίτλων, παραποµπών, ΜΕΤΑ και εικόνων. Χρησιµοποιούνται επίσης, οι συναρτήσεις ανάθεσης βαρών στους όρους tf και tfidf, stoplists και ένας αλγόριθµος ληµµατοποίησης. Τέλος, θα επιλεγεί ο αλγόριθµος και η τεχνική ταξινόµησης που θα επιφέρουν στο σύστηµα την µεγαλύτερη αποδοτικότητα. 2

11 ΚΕΦΑΛΑΙΟ 2 Θεωρητικό Υπόβαθρο 2.1 Αυτόµατη Κατηγοριοποίηση Κειµένου Ο επιστηµονικός κλάδος της Αυτόµατης Κατηγοριοποίησης Κειµένου (Automated Text Categorization) έχει την αρχή της στην δεκαετία του 1960, αλλά η µεγάλη ανάπτυξη του έγινε την δεκαετία του 1990 εξαιτίας της ανάγκης για την διαχείριση του µεγάλου όγκου πληροφοριών που επιτάσσει η εποχή µας και την ραγδαία εξέλιξη στον τοµέα του hardware. Τα τελευταία δέκα χρόνια, η ανάπτυξη των τοµέων που σχετίζονται µε την διακίνηση της πληροφορίας δηµιούργησε την ανάγκη διαχείρισης εγγράφων που βρίσκονται σε ψηφιακή µορφή και των οποίων ο όγκος συνεχώς αυξανόταν. Αυτό είχε ως αποτέλεσµα να υπάρξει µεγάλο ενδιαφέρον για την ανάπτυξη του τοµέα της Κατηγοριοποίησης Κειµένου. Μέχρι την δεκαετία του 1990, η Κατηγοριοποίηση Κειµένων ήταν συνυφασµένη µε εύρεση ειδικών κανόνων από τους επιστήµονες, κάτω από τους οποίους γινόταν ανάθεση κειµένων στις διάφορες κατηγορίες. Από εκεί και έπειτα, η επιστηµονική κοινότητα, µε την βοήθεια των τοµέων της Μηχανικής Μάθησης και της Ανάκτησης της Πληροφορίας, συνήθως προσεγγίζει την Αυτόµατη Κατηγοριοποίηση Κειµένων µέσω της ανάπτυξης µιας γενικής επαγωγικής διαδικασίας που αυτόµατα κατασκευάζει έναν αυτόµατο ταξινοµητή κειµένου, ο οποίος µε την βοήθεια ενός συνόλου ήδη ταξινοµηµένων εγγράφων, επεξεργάζεται και «µαθαίνει» τα χαρακτηριστικά των κατηγοριών που τον ενδιαφέρουν, ώστε να τα χρησιµοποιήσει για να ταξινοµήσει ένα άγνωστο έγγραφο. Τα πλεονεκτήµατα από αυτήν την τελευταία προσέγγιση είναι η ακρίβεια στην ταξινόµηση που φτάνει αυτήν της πρώτης προσέγγισης που αναφέρθηκε παραπάνω, δηλαδή χρησιµοποιώντας ειδικούς κανόνες, χωρίς να απαιτείται η µεσολάβηση ανθρώπινης παρουσίας Ορισµός Όπως αναφέρθηκε και παραπάνω, η Αυτόµατη Κατηγοριοποίηση Κειµένου είναι η διαδικασία της αυτόµατης ταξινόµησης ενός συνόλου εγγράφων κάτω κατηγορίες, µε την βοήθεια ενός προκαθορισµένου συνόλου κατηγοριών. Αναλυτικότερα, έστω ένα σύνολο εγγράφων D { d, } =,... 1 d n το οποίο πρέπει να C = c...,. ταξινοµηθεί κάτω από ένα σύνολο προκαθορισµένων κατηγοριών { } 1, c m 3

12 Με τον όρο Κατηγοριοποίηση Κειµένων περιγράφουµε την διαδικασία ανάθεσης µιας Boolean τιµής σε κάθε ζευγάρι d j, ci D C, δηλαδή την διαδικασία προσέγγισης της άγνωστης συνάρτησης-στόχου Φ ( : D C { T, F}, που εκφράζει πως τα έγγραφα οφείλουν να κατηγοριοποιηθούν, µε την βοήθεια µιας συνάρτησης Φ : D C { T, F} που ονοµάζεται ταξινοµητής (classifier) (ή κανόνας, ή υπόθεση, ή µοντέλο). H τιµή Τ δίνεται αν γίνεται ανάθεση του εγγράφου d j κάτω από την κατηγορία c i, ενώ η τιµή F δίνεται αν δεν γίνεται ανάθεση του εγγράφου d j κάτω από την κατηγορία c i. Αυτό µπορεί να περιγραφεί και από τον παρακάτω πίνακα, όπου οι τιµές T, F α 11,...,α mn παίρνουν τις τιµές { } d 1... d 2 d n c 1 α 11 α 1j α 1n c 2 α i1 α ij α in c n α m1 α mj α mn Σε σχέση µε τα παραπάνω θα πρέπει να σηµειωθεί ότι: Τα ονόµατα των κατηγοριών είναι απλώς συµβολικές ετικέτες και τα οποία δεν µπορούν να παρέχουν καµιά άλλη γνώση που θα βοηθήσει στην διαδικασία της κατηγοριοποίησης. εν παρέχεται κανενός είδους εξωγενής γνώσης (ηµεροµηνία έκδοσης, τύπος εγγράφου, πηγή έκδοσης κτλ), οπότε η ταξινόµηση θα πρέπει να βασιστεί µόνο στην ενδογενή γνώση που προέρχεται από τις πληροφορίες που µπορούµε να εκµαιεύσουµε από το κάθε έγγραφο. Αυτό έχει σαν αποτέλεσµα ο χαρακτηρισµός µιας απόφασης του ταξινοµητή για το αν είναι σωστή ή λάθος, να είναι υποκειµενική. Να παρουσιάζεται δηλαδή το ίδιο φαινόµενο µε αυτό του να διαφωνούν πολύ συχνά δυο άτοµα που καλούνται να αποφασίσουν για το σε ποια κατηγορία πρέπει να καταταχτεί ένα έγγραφο (phenomenon of interindexer inconsistency) Είδη Κατηγοριοποίησης Κειµένου Ανάλογα µε την εφαρµογή που πρέπει να εκτελέσουµε, η Κατηγοριοποίηση Κειµένου µπορεί να υποδιαιρεθεί σε διάφορα είδη. Αυτά µπορεί να είναι ανάλογα είτε του πλήθους των κατηγοριών που πρέπει να ταξινοµηθούν τα έγγραφα, είτε του προσανατολισµού της κατηγοριοποίησης (ταξινόµηση κάτω από κατηγορίες ή στο 4

13 κείµενο), είτε της απόφασης της ταξινόµησης. c C Πιο συγκεκριµένα, αν η εφαρµογή απαιτεί ακριβώς µια κατηγορία i να d D ανατεθεί σε κάθε έγγραφο j τότε έχουµε να κάνουµε µε κατηγοριοποίηση µονής 0 n C ετικέτας (single-label), ενώ αν ένας αριθµός κατηγοριών n j, µε j, µπορεί να d D αντιστοιχηθεί σε ένα έγγραφο j τότε έχουµε να κάνουµε µε κατηγοριοποίηση πολλαπλής ετικέτας (multi-label). Μια περίπτωση κατηγοριοποίησης µονής ετικέτας είναι η δυαδική (binary) κατηγοριοποίηση. Σε αυτήν την περίπτωση, σε κάθε έγγραφο d j Dπρέπει να ανατεθεί είτε η κατηγορία c είτε η συµπληρωµατική της c. Υπό αυτό i i το πρίσµα, ένα πρόβληµα κατηγοριοποίησης πολλαπλής ετικέτας (αν οι κατηγορίες c είναι ανεξάρτητες µεταξύ τους) µπορεί να αντιµετωπιστεί ως ανεξάρτητα προβλήµατα δυαδικής κατηγοριοποίησης, όπου σε κάθε έγγραφο ανατίθεται είτε µια i κατηγορία c c i, είτε µια κατηγορία και που αυτή η κατηγορία µπορεί να είναι οποιαδήποτε από τις κατηγορίες που µας ενδιαφέρουν. Το αποτέλεσµα είναι ότι ένας c ταξινοµητής πολλαπλής ετικέτας µπορεί να δηµιουργηθεί από ανεξάρτητους ταξινοµητές. Να σηµειωθεί κάπου εδώ ότι η φιλολογία περί Κατηγοριοποίησης Κειµένων εξαπλώνεται κυρίως γύρω από την δυαδική κατηγοριοποίηση. Επίσης, υπάρχουν δύο τρόποι να χρησιµοποιήσουµε έναν ταξινοµητή κειµένου ανάλογα µε το είδος της εφαρµογής και της φύσης του ταξινοµητή. Ο ένας τρόπος χρησιµοποιείται όταν θέλουµε να βρούµε κάτω από ποια c C κατηγορία i µπορεί να ταξινοµηθεί ένα έγγραφο και ο οποίος ονοµάζεται κατηγοριοποίηση βασισµένη στην κατηγορία (document-pivoted categorization-dpc). Αυτός ο τρόπος εφαρµόζεται όταν δεν έχει καθοριστεί το σύνολο των κατηγοριών από την αρχή της εκτέλεσης της εφαρµογής και κατά την διάρκεια της µπορεί να προστεθεί µια νέα κατηγορία. O δεύτερος τρόπος χρησιµοποιείται όταν θέλουµε να βρούµε όλα τα έγγραφα d j D που µπορούν να ταξινοµηθούν κάτω από µια κατηγορία c i C. Αυτή η κατηγοριοποίηση ονοµάζεται κατηγοριοποίηση βασισµένη στο κείµενο (categorypivoted categorization-cpc). Τέλος, υπάρχει η περίπτωση ένα σύστηµα ταξινόµησης να κατατάσσει σε µια C = λίστα τις κατηγορίες { c, 1..., c m } d D ανάλογα µε την καταλληλότητα ενός εγγράφου j, χωρίς να παίρνει µια τελική απόφαση για αυτές (category-ranking Text Classification). Στην συνέχεια αυτήν την λίστα µπορεί να την χρησιµοποιήσει ένας ειδικός για ταξινοµήσει το έγγραφο. Υπάρχει και η άλλη περίπτωση όπου ένα d D σύστηµα ταξινόµησης να κατατάσσει ένα έγγραφο j c C κάτω από µια κατηγορία i (document-ranking Text Classification), οπότε ένας ειδικός µπορεί να εξετάσει την ταξινοµηµένη λίστα των εγγράφων. Σε αυτή την περίπτωση, αντίθετα µε την προηγούµενη µπορεί ένας ταξινοµητής να κατατάσσει αυτοµάτως ένα έγγραφο, χωρίς την συµµετοχή κανενός εξωγενή παράγοντα Εφαρµογές της Κατηγοριοποίησης Κειµένου Σε αυτήν την ενότητα θα γίνει µια προσπάθεια να παρουσιαστούν οι κυριότερες 5

14 εφαρµογές του τοµέα της Αυτόµατης Κατηγοριοποίησης Κειµένου, από την αρχή της ανάπτυξής της στην δεκαετία του 1960, έως σήµερα: 1. Αυτόµατη Ευρετηριοποίηση υαδικών Συστηµάτων Ανάκτησης Πληροφορίας (Automatic Indexing for Boolean Information Retrieval Systems). Αυτή η εφαρµογή σκοπό της έχει την αυτόµατη ευρετηριοποίηση εγγράφων για συστήµατα Ανάκτησης Πληροφορίας, µε βάση ένα ελεγχόµενο λεξικό. ηλαδή, σε κάθε κείµενο ανατίθεται ένα σύνολο από λέξεις-κλειδιά ή φράσεις και το οποίο είναι ένα σύνολο πεπερασµένο που ονοµάζεται ελεγχόµενο λεξικό. Με αυτό το είδος των εφαρµογών σχετίζεται και η Αυτόµατη Παραγωγή Μεταδεδοµένων (Automated Metadata Generation). Η παραπάνω εφαρµογή χρησιµοποιείται κυρίως στις ψηφιακές βιβλιοθήκες όπου ένα κείµενο µπορεί να περιγραφεί από ένα σύνολο µεταδεδοµένων, όπως π.χ. η ηµεροµηνία της δηµιουργίας του, το είδος του εγγράφου, η διαθεσιµότητα του κτλ. 2. Οργάνωση Εγγράφων (Document Organization). Το είδος των εφαρµογών αυτών έχουν ως στόχο τους την οργάνωση εγγράφων κάτω από κατηγορίες, είτε για προσωπικούς σκοπούς, είτε ως βάσεις εγγράφων. Π.χ. τα γραφεία µιας εφηµερίδας µπορούν να χρησιµοποιήσουν ένα τέτοιο σύστηµα για να ταξινοµούν τις ειδήσεις που λαµβάνουν, κάτω από κατηγορίες όπως πολιτικά νέα, αστυνοµικά, κτλ 3. Φιλτράρισµα Εγγράφων (Text Filtering). Ο όρος Φιλτράρισµα Εγγράφων αναφέρεται σε εκείνες τις εφαρµογές που ως στόχο τους έχουν την ταξινόµηση ενός συνόλου εισερχόµενων εγγράφων που αποστέλλονται µε ασύγχρονο τρόπο από µια πηγή πληροφορίας σε έναν καταναλωτή πληροφορίας. Ένα τέτοιο σύστηµα µπορεί να εγκατασταθεί στο άκρο της πηγής της πληροφορίας, όπου θα έχει ως σκοπό να φιλτράρει τα έγγραφα της πηγής και να αφήνει µόνο τα κατάλληλα έγγραφα να δροµολογηθούν προς τον καταναλωτή πληροφορίας. Ή, παρόµοια, το σύστηµα µπορεί να εγκατασταθεί στο άκρο του καταναλωτή πληροφορίας και να µπλοκάρει τα έγγραφα αυτά που δεν τον ενδιαφέρουν. 4. Αποσαφήνιση Νοήµατος Λέξης (Word Sense Disambiguation). Οι εφαρµογές αυτές έχουν ως στόχο την εύρεση του νοήµατος µιας λέξης µε διφορούµενη έννοια, που υπάρχει σε ένα έγγραφο. Παρόµοιου τύπου εφαρµογές είναι και του ορθογράφου µε βάση το περιεχόµενο του κειµένου (context-sensitive spelling correction), της κατάλληλης επιλογής λέξης (word choice selection) κ.α. 5. Αυτόµατη Απόδοση Συγγραφικής Ιδιότητας (Automated Authorship Attribution), Ταξινόµηση Ανάλογη της Προέλευσης (Genre Classification). Οι εφαρµογές που σχετίζονται µε την Αυτόµατη Απόδοση Συγγραφικής Ιδιότητας έχουν ως στόχο τον προσδιορισµό του ιδιοκτήτη ενός κειµένου αµφισβητούµενης ή άγνωστης προέλευσης, µε την βοήθεια ενός προκαθορισµένου συνόλου υποψηφίων ιδιοκτητών. Η Ταξινόµηση Ανάλογη της Προέλευσης, όπως λέει και το όνοµα της, έχει ως στόχο την ταξινόµηση των εγγράφων κάτω από κατηγορίες, ανάλογα µε τα ιδιαίτερα χαρακτηριστικά του τρόπου γραφής τους, και όχι µε το θέµα τους. 6. Φιλτράρισµα Ανεπιθύµητης Ηλεκτρονικής Αλληλογραφίας (Spam Filtering). Το Φιλτράρισµα Ανεπιθύµητης Ηλεκτρονικής Αλληλογραφίας είναι µια κατηγορία εφαρµογών της Αυτόµατης Κατηγοριοποίησης Κειµένου, που είναι 6

15 ιδιαίτερα δηµοφιλής την σηµερινή εποχή λόγω της ραγδαίας εξέλιξης του διαδικτύου. Οι εφαρµογές της κατηγορίας αυτής αποτελούνται από ένα συνδυασµό τεχνικών filtering και genre classification και είναι µια προσπάθεια να µην παραδίνεται στον κάτοχο µιας ηλεκτρονικής διεύθυνσης, αλληλογραφία που δεν επιθυµεί. 7. Ιεραρχική Κατηγοριοποίηση Ιστοσελίδων (Hierarchical Categorization of Web Pages). Επίσης µια κατηγορία εφαρµογών µε µεγάλη ανάπτυξη τα τελευταία χρόνια εξαιτίας της ραγδαίας εξέλιξης του διαδικτύου, είναι η Κατηγοριοποίηση Ιστοσελίδων και διαδικτυακών τόπων, κάτω από ιεραρχικούς καταλόγους που βρίσκονται σε διάφορες µηχανές αναζήτησης, µε σκοπό να διευκολύνουν τους χρήστες να επισκέπτονται ιστοσελίδες και να αναζητούν πληροφορίες µε το ίδιο θεµατικό περιεχόµενο, καταναλώνοντας λιγότερο κόπο και χρόνο. Γενικότερα, µπορούµε να πούµε ότι τα κυριότερα κοινά γνωρίσµατα των εφαρµογών της Κατηγοριοποίησης Κειµένου είναι τα παρακάτω: 1. Η ανάγκη για ταξινόµηση εγγράφων που το κύριο συστατικό τους είναι η ύπαρξη κειµένου. 2. Αυτά τα έγγραφα είναι σε τόσο µεγάλες ποσότητες που η ταξινόµηση τους από ανθρώπους έχει µεγάλο χρηµατικό και χρονικό κόστος. 3. Το γεγονός ότι το σύνολο των κατηγοριών είναι γνωστό εκ των προτέρων και η διαφοροποίηση του µέσα στο χρόνο είναι µικρή. 2.1 Μηχανική Μάθηση Ο τοµέας της Μηχανικής Μάθησης είναι µια περιοχή της Τεχνητής Νοηµοσύνης που ως σκοπό του έχει να κατασκευάσει προγράµµατα υπολογιστών που αυτόµατα θα βελτιώνεται η απόδοση τους, µε την εµπειρία που θα αποκτούν κατά την διάρκεια του χρόνου της λειτουργίας τους. Αυτή η ιδέα στην οποία στηρίζεται η Μηχανική Μάθηση είναι κάτι που απασχόλησε τον επιστηµονικό κλάδο από την πρώτη στιγµή που ανακαλύφθηκαν οι ηλεκτρονικοί υπολογιστές. εν µπορούµε να πούµε ότι ακόµα οι υπολογιστές µαθαίνουν ικανοποιητικά σε σχέση µε τους ανθρώπους, αλλά µια σειρά προσπαθειών έχουν γίνει από τα τέλη της δεκαετίας του 1960 µέχρι σήµερα. Μερικές επιτυχηµένες προσπάθειες στον κλάδο της Μηχανικής Μάθησης είναι στην Αναγνώριση Οµιλίας, στην Αυτόµατη Κατηγοριοποίηση Κειµένου, στην Ταξινόµηση Νέων Αστρονοµικών οµών, στο παίξιµο παιχνιδιών όπως τάβλι και σκάκι σε επίπεδο ανταγωνισµού παγκόσµιων πρωταθλητών. Ορισµός Μηχανικής Μάθησης: Ένα πρόγραµµα υπολογιστή λέγεται ότι µαθαίνει από την εµπειρία Ε κατά την εφαρµογή διεργασιών και µε µέτρο απόδοσης Α, αν η απόδοση του στις διεργασίες, όπως υπολογίζεται από το µέτρο Α, βελτιώνεται µε την εµπειρία Ε. 7

16 Για να προσεγγίσουµε από την σωστή οπτική γωνία ένα πρόβληµα Μηχανικής Μάθησης, αρχικά πρέπει να το ορίσουµε χρησιµοποιώντας τα παρακάτω τρία χαρακτηριστικά: 1. ιεργασία που εκτελεί το πρόγραµµα 2. Μέτρο Απόδοσης Α σύµφωνα µε το οποίο αξιολογείται το πρόγραµµα 3. Εµπειρία Ε που αποκτά το πρόγραµµα και την χρησιµοποιεί για την µετέπειτα αύξηση της απόδοσης του σε επόµενες διεργασίες Στην συνέχεια, για να σχεδιάσουµε ένα σύστηµα Μηχανικής Μάθησης, θα πρέπει να ακολουθήσουµε τα εξής βήµατα: 1. Προσδιορισµός του τύπου των δεδοµένων εισόδου 2. Προσδιορισµός της συνάρτησης-στόχου 3. Προσδιορισµός της αναπαράστασης της συνάρτησης µάθησης 4. Προσδιορισµός του αλγορίθµου µάθησης 5. Τελικός σχεδιασµός συστήµατος Προσδιορισµός του τύπου των δεδοµένων εισόδου Προσδιορισµός της συνάρτησηςστόχου Προσδιορισµός της αναπαράστασης της συνάρτησης µάθησης Προσδιορισµός του αλγορίθµου µάθησης Τελικός σχεδιασµός συστήµατος 8

17 1. Προσδιορισµός του τύπου των δεδοµένων εκπαίδευσης Στην προσπάθεια µας να σχεδιάσουµε ένα σύστηµα µάθησης, αρχικά θα πρέπει να προσδιορίσουµε τον τύπο της εµπειρίας που θα χρησιµοποιηθεί από το σύστηµα για την µάθηση του. Αυτό είναι καθοριστικό στην µετέπειτα απόδοση του ταξινοµητή. Τρία είναι τα χαρακτηριστικά αυτού του σταδίου: 1. Το πρώτο χαρακτηριστικό συνίσταται στην επιλογή του αν η εµπειρία που θα ευθύνεται για την εκπαίδευση, θα παρέχει στο σύστηµα άµεση ή έµµεση γνώση. ηλαδή αν το σύστηµα θα έχει την δυνατότητα να µάθει από άµεσα παραδείγµατα εκπαίδευσης που θα έχουν χαρακτηριστεί ως προς την γνώση που παρέχουν, ή εναλλακτικά, το σύστηµα θα µπορεί να µάθει από έµµεσα παραδείγµατα, οπότε και θα πρέπει το ίδιο το σύστηµα να εκµαιεύσει την γνώση από αυτά κατά το στάδιο της εκπαίδευσης του. Προφανώς, η άµεση εκπαίδευση προσφέρει ευκολότερη µάθηση στο σύστηµα από ότι η έµµεση. Αυτές οι δυο κατηγορίες χαρακτηρίζονται επίσης ως µάθηση µε επίβλεψη (supervised learning) στην περίπτωση που τα στιγµιότυπα εκπαίδευσης καθορίζουν την διαδικασία της µάθησης (όπως π.χ. τα πρόβληµα κατηγοριοποίησης κειµένου όπου το σωστό αποτέλεσµα της ταξινόµησης είναι µέρος της πληροφορίας των παραδειγµάτων), και ως µάθηση χωρίς επίβλεψη (unsupervised learning) όταν το σύστηµα ταξινόµησης είναι υπεύθυνο για την ανακάλυψη της γνώσης (π.χ. στις περιπτώσεις οµαδοποίησης (clustering) όπου ο ταξινοµητής οµαδοποιεί τα όµοια στιγµιότυπα ώστε έπειτα να βρει τις κατηγορίες του προβλήµατος. 2. Το δεύτερο χαρακτηριστικό συνίσταται στο κατά πόσο το σύστηµα έχει τον πλήρη έλεγχο των παραδειγµάτων κατά την διάρκεια της εκπαίδευσης ή ζητά επιπλέον γνώση από τον χρήστη. 3. Το τρίτο χαρακτηριστικό συνίσταται στο κατά πόσο καλά αναπαριστούν την γνώση τα παραδείγµατα εκπαίδευσης και κατά πόσο αυτή η αναπαράσταση έχει οµοιότητες µε τα παραδείγµατα ελέγχου πάνω στα οποία θα βασιστεί η αξιολόγηση του συστήµατος. Να σηµειωθεί ότι η µάθηση είναι πιο αξιόπιστη όταν η οµοιότητα αυτή είναι µεγάλη. 2. Προσδιορισµός της συνάρτησης-στόχου Το δεύτερο στάδιο της σχεδίασης ενός συστήµατος µάθησης είναι συνυφασµένο µε τον προσδιορισµό του τύπου της γνώσης που θα χρησιµοποιηθεί και πως από αυτή θα «µάθει» το σύστηµα. ηλαδή, θα πρέπει να ορίσουµε στο σύστηµα πως από ένα παράδειγµα θα βρει την γνώση που θέλει και πως θα την χαρακτηρίσει. Αυτό θα γίνει διαµέσου της εύρεσης της κατάλληλης συνάρτησης, της οποίας η τιµή θα χρησιµοποιείτε για να αποφασίζει το σύστηµα για το παράδειγµα που καλείται να επεξεργαστεί. 3. Προσδιορισµός της αναπαράστασης της συνάρτησης-στόχου Έπειτα, θα πρέπει να µελετηθούν τα παραδείγµατα που θα χρησιµοποιήσει το σύστηµα ώστε να προσδιοριστεί η φύση τους και των ιδιαίτερων χαρακτηριστικών τους. Στην συνέχεια θα πρέπει να αποφασιστεί µε ποιον τρόπο θα αναπαρασταθούν τα χαρακτηριστικά τους που µας ενδιαφέρουν για να τα χρησιµοποιήσει η συνάρτηση-στόχος, π.χ. µέσω ενός διανύσµατος. Τα χαρακτηριστικά µπορούν να είναι: 1. διακριτά σύµβολα, οπότε και ονοµάζονται ονοµαστικά (nominal) 9

18 2. διακριτά σύµβολα σε διάταξη οπότε και ονοµάζονται τακτικά (ordinal) 3. περιοδικά (interval) χαρακτηριστικά των οποίων οι τιµές είναι διατεταγµένες και παρουσιάζουν περιοδικότητα όπως π.χ. το χαρακτηριστικό «έτος» 4. αναλογικά (ratio) χαρακτηριστικά που έχουν τις ιδιότητες των πραγµατικών αριθµών Τα περισσότερο χρησιµοποιούµενα χαρακτηριστικά είναι τα ονοµαστικά και τα τακτικά. Τα ονοµαστικά µπορούν να είναι ρητά (categorical), απαριθµηµένα (enumerated) ή διακριτά (discrete), ενώ τα τακτικά µπορεί να είναι αριθµητικά (numeric) ή συνεχή (continuous). Το πλήθος των χαρακτηριστικών, έστω d, προσδιορίζει τον d-διάστατο χώρο του προβλήµατος και ορίζει το µέγεθος της αναπαράστασης κάθε στιγµιότυπου εκπαίδευσης που στην συγκεκριµένη περίπτωση θα έχει d διαστάσεις. Επίσης, θα πρέπει να δοθεί έµφαση στο γεγονός ότι υπάρχει η περίπτωση να υπάρξουν λάθη στα χαρακτηριστικά ορισµένων παραδειγµάτων. Αυτό ονοµάζεται θόρυβος (noise) και η ύπαρξη του, στην περίπτωση που δεν παρουσιάζεται µε την ίδια µορφή στις φάσεις εκπαίδευσης και ελέγχου, οδηγεί στην χαµηλή απόδοση του συστήµατος µάθησης. Ή, υπάρχει η περίπτωση κάποιες τιµές των χαρακτηριστικών να λείπουν οπότε οδηγούµαστε και πάλι σε χαµηλή απόδοση. 4. Προσδιορισµός του αλγορίθµου Στην συνέχεια θα πρέπει να προσδιοριστεί ο αλγόριθµος που θα επεξεργαστεί τα παραδείγµατα κατά το στάδιο της εκπαίδευσης ώστε να υπολογιστούν οι πληροφορίες που προσφέρουν και η συνάρτηση-στόχος ώστε να µεγιστοποιείται η απόδοση του συστήµατος. 5. Τελικός σχεδιασµός συστήµατος Για τον τελικό σχεδιασµό του συστήµατος θα πρέπει να αναφερθεί ένα χαρακτηριστικό που θα πρέπει να διαθέτει ένα σύστηµα Μηχανικής Μάθησης καθώς είναι καθοριστικό για την απόδοση του. Αυτό είναι η ικανότητα γενίκευσης του (generalization ability) η οποία κάνει το σύστηµα να γενικεύει από τα συγκεκριµένα παραδείγµατα εκπαίδευσης στα άγνωστα παραδείγµατα, δηλαδή, να χρησιµοποιεί αποτελεσµατικότερα την γνώση που απέκτησε κατά το στάδιο της εκπαίδευσης, στο στάδιο του ελέγχου. Πιο συγκεκριµένα ισχύει ότι αν το σύστηµα κατά την εκπαίδευση του κατέληξε σε µια υπόθεση που είναι συνεπής µε τα περισσότερα στιγµιότυπα εκπαίδευσης, τότε θα είναι συνεπής και µε τα περισσότερα στιγµιότυπα ελέγχου. Υπάρχει όµως η περίπτωση όταν η υπόθεση είναι σε πολύ µεγάλο βαθµό συνεπής µε τα παραδείγµατα εκπαίδευσης, να µάθει και τα χαρακτηριστικά µικρής βαρύτητας οπότε και θα µειωθεί η απόδοση του συστήµατος κατά το στάδιο του ελέγχου. Αυτό το τελευταίο είναι γνωστό ως φαινόµενο του υπερταιριάσµατος (overfitting). 10

19 2.3 Μηχανική Μάθηση και Κατηγοριοποίηση Κειµένου Την περίοδο της δεκαετίας του 80, ένα σύστηµα κατηγοριοποίησης κειµένων βασίζονταν στην κατασκευή κανόνων για κάθε κατηγορία, από τους ειδικούς, ώστε αν ικανοποιούταν ένας κανόνας για µια κατηγορία, το έγγραφο κατατασσόταν κάτω από αυτή. Κάτι τέτοιο, αν και ήταν αποδοτικό, κόστιζε πάρα πολύ σε χρόνο και κόπο. Την δεκαετία του 90 η παραπάνω προσέγγιση εγκαταλείφθηκε και έγινε προσπάθεια να εξεταστεί το πρόβληµα µε την βοήθεια της Μηχανικής Μάθησης. Υπό το πρίσµα της Μηχανικής Μάθησης, µια γενική επαγωγική διαδικασία c C κατασκευάζει αυτόµατα έναν ταξινοµητή για κάθε µια κατηγορία i, όπου C είναι το σύνολο των κατηγοριών. Αυτό το καταφέρνει µε την βοήθεια των παραδειγµάτων εκπαίδευσης τα οποία έχουν ήδη ταξινοµηθεί κάτω από κάθε κατηγορία c. ηλαδή i πρόκειται για ένα πρόβληµα µάθησης µε επίβλεψη. Για κάθε παράδειγµα εκπαίδευσης, το σύστηµα ταξινόµησης συγκεντρώνει τα χαρακτηριστικά του και κατασκευάζει έναν ταξινοµητή για την κατηγορία στην οποία ανήκει. Οπότε έπειτα, όταν εξετάσει ένα άγνωστο στιγµιότυπο ελέγχου, µπορεί ανάλογα µε τα χαρακτηριστικά του να αποφασίσει αν υπόκειται στον κανόνα του ταξινοµητή της κατηγορίας c για να ταξινοµηθεί κάτω αυτήν. i Αυτή η προσέγγιση προσφέρει το πλεονέκτηµα να µην επικεντρωνόµαστε στην κατασκευή ενός ταξινοµητή αλλά σε µια αυτόµατη διαδικασία κατασκευής των ταξινοµητών και για αυτό δεν χρειάζεται παραπάνω εργασία και σπάταλης χρόνου από τους ειδικούς αν χρειαστεί να προσεγγιστεί ένα νέο πρόβληµα (ή να διαφοροποιηθεί το ήδη υπάρχον), καθώς αυτό µπορεί γίνει µε το ίδιο σύστηµα Κατασκευή Συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου Η κατασκευή ενός συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου αποτελείται από τρία κύρια στάδια: 1. Μελέτη και αναπαράσταση του σώµατος κειµένων 2. Επαγωγική κατασκευή του ταξινοµητή κειµένου 3. Αποτίµηση της απόδοσης του ταξινοµητή Τα οποία θα αναλυθούν περισσότερο στις ακόλουθες ενότητες: Μελέτη και αναπαράσταση του σώµατος κειµένων Η προσέγγιση του προβλήµατος της Κατηγοριοποίησης Κειµένου µε την βοήθεια της Μηχανικής Μάθησης, προϋποθέτει την ύπαρξη ενός αρχικού σώµατος c = d,...,, τα οποία κείµενα είναι εκ των προτέρων κειµένων (initial corpus), 0 { 1 d n } ταξινοµηµένα σε c { c,..., } = κατηγορίες. 1 c n 11

20 Το αρχικό σώµα χωρίζεται σε δυο ή τρία σύνολα, ανάλογα µε την φύση του προβλήµατος και το είδος του αλγόριθµου ταξινόµησης που θα επιλεγεί να τα ταξινοµήσει: Το πρώτο σύνολο αποτελείται από τα έγγραφα που θα χρησιµοποιηθούν από το σύστηµα για την εκπαίδευση του και ονοµάζεται σύνολο εκπαίδευσης (training set), T r = { d1,..., d r }. Συνήθως το σύνολο εκπαίδευσης αποτελεί τα 2/3 του συνολικού αρχικού σώµατος των εγγράφων. Το δεύτερο σύνολο περιέχει τα έγγραφα πάνω στα οποία θα γίνει η τελική αξιολόγηση του συστήµατος και ονοµάζεται σύνολο ελέγχου (test set), T e = { d1,..., d e }. Συνήθως αποτελεί το1/3 του συνολικού σώµατος εκπαίδευσης. Η ύπαρξη του τρίτου συνόλου εξαρτάται από τις συνθήκες του προβλήµατος. Είναι απαραίτητο στην περίπτωση που για την βελτίωση της αποτελεσµατικότητας του ταξινοµητή του συστήµατος, απαιτείται η ρύθµιση ορισµένων παραµέτρων του. Αυτό το σύνολο ονοµάζεται σύνολο επικύρωσης (validation test) V α = { d1,..., d v }. Συνήθως το σύνολο επικύρωσης αποτελεί το 1/6 του αρχικού σώµατος των κειµένων, οµοίως, για αυτήν την περίπτωση, µε το σύνολο ελέγχου. Θα πρέπει να τονιστεί ότι προκειµένου να γίνει αντικειµενικά η αξιολόγηση του συστήµατος, τα έγγραφα που ανήκουν στο σύνολο εκπαίδευσης δεν θα πρέπει να χρησιµοποιηθούν ως έγγραφα επικύρωσης ή ελέγχου. Σε αντίθετη περίπτωση η απόδοση του συστήµατος θα φαίνεται υψηλότερη από ότι είναι στην πραγµατικότητα, καθώς τα χαρακτηριστικά των φαινοµενικά αγνώστων παραδειγµάτων θα τα έχει ήδη επεξεργαστεί και χρησιµοποιήσει το σύστηµα για την εκπαίδευση του και θα έχει «µάθει» από αυτά. Εκτός από την παραπάνω προσέγγιση διαχωρισµού του αρχικού σώµατος των κειµένων, υπάρχει και µια άλλη µέθοδος που ονοµάζεται διασταυρωµένη επικύρωση κ πτυχών (k-fold validation). Με αυτόν τον τρόπο το αρχικό σώµα χωρίζεται σε κ σύνολα όπου οι κ ταξινοµητές του προβλήµατος, χρησιµοποιώντας αυτά τα σύνολα, διαδοχικά εκπαιδεύονται και ελέγχονται. Σε αυτήν την περίπτωση, η αποδοτικότητα του συστήµατος βρίσκεται µέσω του υπολογισµού του µέσου όρου της αποδοτικότητας των κ ταξινοµητών. Ένα πολύ σηµαντικό ζήτηµα είναι η αναπαράσταση του σώµατος των κειµένων σε µορφή που είναι σε θέση να επεξεργαστεί το σύστηµα, καθώς από αυτή εξαρτάται η ποιότητα της µάθησής του. Υπάρχουν διάφοροι τρόποι για την αναπαράσταση των χαρακτηριστικών ενός εγγράφου αλλά ο συνηθέστερος είναι η αναπαράσταση µέσω ενός διανύσµατος µε τις λέξεις του κειµένου να φέρουν µια τιµή ως βάρος, η οποία τιµή εκτείνεται συνήθως µεταξύ 0 και 1. Αυτός ο τρόπος ονοµάζεται σακίδιο λέξεων (bag of words). Θα πρέπει να πούµε ότι έχει αποδειχτεί ότι περισσότερο συνθέτες αναπαραστάσεις, όπως π.χ. η χρησιµοποίηση φράσεων έχουν χειρότερη αποδοτικότητα. Έπειτα θα πρέπει να βρεθεί ένας τρόπος να προσδιορίσουµε το βάρος των χαρακτηριστικών µε την βοήθεια τεχνικών Ανάκτησης του τοµέα Πληροφορίας. Τις περισσότερες φορές χρησιµοποιείται η συνάρτηση tfidf (term frequency inverse document frequency)και οι παραλλαγές της. Η tfidf ορίζεται ως εξής: 12

21 όπου ( t, ) k d j tfidf ( t, d ) = #( t, d ) k j k j T log # r ( t ) # είναι ο αριθµός των φορών που το χαρακτηριστικό t k που # t k είναι ο αριθµός των εγγράφων στο σύνολο εκπαίδευσης στο οποίο το χαρακτηριστικό t k βρίσκεται τουλάχιστον µια φορά και T είναι το πλήθος των κειµένων του συνόλου εκπαίδευσης. βρίσκεται στο έγγραφο d j, ( ) r Η παραπάνω συνάρτηση εκφράζει τα εξής δυο γεγονότα: 1. Ένα χαρακτηριστικό, όσο πιο συχνά εµφανίζεται σε ένα έγγραφο, τόσο αντιπροσωπευτικότερο είναι του περιεχοµένου του εγγράφου 2. Ένα χαρακτηριστικό, όσο σε περισσότερα έγγραφα βρίσκεται, τόσο λιγότερο σηµαντικό ρόλο θα παίξει στην ταξινόµηση Θα µπορούσαµε να επεξεργαστούµε το σώµα των εγγράφων, ώστε να αποµακρύνουµε τις λειτουργικές λέξεις (function words) που η µεγάλη συχνότητα εµφάνισης τους δεν τις αφήνει να παίξουν σηµαντικό ρόλο στην διαδικασία της ταξινόµησης. Οι λειτουργικές λέξεις µπορεί να είναι άρθρα, προθέσεις, σύνδεσµοι κ.α. Επίσης, για τον ίδιο λόγο, χρησιµοποιείται η µέθοδος της ληµµατοποίησης (stemming) που ως στόχο έχει την αντικατάσταση των λέξεων που έχουν κοινή ρίζα, από µια λέξη, που συνήθως είναι η ρίζα. Οι παραπάνω µέθοδοι είναι µέρος της αντιµετώπισης του προβλήµατος της διαστατικότητας(dimensionality reduction). Στην Κατηγοριοποίηση Κειµένων, συνήθως αποτελεί πρόβληµα όταν είναι πολύ µεγάλος ο αριθµός των χαρακτηριστικών που περιέχονται στο σώµα των κειµένων (υψηλή διαστατικότητα του χώρου των χαρακτηριστικών). Η Μείωση της ιαστατικότητας (Dimensionality Reduction) λοιπόν έχει ως στόχο την µείωση του διαστατικού χώρου από T (όπου Τ είναι το αρχικό σύνολο χαρακτηριστικών), σε T << T. Το σύνολο Τ ονοµάζεται µειωµένο σύνολο όρων(reduced term set). Ένα µεγάλο πλεονέκτηµα που προσφέρει η µείωση της διαστατικότητας είναι ότι µειώνει το φαινόµενο του υπερταιριάσµατος, αυξάνοντας έτσι την απόδοση του συστήµατος. Σε αυτό όµως που θα πρέπει να δοθεί προσοχή, είναι η χρησιµοποίηση της προσέγγισης της µείωσης της διαστατικότητας, να µην έχει ως αποτέλεσµα την αφαίρεση χαρακτηριστικών, σηµαντικών για την καλή λειτουργία του ταξινοµητή. Υπάρχουν διάφορες µέθοδοι για να επιτευχθεί η µείωση της διαστατικότητας. Οι µέθοδοι αυτές διαιρούνται σε δυο µεγάλες κύριες κατηγορίες: 1. Τοπική Μείωση ιαστατικότητας (Local Dimensionality Reduction): Για κάθε κατηγορία c i, επιλέγονται T << T χαρακτηριστικά πάνω στα οποία θα εφαρµοστεί ο ταξινοµητής. ηλαδή, κάθε έγγραφο κατά την ταξινόµηση του αναπαρίσταται διαφορετικά για κάθε κατηγορία. 2. Σφαιρική Μείωση ιαστατικότητας (Global Dimensionality Reduction): Επιλέγονται από την αρχή T χαρακτηριστικά µε T << T για την ταξινόµηση κάτω από όλες τις κατηγορίες c { c,..., } k =. Επιπλέον, οι µέθοδοι µείωσης της διαστατικότητα µπορούν να διαιρεθούν σε δυο κατηγορίες ανάλογες των χαρακτηριστικών που επιλέγονται: 1 c C 13

22 1. Μείωση ιαστατικότητας µε Επιλογή Χαρακτηριστικών (Term Selection): Έστω ένα αρχικό σύνολο χαρακτηριστικών Τ. Επιλέγεται ένα υποσύνολο χαρακτηριστικών Τ µε T << T, ώστε η µετέπειτα ταξινόµηση να επιτυγχάνεται µε την µέγιστη αποτελεσµατικότητα. Πειράµατα [Yang and Petersen, 1997] έχουν δείξει ότι µε την µέθοδο αυτή, η µείωση της διαστατικότητα αυξάνει την αποτελεσµατικότητα του ταξινοµητή κατά 5% (η αύξηση αυτή εξαρτάται από το είδος του T ταξινοµητή, του βαθµού της µείωσης, και της µεθόδου που T χρησιµοποιήθηκε για την µείωση της διαστατικότητα). Η κύρια µέθοδος που χρησιµοποιείται για την Επιλογή Χαρακτηριστικών είναι η Συχνότητα Εγγράφου (Document Frequency), #( t k ) του όρου t k. Η µέθοδος αυτή είναι µια απλή και αποτελεσµατική συνάρτηση µείωσης της διαστατικότητα που βασίζεται στην ιδέα ότι θα επιλέγονται µόνο τα χαρακτηριστικά που βρίσκονται στα περισσότερα έγγραφα. Αυτό φαίνεται ότι έρχεται σε αντίθεση µε τον νόµο της Ανάκτησης της Πληροφορίας που λέει ότι τα πιο σηµαντικά χαρακτηριστικά για την ταξινόµηση είναι αυτά µε χαµηλό document frequency. Στην πραγµατικότητα όµως δεν έρχεται σε σύγκρουση καθώς, η µεγάλη πλειοψηφία των λέξεων σε ένα σώµα κειµένων έχουν χαµηλό document frequency. Παραλλαγές αυτής της µεθόδου, µε πιο εµπειρικές προσεγγίσεις, είναι η αποµάκρυνση όλων των όρων που βρίσκονται στα περισσότερα x κείµενα εκπαίδευσης ή η αποµάκρυνση όλων των όρων που βρίσκονται στο σύνολο εκπαίδευσης περισσότερες από x φορές. Ο τελευταίος αυτός τρόπος χαρακτηρίζει σηµαντικότερα όσα χαρακτηριστικά εµφανίζονται συχνότερα στο σώµα κειµένων, σε σχέση µε αυτά που εµφανίζονται σπάνια. Άλλες µέθοδοι που ανήκουν στην κατηγορία της Επιλογής Χαρακτηριστικών χρησιµοποιούν συναρτήσεις των οποίων η τιµή τους, που είναι ανάλογη των χαρακτηριστικών, καθορίζει την επιλογή ή όχι του χαρακτηριστικού. Τέτοιες είναι οι συναρτήσεις Πληροφοριακού Κέρδους (Information Gain), Αµοιβαίας Πληροφορίας (Mutual Information), Chi-Square, Μέτρου Σχετικότητας (Relevance Score), κ.α. 2. Μείωση ιαστατικότητα µε Εξαγωγή Χαρακτηριστικών (Term Extraction): Έστω ένα αρχικό σύνολο χαρακτηριστικών Τ. Η Εξαγωγή Χαρακτηριστικών επιδιώκει να παράγει από το Τ, ένα σύνολο Τ που προκύπτει από την σύνθεση χαρακτηριστικών, και που µεγιστοποιεί την αποδοτικότητα του συστήµατος. Η ιδέα στην οποία στηρίζεται η µεθόδος αυτή είναι ότι οι αρχικοί οροί, εξαιτίας της πολυσηµίας (λέξη που έχει πολλές σηµασίες), της οµωνυµίας (ίδιες λέξεις αλλά µε διαφορετική σηµασία) και της συνωνυµίας (δυο ή περισσότερες λέξεις που έχουν την ίδια σηµασία), µπορεί να µην είναι οι καταλληλότεροι για την αναπαράσταση των κειµένων. Οπότε µε την Εξαγωγή Χαρακτηριστικών γίνεται προσπάθεια να λυθεί αυτό το πρόβληµα, δηµιουργώντας τεχνητούς όρους που δεν έχουν τα παραπάνω χαρακτηριστικά. υο προσεγγίσεις που βασίζονται σε αυτή την µέθοδο είναι η Οµαδοποίηση Όρων (Τerm Clustering) και η Υποβόσκων Σηµασιολογική Ευρετηριοποίηση (Latent Semantic Indexing). Με την 14

23 Οµαδοποίηση Όρων προσπαθείται να οµαδοποιηθούν λέξεις µε µεγάλο βαθµό συσχέτισης µεταξύ τους, ώστε να χρησιµοποιηθούν οι οµάδες αυτές για την αναπαράσταση των κειµένων, αντί των αρχικών χαρακτηριστικών Επαγωγική κατασκευή του ταξινοµητή κειµένου Όπως έχει ήδη αναφερθεί υπάρχουν δύο κατηγορίες ταξινόµησης, η πλήρως αυτόµατη που δεν χρειάζεται την συµµετοχή του χρήστη, και η ηµιαυτόµατη. Η επαγωγική κατασκευή ενός ηµιαυτόµατου ταξινοµητή συνίσταται στον ορισµό µιας συνάρτησης CSV i : D [0,1 ], όπου η συνάρτηση παίρνει την τιµή 1 αν το έγγραφο ανήκει στην κατηγορία c i ή την τιµή 0 αν το έγγραφο δεν ανήκει σε αυτήν. Παροµοίως, για την επαγωγική κατασκευή ενός πλήρως αυτόµατου ταξινοµητή ορίζεται µια συνάρτηση CSV i : D [ T, F] και ένα κατώφλι (threshold) τ i τέτοιο ώστε αν CSV κλάση c i. Ή αν στην κλάση c i. ( ) τ i CSVi ( d j ) τ i i d j τότε το έγγραφο παίρνει την τιµή Τ, δηλαδή ανήκει στην <, το έγγραφο παίρνει την τιµή F, δηλαδή δεν ανήκει Αποτίµηση της απόδοσης του ταξινοµητή Υπάρχουν πολλοί τρόποι να αξιολογηθεί ένα σύστηµα κατηγοριοποίησης κειµένων. Αυτοί οι τρόποι µπορεί να αφορούν τον µέσο χρόνο που απαιτείται για να χτιστεί ένας ταξινοµητής µε προϋπόθεση µια δοσµένη συλλογή κειµένων (training efficiency), ή να αφορούν τον µέσο χρόνο που απαιτείται για να ταξινοµηθεί, από τον ταξινοµητή, ένα έγγραφο (classification efficiency), ή ένας εναλλακτικός τρόπος είναι η ωφέλεια (utility) όπου γίνεται χρήση οικονοµικών κριτηρίων όπως το κέρδος και η απώλεια σε σχέση µε τις σωστές ή λάθος αποφάσεις που παίρνει ο ταξινοµητής. Τα πιο σηµαντικά µέτρα όµως που κυρίως χρησιµοποιούνται για την πειραµατική αξιολόγηση ενός ταξινοµητή, είναι αυτά που ασχολούνται µε την µέση ακρίβεια, η οποία αποδίδει τα µεγέθη που εξετάζει στις διάφορες κατηγορίες (effectiveness), και η οποία εκτός των άλλων είναι άµεσα συνυφασµένη µε το software/hardware που χρησιµοποιείται για το σύστηµα ταξινόµησης. Τα σηµαντικότερα µέτρα αυτής της τελευταίας κατηγορίας αξιολόγησης ενός ταξινοµητή είναι η ακρίβεια (precision) και η ανάκληση (recall), προερχόµενα και τα δυο από την τοµέα της Ανάκτησης Πληροφορίας. 15

24 Πιο συγκεκριµένα, η ακρίβεια (π) σχετική µε µια κλάση c i, ορίζεται ως η υπό συνθήκη πιθανότητα P(Φ ( (d x,c i ) = T Φ(d x,c i ) = T, η οποία θέλει την απόφαση του ταξινοµητή να είναι σωστή, αν ανατεθεί ένα έγγραφο d x στην κλάση c i. Η ακρίβεια εκφράζει το βαθµό ορθότητας (degree of soundness) του ταξινοµητή. η ανάκληση (ρ) σχετική µε µια κλάση c i, ορίζεται ως η πιθανότητα Φ(d x,c i ) = T P(Φ ( (d x,c i ) = T, η οποία θέλει αν ένα τυχαίο έγγραφο d x πρέπει να ταξινοµηθεί κάτω από την κλάση c i, τότε ο ταξινοµητής θα πρέπει να το κατατάξει σ αυτήν την κλάση. Η ανάκληση εκφράζει τον βαθµό πληρότητας (degree of completeness) του ταξινοµητή Αν ορίσουµε ως TP i το πλήθος των εγγράφων που ανήκουν στο σύνολο ελέγχου και που σωστά κατατάχθηκαν στην κατηγορία c i, ως ΤΝ i το πλήθος των εγγράφων του συνόλου ελέγχου που σωστά αποφάσισε ο ταξινοµητής ότι δεν ανήκουν στην κατηγορία c i, ως FP i το πλήθος των εγγράφων του συνόλου ελέγχου που λανθασµένα κατατάχθηκαν στην κατηγορία c i και FN i αυτά που λανθασµένα δεν κατατάχθηκαν στην κατηγορία c i, τότε τα δυο παραπάνω µέτρα αξιολόγησης, η ακρίβεια και η ανάκληση µπορούν να αποδοθούν ως εξής: π i = ρ ι = TPi TP + FP i i TPi TP + FN i i. Υπάρχουν δυο τρόποι αντιµετώπισης που µας επιτρέπουν να υπολογίσουµε την ακρίβεια και την ανάκληση: 1. Η µεθόδος της µικροεκτίµησης (microaveraging) όπου η ακρίβεια και η ανάκληση υπολογίζονται αθροίζοντας όλες τις επιµέρους αποφάσεις του ταξινοµητή, οπότε και έχουµε: π µ = TP TP + FP = C ( TPi + FPi ) i= 1 C i= 1 TP i, ρ µ = TP TP + FN = C ( TPi + FN i) i= 1 C i= 1 TP i, όπου το σύµβολο µ αναφέρεται στην µικροεκτίµηση. 16

25 2. Η µεθόδος της µακροεκτίµησης (macroaveraging) όπου η ακρίβεια και η ανάκληση αρχικά υπολογίζονται για κάθε κλάση ξεχωριστά και έπειτα η τιµή τους παίρνεται από τον µέσο όρο των διαφορετικών κατηγοριών: π M = C i=1 C πˆ i, ρ M = C i=1 C ˆρ i, όπου το σύµβολο Μ αναφέρεται στην µακροεκτίµηση. Υπάρχει περίπτωση οι δυο αυτές παραπάνω προσεγγίσεις υπολογισµού να δώσουν τελικά διαφορετικά αποτελέσµατα, ειδικά στην περίπτωση που ο αριθµός των εγγράφων που κατανέµεται στις κατηγορίες είναι πολύ διαφορετικός. Τα µεγέθη της ακρίβειας και της ανάκλησης είναι αυτά που χρησιµοποιούνται συχνότερα από οποιαδήποτε άλλα, στην προσπάθεια αποτίµησης της αποτελεσµατικότητας ενός ταξινοµητή. Όµως ούτε η ακρίβεια, ούτε η ανάκληση δεν µπορούν να δώσουν ασφαλείς εκτιµήσεις αν χρησιµοποιηθούν η µια ανεξάρτητα από την άλλη. Αυτό µπορεί να φανεί αν θέσουµε το κατώφλι µιας κλάσης κοντά στο 0. Τότε η ανάκληση παρατηρούµε ότι µεγιστοποιείται ενώ η ακρίβεια παίρνει πολύ χαµηλή τιµή. Για τον παραπάνω λόγο αναπτύχθηκε ένας αριθµός µεθόδων αποτίµησης της αποτελεσµατικότητας ενός ταξινοµητή που χρησιµοποιεί ταυτόχρονα τα µέτρα της ακρίβειας και της ανάκλησης. Σε αυτές τις µεθόδους ανήκει αυτή του σηµείου ισορροπίας (breakeven point), που πρώτα προτάθηκε από τον Lewis και έχει δεχτεί πολλές κριτικές ότι δεν είναι αξιόπιστο µέτρο αποτίµησης της αποτελεσµατικότητας. Σύµφωνα µε αυτή την προσέγγιση, το κατώφλι µιας κλάσης παίρνει την τιµή αυτή κατά την οποία η ακρίβεια γίνεται ίση µε την ανάκληση. Αυτό µπορεί να επιτευχθεί αφού καθώς αυξάνεται το κατώφλι της κλάσης, η τιµή της ακρίβειας µεγαλώνει ενώ αντίθετα η τιµή της ανάκλησης µειώνεται. Στις περιπτώσεις που οι τιµές π και ρ δεν είναι µπορούν να ταυτιστούν απόλυτα, το σηµείο ισορροπίας παίρνει την τιµή εκείνη που η ακρίβεια και η ανάκληση λαµβάνουν τις κοντινότερες σε οµοιότητα τιµές τους και υπολογίζεται από τον µέσο όρο των δυο τιµών. Μια άλλη µέθοδος αυτής της κατηγορίας, η οποία χρησιµοποιείται συχνά, είναι η συνάρτηση F β. Η συνάρτηση αυτή ορίζεται ως εξής: 17

26 F β = 2 ( β + 1) πρ, 0 β + 2 β π+ ρ όπου β µπορεί να θεωρηθεί ως ο βαθµός βαρύτητας της ακρίβειας και της ανάκλησης, αφού αν β=0 τότε η συνάρτηση ισούται µε την ακρίβεια ενώ αν β= + η συνάρτηση ισούται µε την ανάκληση. Η συνηθέστερη τιµή που παίρνει το β είναι η µονάδα, που προσδίδει ίση βαρύτητα στην ακρίβεια και στην ανάκληση. Τέλος, εναλλακτικά µέτρα αποτίµησης της αποτελεσµατικότητας που χρησιµοποιούνται στον χώρο της µηχανικής µάθησης είναι η ορθότητα (accuracy) και το σφάλµα, που αντίστοιχα ορίζονται ως : Â = TP+ TN TP+ TN+ FP+ FN Ê = FP+ FN TP+ TN+ FP+ FN = 1 Â Τα δυο αυτά µέτρα δεν χρησιµοποιούν τα µέτρα της ακρίβειας και της ανάκλησης. Επίσης, ενώ η ορθότητα συχνά χρησιµοποιείται στον χώρο της µηχανικής µάθησης, εν τούτης δεν χρησιµοποιείται συχνά στον τοµέα της κατηγοριοποίησης κειµένου και αυτό γιατί στην κατηγοριοποίηση κειµένου συνήθως ο παρονοµαστής της σχέσης είναι αρκετά µεγάλος και αυτό αποτρέπει να είναι ευαίσθητη στις µικρές µεταβολές που µπορεί να υπάρξουν στις σωστές αποφάσεις του ταξινοµητή. Καθώς επιλεγεί το µέτρο µε το οποίο µετέπειτα θα αξιολογήσουµε την αποτελεσµατικότητα του ταξινοµητή, θα πρέπει να ρυθµίσουµε τις παραµέτρους του σύµφωνα µε αυτό το µέτρο. ηλαδή, µε συνεχή πειράµατα στο σύνολο επικύρωσης, και αποτίµηση των αποτελεσµάτων των πειραµάτων θα ρυθµιστούν οι παράµετροι του ταξινοµητή ώστε να µας επιφέρει την καλύτερη επίδοση Αλγόριθµοι Στην ενότητα αυτή θα γίνει προσπάθεια να παρουσιαστούν οι σηµαντικότεροι αλγόριθµοι Μηχανικής Μάθησης που συσχετίζονται µε την Κατηγοριοποίηση Κειµένου. Θα δοθεί ιδιαίτερη προσοχή σε αυτούς που ασχοληθήκαµε κατά την διάρκεια των πειραµάτων στην παρών εργασία. 18

27 Μάθηση κατά Bayes Οι µέθοδοι βασισµένοι στην Bayesian συλλογιστική παρέχουν µια πιθανολογική προσέγγιση στο πρόβληµα της εξαγωγής συµπεράσµατος µε το οποίο ασχολείται η Μηχανική Μάθηση. Στηρίζονται στην υπόθεση ότι οι υπό µελέτη ποσότητες ακολουθούν πιθανολογικές κατανοµές και πως οι βέλτιστες αποφάσεις µπορούν να παρθούν βασιζόµενες σε αυτές τις κατανοµές, καθώς και στα παρατηρούµενα δεδοµένα. Τα χαρακτηριστικά των µεθόδων αυτών είναι τα εξής: 1. Κάθε παρατηρούµενο παράδειγµα εκπαίδευσης µπορεί να αυξάνει ή να µειώνει την εκτιµώµενη πιθανότητα που δείχνει την ορθότητα της υπόθεσης. 2. Η προγενέστερη γνώση µπορεί να συνδυαστεί µε τα παρατηρούµενα δεδοµένα για να υπολογιστεί η τελική πιθανότητα της υπόθεσης. 3. Οι Bayesian µέθοδοι µπορούν να διευκολύνουν αυτές τις υποθέσεις που κάνουν πιθανοτικές προβλέψεις. 4. Τα νέα στιγµιότυπα µπορούν να κατηγοριοποιηθούν συνδυάζοντας τις προβλέψεις πολλαπλών υποθέσεων. Μια πρακτική δυσκολία στην εφαρµογή των Bayesian µεθόδων είναι ότι απαιτούν την αρχική γνώση πολλών πιθανοτήτων. Όταν αυτές δεν είναι γνωστές, συχνά υπολογίζονται από την γνώση που προήλθε από την επεξεργασία προηγουµένων δεδοµένων. Επίσης, µια δεύτερη πρακτική δυσκολία είναι το συνήθως µεγάλο υπολογιστικό κόστος που έχει η εύρεση της βέλτιστης υπόθεσης. Στην Μηχανική Μάθηση, συχνά µας ενδιαφέρει να βρούµε την καλύτερη υπόθεση σε ένα χώρο Η (δηλαδή, απαιτούµε την πιθανότερη υπόθεση και την τυχόν προηγούµενη γνώση για τις πιθανότητες στον χώρο Η), δοσµένων των παρατηρούµενων δεδοµένων D. Το θεώρηµα του Bayes παρέχει έναν άµεσο τρόπο υπολογισµού της πιθανότητας µιας υπόθεσης σε ένα χώρο Η, βασισµένο σε προηγούµενη γνώση και είναι ο ακρογωνιαίος λίθος των Bayesian µεθόδων µάθησης: P( D h) P( h) P(h D) =, P( D) όπου, η P(h D) ονοµάζεται εκ των υστέρων πιθανότητα (posterior probability) της h, ορίζεται ως η πιθανότητα να ισχύει η υπόθεση h, δοσµένου των παρατηρούµενων δεδοµένων εκπαίδευσης και εκφράζει την εµπιστοσύνη στην υπόθεση h αφού έχουν εξεταστεί τα δεδοµένα εκπαίδευσης, η P(h) ονοµάζεται εκ των προτέρων πιθανότητα (posterior probability) της h, ορίζεται ως η αρχική πιθανότητα να ισχύει η υπόθεση h πριν την παρατήρηση των δεδοµένων εκπαίδευσης, δηλαδή µας δείχνει την προγενέστερη γνώση ότι η h είναι σωστή υπόθεση η P(D) ονοµάζεται εκ των προτέρων πιθανότητα των παρατηρούµενων δεδοµένων D και εκφράζει την πιθανότητα να παρατηρηθούν τα δεδοµένα ανεξαρτήτως της υπόθεσης που ισχύει 19

28 η P(D h) ονοµάζεται πιθανοφάνεια (likelihood) των δεδοµένων D δοσµένης της h και εκφράζει την πιθανότητα των παρατηρούµενων δεδοµένων D όταν ισχύει η υπόθεση h Από την παραπάνω σχέση παρατηρούµε ότι η πιθανότητα P(h D) είναι ανάλογη των πιθανοτήτων P(D h) και P(h), ενώ είναι αντιστρόφως ανάλογη της πιθανότητας P(D). Αυτό εξηγείται, καθώς όσο πιο πιθανό είναι να παρατηρήσουµε ανεξάρτητα το D, τόσο λιγότερο µπορεί να συµµετάσχει το D στην διαµόρφωση της απόφασης h. Σε πολλές περιπτώσεις ο αλγόριθµος µάθησης θεωρεί κάποιο σύνολο υποψήφιων υποθέσεων H και προσπαθεί να βρει την πιο πιθανή υπόθεση (ή µια των πιθανότερων αν είναι πολλές) h H, δοσµένων των δεδοµένων D. Κάθε τέτοιου είδους υπόθεση ονοµάζεται µέγιστη εκ των προτέρων υπόθεση (maximum a posteriori ή εν συντοµία MAP). Η υπόθεση MAP µπορεί να υπολογιστεί χρησιµοποιώντας το θεώρηµα του Bayes ώστε να υπολογίσουµε την εκ των υστέρων πιθανότητα της υποψήφιας υπόθεσης: h MAP arg max P(h D) = h H P ( D h) P( h) arg max = h H P( D) = arg P ( D h) P( h) max h H Στο τελευταίο βήµα παραλείπεται ο όρος P(D) καθώς είναι µια σταθερά ανεξάρτητη της υπόθεσης h. Επίσης σε µερικές περιπτώσεις µπορούµε να υποθέσουµε ότι κάθε υπόθεση στο Η είναι ισοπίθανη (ή αλλιώς P(h i ) = P(h j ), h H ). Σε αυτή την περίπτωση η παραπάνω σχέση µπορεί να απλοποιηθεί ακόµα περισσότερο παραλείποντας τον όρο P(h). Η υπόθεση που προκύπτει µε αυτόν τον τρόπο ονοµάζεται υπόθεση µέγιστης πιθανοφάνειας h ML (maximum likelihood ή εν συντοµία ML) και µεγιστοποιεί την πιθανότητα P(D h): h ML arg P ( D h) ) max h H Ο ταξινοµητής Naïve Bayes Ο ταξινοµητής Naïve Bayes είναι ο απλούστερος αλγόριθµος βασισµένος στην Bayesian λογική ταξινόµησης και ο πλέον συχνά χρησιµοποιούµενος ταξινοµητής αυτής της κατηγορίας. Επίσης στο πρόβληµα της ταξινόµησης εγγράφων ο αλγόριθµος αυτός είναι ανάµεσα στους περισσότερο αποδοτικούς αλγόριθµους [3][5]. Το κύριο χαρακτηριστικό του είναι ότι υποθέτει ότι όλα τα χαρακτηριστικά των προς εξέταση δεδοµένων είναι µεταξύ τους ανεξάρτητα, µε δεδοµένες τις κλάσεις στις οποίες θα καταταχθούν. Αυτή η υπόθεση λέγεται «υπόθεση Naïve Bayes (Naïve Bayes assumption)». Εξαιτίας αυτής της υπόθεσης, οι παράµετροι κάθε χαρακτηριστικού µπορούν να εξεταστούν χωριστά, απλοποιώντας µε αυτόν τον τρόπο 20

29 σε έναν µεγάλο βαθµό την διαδικασία της µάθησης, ειδικά όταν είναι µεγάλος ο αριθµός των χαρακτηριστικών των προς εξέταση δεδοµένων. Για τον λόγο αυτόν ο ταξινοµητής Naïve Bayes είναι αρκετά δηµοφιλής στον τοµέα της κατηγοριοποίησης κείµενων. Αναλυτικότερα, ο Naïve Bayes έχει την δυνατότητα να κατατάσσει τα νέα, προς εξέταση στιγµιότυπα, σε κατηγορίες, δεδοµένου ότι κάθε στιγµιότυπο x αναπαρίσταται µε βάση το µοντέλο διανυσµατικού χώρου και τα χαρακτηριστικά που το προσδιορίζουν παίρνουν διακριτές τιµές α 1, α 2,..., α n. Επίσης, η συνάρτησηστόχος f (x) παίρνει τιµές (labels) από ένα πεπερασµένο σύνολο V. Με βάση το σύνολο των στιγµιότυπων εκπαίδευσης ο αλγόριθµος ταξινόµησης ταξινοµεί ένα νέο στιγµιότυπο προβλέποντας την τιµή της συνάρτησης-στόχου. Με βάση την Bayesian προσέγγιση κατηγοριοποίησης, σε ένα νέο στιγµιότυπο που περιγράφεται από το διάνυσµα α 1, α 2,..., α n, ανατίθεται η πιο πιθανή τιµή υ MAP. υ MAP = arg max P(α, α,..., α υ ) υ j V 1 2 n j Με βάση το θεώρηµα του Bayes η παραπάνω σχέση γίνεται: P(α υ MAP = argυ 1, α 2,..., α n υ j) max = j V P(α1, α 2,..., α n ) = arg max P(α, α,..., α υ ) υ j V 1 2 n j P(υ j ) Η εύρεση της τιµής της παραπάνω σχέσης θα γίνει µε την βοήθεια του συνόλου των δεδοµένων εκπαίδευσης. Ο όρος της σχέσης P(υ j ) βρίσκεται εύκολα υπολογίζοντας την συχνότητα εµφάνισης της ετικέτας υ j στα δεδοµένα εκπαίδευσης. Αντίθετα, για τον δεύτερο όρο της σχέσης, ο P(α1, α2,..., αn υ j), είναι πολύ δύσκολο να υπάρξουν οι προϋποθέσεις υπολογισµού του, καθώς, αφού ο συγκεκριµένος όρος εκφράζει την πιθανότητα εµφάνισης του στιγµιοτύπου δεδοµένης µιας ετικέτας, θα πρέπει να διαθέτουµε ένα πάρα πολύ µεγάλο σύνολο δεδοµένων εκπαίδευσης. Αυτό συµβαίνει, γιατί ο όρος αυτός είναι ίσος µε τον αριθµό των πιθανών στιγµιοτύπων, επί τον αριθµό των πιθανών ετικετών, οπότε χρειάζεται να εξεταστεί κάθε παράδειγµα πολλές φορές για να επιτευχθούν αξιόπιστες εκτιµήσεις. Ο Ν.Β. βασίζεται στην απλουστευτική υπόθεση ότι, δεδοµένης της ετικέτας, τα χαρακτηριστικά είναι ανεξάρτητα µεταξύ τους. Με µαθηµατικούς όρους, αυτό σηµαίνει ότι η πιθανότητα P(α1, α 2,..., α n υ j ) µπορεί να εκφραστεί ως το γινόµενο των πιθανοτήτων κάθε ενός αυτών των χαρακτηριστικών. ηλαδή: P(α1, α 2,..., α n υ j ) = P ( α ι υ ι ) Οπότε µε την βοήθεια της σχέσης αυτής, η υ MAP γίνεται: ι υ ΝΒ = arg max P(υ j ) P ( α υ j V ι υ ι ) ι 21

30 όπου ο όρος υ ΝΒ είναι η πιο τιµή που ανατίθεται σε ένα νέο στιγµιότυπο. Από την παραπάνω σχέση, φαίνεται ότι στον ταξινοµητή ΝΒ, το πλήθος των όρων P(α i υ i ) που πρέπει να υπολογιστούν από τα δεδοµένα εκπαίδευσης είναι ο αριθµός των τιµών των διαφορετικών χαρακτηριστικών, επί τον αριθµό των διαφορετικών ετικετών, που είναι αρκετά µικρότερο από το πλήθος των P(α, α,..., α υ ) 1 2 n j. Ένα ενδιαφέρον χαρακτηριστικό του ΝΒ είναι ότι δεν ερευνά των χώρο µεταξύ των πιθανών υποθέσεων αλλά η υπόθεση σχηµατίζεται χωρίς ψάξιµο, απλώς µετρώντας τη συχνότητα των διαφόρων συνδυασµών των χαρακτηριστικών στο σύνολο εκπαίδευσης. Θα πρέπει να σηµειωθεί ότι υπάρχει µια σύγχυση όσο αφορά τον ταξινοµητή Naïve Bayes στον τοµέα της κατηγοριοποίησης εγγράφων καθώς υπάρχουν δυο µοντέλα που χρησιµοποιούν την «υπόθεση Naïve Bayes» και που έχουν την ίδια πρακτική ονοµασία Naïve Bayes: το µοντέλο Bernoulli πολλαπλών µεταβλητών (multi-variate Bernoulli model) και το πολυωνυµικό (multinomial) µοντέλο. Το multi-variate Bernoulli µοντέλο καθορίζει ότι ένα έγγραφο αναπαρίσταται από ένα διάνυσµα δυαδικών µεταβλητών που η τιµή τους είναι ανάλογη του αν οι λέξεις υπάρχουν ή όχι στο προς εξέταση έγγραφο. Καθώς υπολογίζεται η πιθανότητα του εγγράφου, πολλαπλασιάζεται η πιθανότητα όλων των τιµών των χαρακτηριστικών, είτε υπάρχουν είτε όχι στο έγγραφο. Στην παρών εργασία, χρησιµοποιήθηκε ως καταλληλότερο και αποτελεσµατικότερο ο αλγόριθµος Multinomial Naïve Bayes και ο οποίος θα αναπτυχθεί στην επόµενη παράγραφο: Το µοντέλο Multinomial Naïve Bayes Το Multinomial Naïve Bayes µοντέλο ορίζει ότι ένα έγγραφο αναπαρίσταται από ένα σύνολο λέξεων που υπάρχουν σε αυτό. Σε αντίθεση µε το multi-variate Bernoulli µοντέλο, εδώ µας ενδιαφέρει, και γι αυτό και εξετάζεται, το πλήθος των εµφανίσεων κάθε λέξης στο έγγραφο. Καθώς υπολογίζουµε την πιθανότητα ενός εγγράφου, πολλαπλασιάζεται η πιθανότητα των ευρισκόµενων στο έγγραφο λέξεων [5]. Αναλυτικότερα, το µοντέλο αυτό συλλέγει την συχνότητα των λέξεων που υπάρχουν στα υπό εξέταση έγγραφα. Στην περίπτωση αυτή, το κάθε έγγραφο d j θεωρείται ως µια διατεταγµένη ακολουθία λέξεων, οι οποίες προέρχονται από το λεξικό V, ενώ το µήκος του εγγράφου είναι ανεξάρτητο των κλάσεων. Η υπόθεση, παρόµοια µε την «Naïve Bayes υπόθεση», που γίνεται σε αυτή την µέθοδο είναι ότι η πιθανότητα κάθε λέξης στο έγγραφο είναι ανεξάρτητη των άλλων λέξεων και της θέσης της µέσα σε αυτό. Έτσι, κάθε έγγραφο ορίζεται από µια πολυωνυµική κατανοµή των λέξεων µε µέγεθος ανάλογο του µεγέθους του εγγράφου. Η πιθανότητα ενός εγγράφου δοσµένης της κλάσης του είναι η έξης: 22

31 V P P(d j c j ;θ) = P( dj ) dj! Νιτ ( wt c j ; θ ) t= 1 N it! όπου, Ν it είναι το πλήθος των φορών που µια λέξη w t υπάρχει σε ένα έγγραφο d j θ είναι το διάνυσµα παραµέτρων της κλάσης c j για ένα πολυωνυµικό µοντέλο Η πιθανότητα της λέξης w t στην κλάση c j δίνεται από την σχέση: P(w t c j ; θˆ ) = j V 1+ + i D N = 1 it D V s= 1 i= 1 P( c N is j P( c d ) j j d ) oπου θˆ είναι η µέγιστη πιθανοφάνεια που εκφράζει τις προγενέστερες παραµέτρους της κλάσης θc j : D θˆ c = P(c j j P c d i j j θˆ ) = =1 ( ) D Αφού υπολογίσουµε όλες τις παραµέτρους από τα δεδοµένα εκπαίδευσης, µπορούµε να εξετάσουµε τα προς εξέταση έγγραφα υπολογίζοντας τις εκ των προτέρων πιθανότητες κάθε κλάσης και επιλέγουµε, για κάθε ένα από αυτά, την κλάση µε την µεγαλύτερη πιθανότητα. i έντρα Απόφασης Ένας ταξινοµητής κειµένου που χρησιµοποιεί έντρα Απόφασης (Decision Trees) είναι ένα δέντρο του οποίου κάθε εσωτερικός κόµβος περιέχει έναν όρο, τα κλαδιά του περιέχουν το βάρος των όρων και τα φύλλα του περιέχουν τις κατηγορίες. Κάθε νέο παράδειγµα ταξινοµείται αρχίζοντας από την ρίζα του δέντρου, συγκρίνοντας το χαρακτηριστικό που υπάρχει σε αυτόν τον κόµβο και ακολουθώντας το αντίστοιχο κλαδί. Συνήθως στα δέντρα απόφασης χρησιµοποιείται η στρατηγική «διαίρει και βασίλευε» για την διάσχιση του δέντρου ελέγχοντας αν όλα τα παραδείγµατα εκπαίδευσης ανήκουν στις κατηγορίες c i ή c i, ή αν όχι διαλέγοντας έναν όρο, διαχωρίζοντας το σύνολο εκπαίδευσης σε κατηγορίες εγγράφων που έχουν την ίδια τιµή για τον όρο αυτό και τοποθετώντας κάθε τέτοια κατηγορία σε ένα ξεχωριστό υποδέντρο. Η µέθοδος των δέντρων απόφασης είναι κατάλληλος για προβλήµατα µε τα εξής χαρακτηριστικά: 23

32 κάθε παράδειγµα αναπαρίσταται από ζευγάρια της µορφής (χαρακτηριστικό,τιµή) η συνάρτηση-στόχος παίρνει διακριτές τιµές τα δεδοµένα εκπαίδευσης µπορεί να περιέχουν λάθη µπορεί να λείπουν ορισµένες τιµές χαρακτηριστικών από τα δεδοµένα εκπαίδευσης Μάθηση Βασισµένη σε Παραδείγµατα Η µάθηση βασισµένη σε παραδείγµατα (instance-based learning) είναι µια supervised τεχνική µάθησης, όπου τα δεδοµένα εκπαίδευσης απλώς αποθηκεύονται και διατηρούνται αυτούσια, σε αντίθεση µε τις άλλες µεθόδους µάθησης που κατασκευάζουν ένα γενικό διατυπωµένο µοντέλο που τα κωδικοποιούν µε µια συνάρτηση-στόχο. Οπότε, όταν εξετάζεται ένα νέο παράδειγµα, οι µέθοδοι αυτές είναι υπεύθυνες να αποφασίσουν γι αυτό, συγκρίνοντας το µε τα ήδη αποθηκευµένα παραδείγµατα, ώστε να αναθέσουν µια τιµή στην συνάρτηση-στόχο για αυτό το νέο παράδειγµα. Για τον λόγο αυτό, δηλαδή επειδή αυτό που κάνουν στην διαδικασία της µάθησης είναι να αποθηκεύουν τα δεδοµένα εκπαίδευσης, ονοµάζονται και µέθοδοι βασισµένες στην µνήµη (memory-based). Επίσης οι µέθοδοι αυτές συχνά αναφέρονται σαν «χαλαροί (lazy)» αλγόριθµοι εξαιτίας της καθυστέρησης που απαιτούν κατά την επεξεργασία ενός νέου παραδείγµατος προκειµένου να το ταξινοµήσουν. Αυτό το τελευταίο χαρακτηριστικό τους είναι και ένα µειονέκτηµά τους καθώς το κόστος κατηγοριοποίησης ενός νέου στιγµιοτύπου µπορεί να είναι υψηλό. Αυτό οφείλεται στο ότι όλοι οι υπολογισµοί λαµβάνουν µέρος και την ώρα της κατηγοριοποίησης και λιγότερο κατά την επεξεργασία των παραδειγµάτων εκπαίδευσης. Ένα δεύτερο µειονέκτηµα αρκετών αλγορίθµων αυτού του είδους (ειδικότερα της προσέγγισης του «πλησιέστερου γείτονα» που έκφραση του θα αναπτυχθεί παρακάτω), είναι ότι ασχολούνται µε όλα τα χαρακτηριστικά των στιγµιοτύπων όταν προσπαθούν να ανακαλέσουν από την µνήµη παρόµοια παραδείγµατα εκπαίδευσης. Ο αλγόριθµος των k-κοντινότερων Γειτόνων Ο χαρακτηριστικότερος αλγόριθµος της κατηγορίας αυτής είναι ο αλγόριθµος των k-κοντινότερων Γειτόνων (k-nearest Neighbor). Η µέθοδος που ακολουθείται σε αυτόν τον αλγόριθµο είναι ότι τα παραδείγµατα αναπαρίστανται ως σηµεία σε κάποιο Ευκλείδειο χώρο και ότι η συνάρτηση-στόχος για κάθε νέο στιγµιότυπο, το οποίο τοποθετείται και αυτό στο χώρο ως νέο σηµείο, εξαρτάται από τις τιµές που έχουν τα k κοντινότερα σε αυτό στιγµιότυπα εκπαίδευσης, τα οποία χαρακτηρίζονται ως γείτονες του. 24

33 Πιο συγκεκριµένα, έστω ότι ένα στιγµιότυπο περιγράφεται από ένα διάνυσµα χαρακτηριστικών: α x), α ( x),..., α ( ), όπου κάθε α κ, κ=1,2,...,n, είναι ένα χαρακτηριστικό 1( 2 n x του στιγµιοτύπου x. Τότε η απόσταση µεταξύ των δυο στιγµιοτύπων x i και x j είναι η εξής: d( xi, x j ) ( aκ ( xi ) aκ ( x j )) Στην µέθοδο µάθησης µε κοντινότερους γειτόνους η συνάρτηση-στόχος µπορεί να πάρει είτε διακριτές τιµές, είτε φυσικές τιµές. Ας θεωρήσουµε ότι η συνάρτηση-στόχος παίρνει διακριτές τιµές της µορφής f : R n V, όπου V είναι το πεπερασµένο σύνολο {ν 1,..., ν j }. Ο k-nn αλγόριθµος περιγράφεται παρακάτω: Αλγόριθµος εκπαίδευσης : Για κάθε παράδειγµα εκπαίδευσης f( x) 2 x,, πρόσθεσε το παράδειγµα στην λίστα training_examples Αλγόριθµος ταξινόµησης: οσµένου ενός νέου στιγµιοτύπου x q προς ταξινόµηση, Καθόρισε τα k στιγµιότυπα από τα training_examples, µέσω των x 1,,x k, που βρίσκονται πιο κοντά στο x q Επέστρεψε όπου (, b) = 1 fˆ δ α αν = b k ( xq) arg max δ υ, f( xi) υ V i= 1 ( ) α και όπου (, b) = 0 δ α,, σε διαφορετική περίπτωση Η τιµή fˆ ( x q ) που επιστρέφεται από αυτόν τον αλγόριθµο σαν την εκτίµηση του f ( x q ) είναι απλώς η περισσότερη κοινή τιµή της fµεταξύ των k. 25

34 Στο παραπάνω σχήµα µπορούµε να δούµε την αποτύπωση ενός συνόλου θετικών και αρνητικών παραδειγµάτων µαζί µε το προς κατηγοριοποίηση στιγµιότυπο x, σε έναν δισδιάστατο χώρο. Η συνάρτηση στόχος µπορεί να πάρει τις τιµές 0 ή 1. Ο 1-ΝΝ αλγόριθµος κατατάσσει το στιγµιότυπο σαν θετικό αφού ο κοντινότερός του γείτονας έχει καταταχτεί σαν θετικό παράδειγµα, ενώ ο 5-ΝΝ αλγόριθµος το κατατάσσει σαν αρνητικό. Υπάρχει όµως η περίπτωση τα χαρακτηριστικά να έχουν συµβολικές τιµές. Τότε, δεν θα ήταν σωστό να χρησιµοποιηθεί η Ευκλείδεια απόσταση. Σε αυτή την περίπτωση χρησιµοποιείται η απόσταση Hamming: d ( xi x j) δ ( α r( xi), α r( x j ),, όπου δ ( x, y) = 0 δ ( x, y) = 1, αν x=y και, αν x y Όταν η συνάρτηση-στόχος είναι συνεχής (continuous valued) υπολογίζουµε τον µέσο όρο των τιµών των γειτόνων. Οπότε, αντικαθιστούµε στον αλγόριθµο την συνεχή συνάρτηση-στόχο: fˆ k i = q 1 ( x ) k f ( x ) i Μια βελτίωση που µπορεί να επιτευχθεί στον k-nn αλγόριθµο είναι να ζυγίσουµε την συνεισφορά καθενός από τους k γείτονες σύµφωνα µε την απόσταση τους προς το στιγµιότυπο x q, δίνοντας µεγαλύτερο βάρος στους κοντινότερους γείτονες. Αυτή είναι η εκδοχή του αλγορίθµου µε βάση την απόσταση (distanceweighted). Επιτυγχάνεται αντικαθιστώντας την τελευταία γραµµή του αλγορίθµου από την παρακάτω σχέση: fˆ k ( x ) arg max w δ υ, f( x ) q υ V i = 1 i ( ) i όπου wi d 1 ( x, x ) 2 q i Ο αλγόριθµος k-nn µε βάση την απόσταση είναι µια επαγωγική µέθοδος (γίνεται η υπόθεση ότι η τιµή της συνάρτησης στόχου είναι παρόµοια µε αυτή των γειτόνων του) µε µεγάλη αποδοτικότητα. Είναι επίσης ανθεκτικός σε παραδείγµατα εκπαίδευσης µε θόρυβο και είναι αρκετά αποτελεσµατικός όταν προσφέρεται ένας µεγάλος αριθµός δεδοµένων εκπαίδευσης. Στην περίπτωση που το προς ταξινόµηση στιγµιότυπο x q ταιριάζει ακριβώς µε ένα από τα στιγµιότυπα εκπαίδευσης x i και άρα η τιµή της απόστασης µεταξύ των fˆ, την τιµή της δυο παραδειγµάτων είναι µηδέν, αναθέτουµε στην τιµή της ( x q ) f ( x q ). 26

35 Με αυτόν τον τρόπο µπορούµε να επιτρέψουµε σε όλα τα παραδείγµατα να πάρουν µέρος στην ταξινόµηση του x q, επειδή µόνο τα κοντινά χαρακτηριστικά θα fˆ, αλλά αυτό προφανώς θα έχει µεγαλύτερο x q µπορούν να επηρεάσουν το ( ) υπολογιστικό κόστος. Αυτή η µέθοδος ονοµάζεται καθολική (global) ενώ η µέθοδος που µόνο τα κοντινότερα παραδείγµατα χρησιµοποιούνται ονοµάζεται τοπική (local). Στην καθολική µέθοδο, όταν η συνάρτηση-κόστος είναι συνεχής, αντικαθιστούµε στην τελευταία γραµµή του αλγορίθµου την παρακάτω σχέση: fˆ ( x ) q k i= 1 w k i i= 1 f w ( x ) i i Μέθοδοι on-line Οι µέθοδοι αυτοί κατασκευάζουν έναν ταξινοµητή αµέσως µετά την εξέταση του πρώτου παραδείγµατος εκπαίδευσης και τον βελτιώνουν µε την εξέταση των επόµενων παραδειγµάτων. Αυτή η µέθοδος ενδείκνυται για τα προβλήµατα εκείνα που τα δεδοµένα εκπαίδευσής τους δεν µας είναι γνωστά από την έναρξη της εφαρµογής. Ένας γνωστός αλγόριθµος της κατηγορίας αυτής είναι ο Perceptron που πρωτοεµφανίστηκε στην Κατηγοριοποίηση Κειµένου από τους Schutze και Wiener Τεχνητά Νευρωνικά ίκτυα Ο τοµέας των Τεχνητών Νευρωνικών ικτύων έχει βασιστεί στις παρατηρήσεις των µελετών των νευρώνων του κλάδου της Βιολογίας, προσπαθώντας να τους προσεγγίσει και να αντιγράψει την λειτουργία µάθησης τους. Τα Τεχνητά Νευρωνικά ίκτυα αποτελούνται από ένα δίκτυο µονάδων όπου οι εισερχόµενες µονάδες αναπαριστούν τα χαρακτηριστικά και οι εξερχόµενες αναπαριστούν τις κατηγορίες. Η µέθοδος αυτή είναι κατάλληλη για προβλήµατα µε τα ακόλουθα χαρακτηριστικά: Τα παραδείγµατα αναπαρίστανται από µεγάλο πλήθος ζευγαριών της µορφής (χαρακτηριστικό,τιµή) Η έξοδος της συνάρτησης-στόχου µπορεί να έχει τιµή διακριτή, πραγµατική ή ένα διάνυσµα µε συνδυασµούς τους Τα παραδείγµατα εκπαίδευσης µπορεί να περιέχουν λάθη Απαιτείται αρκετός χρόνος για την εκπαίδευση του συστήµατος εν είναι σηµαντικό να κατανοήσουν οι ειδικοί την συνάρτηση-στόχο 27

36 Μηχανές Υποστήριξης ιανυσµάτων Ο αλγόριθµος µάθησης Μηχανές Υποστήριξης ιανυσµάτων (Support Vector Machines) πρωτοεµφανίστηκε στην περιοχή της Κατηγοριοποίησης Κειµένων από τον Joachims το έτος 1998, είναι µια από τις δηµοφιλείς µεθόδους στον τοµέα αυτό και στηρίζεται στην Ελαχιστοποίηση οµικού Ρίσκου (Structural Risk Minimization) του τοµέα της θεωρίας της υπολογιστικής µάθησης. Η µέθοδος που εξετάζουµε στο κεφάλαιο αυτό, βασίζεται στην ιδέα της εύρεσης µιας υπόθεσης h, ώστε να ελαχιστοποιήσει την πιθανότητα αυτής να κάνει λάθος σε ένα άγνωστο και τυχαίως επιλεγµένο παράδειγµα του συνόλου ελέγχου, από το σύνολο εγγράφων που εξετάζεται. Ο SVM έχει ως σκοπό του να βρει την υπόθεση h που ελαχιστοποιεί το ανώτερο όριο που χρησιµοποιείται για να συνδέσει την παραπάνω πιθανότητα µε το λάθος της h, στο σύνολο εκπαίδευσης και την πολυπλοκότητα του χώρου που περιέχει την υπόθεση h. Mε γεωµετρικούς όρους, ο στόχος του αλγορίθµου είναι να προσπαθήσει να βρει, µεταξύ όλων των επιφανειών του χώρου που διαχωρίζει τα θετικά από τα αρνητικά παραδείγµατα (επιφάνειες απόφασης decision surfaces), την επιφάνεια αυτή που διαχωρίζει τα αρνητικά από τα θετικά παραδείγµατα µε το µεγαλύτερο πιθανό περιθώριο (margin). Αρχικά, από κάθε κλάση επιλέγονται τα διανύσµατα υποστήριξης (support vectors), δηλαδή ένας µικρός αριθµός παραδειγµάτων εκπαίδευσης που έχουν ίδια σύνορα µε παραδείγµατα άλλων κλάσεων. Στην συνέχεια, από αυτά τα παραδείγµατα κατασκευάζεται µια συνάρτηση διάκρισης που είναι σε θέση να τα διαχωρίσει ακόµα περισσότερο. H SVM συνήθως δεν είναι κατάλληλη για binary προβλήµατα και µόλις πρόσφατα προσαρµόστηκε στην multiclass κατηγοριοποίηση. Κατά τον Joachims τα πλεονεκτήµατα που έχει η µέθοδος SVM όσο αφορά τον τοµέα της Κατηγοριοποίησης Κειµένων είναι τα εξής: 1. δεν είναι απαραίτητη η µείωση της διαστατικότητας καθώς µπορεί να έχει αρκετά καλή συµπεριφορά απέναντι στο φαινόµενο του υπερταιριάσµατος. Μάλιστα πρόσφατα πειράµατα έχουν δείξει ότι η επιλογή χαρακτηριστικών µπορεί να µειώσει σε πολύ µεγάλο βαθµό την απόδοση του ταξινοµητή. 2. δεν χρειάζεται καµιά ενέργεια για να ρυθµιστούν οι παράµετροι µέσω του συνόλου επικύρωσης, καθώς µπορούµε να επιλέξουµε τις παραµέτρους εκείνες που έχουν καθοριστεί θεωρητικά να µας δίνουν την καλύτερη αποτελεσµατικότητα του ταξινοµητή. 3. ελάχιστα χαρακτηριστικά δεν σχετίζονται µεταξύ τους, κάνοντας την µέθοδο αυτή να χρησιµοποιεί αποτελεσµατικά ακόµα και αυτά τα χαρακτηριστικά που µπορούν να προσφέρουν «λίγη» πληροφορία. 4. τα περισσότερα προβλήµατα κατηγοριοποίησης είναι γραµµικά διαχωρίσιµα. Η ιδέα του SVM είναι να βρει τέτοιους γραµµικούς τρόπους διαχωρισµού. Επίσης, πολύ σηµαντικά πλεονεκτήµατα του αλγόριθµου σε σχέση µε άλλους του ίδιου τοµέα είναι η αποτελεσµατικότητά του, η ταχύτητά του και η δυνατότητα που έχει να χειρίζεται χώρους µεγάλης διάστασης. 28

37 Αναλυτικότερα, ας εξετάσουµε τώρα την απλούστερη περίπτωση του προβλήµατος της ταξινόµησης δυο γραµµικά διαχωρίσιµων κλάσεων. r d Έστω τα δεδοµένα εκπαίδευσης {x i, y i } µε i = 1,2,,l που το x R αντιστοιχεί στο διάνυσµα που αντιπροσωπεύει το κάθε στιγµιότυπο και το y i { 1,1} στην κλάση που ανήκει αυτό το στιγµιότυπο. Αφού οι κλάσεις είναι γραµµικά διαχωρίσιµες, υποθέτουµε ότι υπάρχει ένα υπερεπίπεδο που διαχωρίζει τα θετικά από τα αρνητικά παραδείγµατα και το οποίο έχει εξίσωση w r x r + b = 0 και το διάνυσµα x r ανήκει σε αυτό. Στην εξίσωση, το w r είναι το κανονικό διάνυσµα του υπερεπιπέδου, b r η κατακόρυφη απόσταση της αρχής του συστήµατος w συντεταγµένων από το υπερεπίπεδο, και το σύµβολο του εσωτερικού διανύσµατος δυο διανυσµάτων. Επίσης το περιθώριο, που αναφέρθηκε παραπάνω, ορίζεται µαθηµατικά ως το d + + d, όπου d + (ή d ) η κοντινότερη απόσταση του κοντινότερου υπερεπιπέδου από το κοντινότερο θετικό (ή αντίστοιχα αρνητικό) παράδειγµα. Για τις περιπτώσεις των γραµµικά διαχωρίσιµων κλάσεων, όπως αναφέρθηκε και παραπάνω, ο στόχος του SVM είναι να βρει, µεταξύ των επιφανειών του χώρου που χωρίζει τα θετικά από τα αρνητικά παραδείγµατα, την επιφάνεια αυτή που τα χωρίζει µε το µεγαλύτερο δυνατό περιθώριο. Αυτό µεταφράζεται µαθηµατικά ως εξής: w r x r i + b +1, αν y i = +1 (1) w r x r i + b 1, αν y i = 1 (2) και αν θελήσουµε να συνδυάσουµε τις δυο σχέσεις έχουµε: y i ( w r x r i + b) 1 0, i (3) Τώρα, έστω τα διανύσµατα εκπαίδευσης που ικανοποιούν την εξίσωση (1). Αν τα θεωρήσουµε ως σηµεία τότε θα πρέπει να βρίσκονται στο υπερεπίπεδο w r x r i + b = +1, µε w r το κανονικό διάνυσµα του υπερεπιπέδου και µε 1 b r την κατακόρυφη w απόσταση της αρχής του συστήµατος συντεταγµένων από το υπερεπίπεδο. Οµοίως τα διανύσµατα που ικανοποιούν την εξίσωση (2) θα πρέπει να βρίσκονται στο υπερεπίπεδο w r x r i + b = 1, µε w r το κανονικό διάνυσµα του υπερεπιπέδου και µε 1 b r την κατακόρυφη απόσταση της αρχής του συστήµατος συντεταγµένων από w το υπερεπιπεδο. i 29

38 Σχήµα 1: διαγραµµατική απεικόνιση του προβλήµατος κατηγοριοποίησης δυο γραµµικά διαχωρίσιµων κλάσεων Παρατηρούµε ότι ισχύει d + = d = 1 2 w r και άρα το περιθώριο είναι 2 2 w r. Οπότε το περιθώριο µεγιστοποιείται όταν το 2 w r ελαχιστοποιείται. Επίσης τα δυο υπερεπίπεδα που εξετάζουµε είναι παράλληλα, καθώς έχουν το ίδιο κανονικό διάνυσµα w r και δεν υπάρχουν παραδείγµατα εκπαίδευσης στην περιοχή που ορίζουν. Τα αποτελέσµατα της παραπάνω διαδικασίας αποτυπώνονται στο Σχήµα 1. Όπως έχει αποδειχτεί [Burges 1998], η ελαχιστοποίηση της τιµής w r µπορεί να γίνει µέσω της µεγιστοποίησης της Lagrangian συνάρτησης και τελικά έχουµε : L D = i 1 r v ai aia j yi y j ( xi x j ) 2 όπου α i, i=1,...,l ονοµάζονται θετικοί πολλαπλασιαστές Lagrange και a i y i =0. Τα στιγµιότυπα εκπαίδευσης που ικανοποιούν τις παραπάνω εξισώσεις (1), (2) και (3), και εποµένως βρίσκονται σε κάποιο από τα δυο υπερεπίπεδα, εξαρτάται από αυτά η λύση του αλγορίθµου και η παράµετρος α i είναι µεγαλύτερη του µηδενός, α i >0, ονοµάζονται διανύσµατα εκπαίδευσης (support vectors). Έχοντας υπολογίσει τα διανύσµατα υποστήριξης κατά την εκπαίδευση του αλγορίθµου, ένα άγνωστο στιγµιότυπο x r ταξινοµείται από την συνάρτηση : r r r f + ( x) = sign{ w x b}, 30

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Αναγνώριση Υφολογικού Είδους Κειµένου µε τεχνικές Μηχανικής Μάθησης Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα Εξαγωγή κανόνων από αριθµητικά δεδοµένα Συχνά το σύστηµα που θέλουµε να µοντελοποιήσουµε η να ελέγξουµε αντιµετωπίζεται ως µαύρο κουτί και η πληροφορία για τη λειτουργία του διατίθεται υπό µορφή ζευγών

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση Υπολογιστική Νοημοσύνη Μάθημα 9: Γενίκευση Υπερπροσαρμογή (Overfitting) Ένα από τα βασικά προβλήματα που μπορεί να εμφανιστεί κατά την εκπαίδευση νευρωνικών δικτύων είναι αυτό της υπερβολικής εκπαίδευσης.

Διαβάστε περισσότερα

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ( Απαντήσεις & Λύσεις Βιβλίου) 1. Σκοποί κεφαλαίου Κύκλος ανάπτυξης προγράµµατος Κατηγορίες γλωσσών προγραµµατισµού

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ρ. Χαράλαµπος Π. Στρουθόπουλος Αναπληρωτής Καθηγητής

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται: 4.4 Ερωτήσεις διάταξης Στις ερωτήσεις διάταξης δίνονται:! µία σειρά από διάφορα στοιχεία και! µία πρόταση / κανόνας ή οδηγία και ζητείται να διαταχθούν τα στοιχεία µε βάση την πρόταση αυτή. Οι ερωτήσεις

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Εισαγωγή 1. Τι είναι αυτό που κρατάς στα χέρια σου. Αυτό το κείµενο είναι µια προσπάθεια να αποτυπωθεί όλη η θεωρία του σχολικού µε

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης.

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης. Γενικές Παρατηρήσεις Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα () Ορέστης Τελέλης telelis@unipi.gr Τµήµα Ψηφιακών Συστηµάτων, Πανεπιστήµιο Πειραιώς Υπάρχουν µη κανονικές γλώσσες, π.χ., B = { n n n }. Αυτό

Διαβάστε περισσότερα

Σύστηµα Αρχείων και Καταλόγων

Σύστηµα Αρχείων και Καταλόγων ΕΠΛ 003 ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Σύστηµα Αρχείων και Καταλόγων ιάλεξη 7 (Κεφάλαιο 11 του βιβλίου) Στόχοι Κεφαλαίου Περιγραφή της έννοιας του αρχείου, συστήµατος

Διαβάστε περισσότερα

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών ΗΥ-6 Συστήµατα Ανάκτησης Πληροφοριών 7-8 Εαρινό Εξάµηνο Άσκηση Λύσεις ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Θεωρείστε µια

Διαβάστε περισσότερα

Α. Ερωτήσεις Ανάπτυξης

Α. Ερωτήσεις Ανάπτυξης οµηµένος Προγραµµατισµός-Κεφάλαιο 7 Σελίδα 1 α ό 10 ΕΝΟΤΗΤΑ ΙΙΙ (ΠΡΟΓΡΑΜΜΑΤΑ) ΚΕΦΑΛΑΙΟ 7: Είδη, Τεχνικές και Περιβάλλοντα Προγραµµατισµού Α. Ερωτήσεις Ανάπτυξης 1. Τι ονοµάζουµε γλώσσα προγραµµατισµού;

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn) MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ g( Έστω τυχαίες µεταβλητές οι οποίες έχουν κάποια από κοινού κατανοµή Ας υποθέσουµε ότι επιθυµούµε να προσδιορίσουµε την κατανοµή της τυχαίας µεταβλητής g( Η θεωρία των ένα-προς-ένα

Διαβάστε περισσότερα

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016 ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Ψηφιακή Ανάλυση Εικόνας Η ψηφιακή ανάλυση εικόνας ασχολείται κυρίως με τέσσερις βασικές λειτουργίες: διόρθωση, βελτίωση, ταξινόμηση Με τον όρο ταξινόμηση εννοείται

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Πέρα όµως από την Γνωσιακή/Εννοιολογική ανάλυση της δοµής και του περιεχοµένου των σχολικών εγχειριδίων των Μαθηµατικών του Δηµοτικού ως προς τις έννοιες

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001 ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001 ΥΠ.ΕΣ...Α Αριθµ.Πρωτ. / ΙΑ Π/A1/22123 Γ.Γ. ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ ΓΕΝ. /ΝΣΗ ΙΟΙΚΗΤΙΚΗΣ ΟΡΓΑΝΩΣΗΣ /ΝΣΗ ΑΠΛΟΥΣΤΕΥΣΗΣ ΙΑ ΙΚΑΣΙΩΝ ΚΑΙ ΠΑΡΑΓΩΓΙΚΟΤΗΤΑΣ ΤΜΗΜΑ ΜΕΘΟ ΩΝ ΕΡΓΑΣΙΩΝ

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιο λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

Ασφάλεια Πληροφοριακών Συστηµάτων. Επαναληπτικές Ασκήσεις

Ασφάλεια Πληροφοριακών Συστηµάτων. Επαναληπτικές Ασκήσεις Ασφάλεια Πληροφοριακών Συστηµάτων Επαναληπτικές Ασκήσεις ιάγραµµα Pareto Τα προβλήματα ασφάλειας σε δύο εξυπηρετητές μίας εταιρείας απεικονίζονται στο παρακάτω πίνακα: α/α Κωδικός Προβλήματος Συχνότητα

Διαβάστε περισσότερα

Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού

Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΜΑΤΙΚΗΣ Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού Μάρα Νικολαϊδου Δραστηριότητες Διαδικασιών Παραγωγής Λογισµικού Καθορισµός απαιτήσεων και εξαγωγή προδιαγραφών

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ Δρ. Κουζαπάς Δημήτριος Πανεπιστήμιο Κύπρου - Τμήμα Πληροφορικής Μηχανές Αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ. ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ. Στατιστική με το SPSS Ως επιστήμονες, χρειαζόμαστε τη Στατιστική για 2 κυρίους λόγους: 1. Για

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: Εισαγωγή στις έννοιες Αλγόριθµοι και Πολυπλοκότητα, Οργάνωση Δεδοµένων και Δοµές Δεδοµένων Χρήσιµοι µαθηµατικοί

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Σεμινάριο Τελειοφοίτων. 6- Εμπειρική μέτρηση & ανάλυση

Σεμινάριο Τελειοφοίτων. 6- Εμπειρική μέτρηση & ανάλυση Σεμινάριο Τελειοφοίτων 6- Εμπειρική μέτρηση & ανάλυση Πόσο συχνά; Πόσο μεγάλο; Πόσο αντιπροσωπευτικό; Πως αλληλεπιδρούν οι μεταβλητές X και Y; Ποια είναι η αιτιώδης συνάφεια μεταξύ των φαινομένων Α και

Διαβάστε περισσότερα

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάµηνο 1 η Σειρά Ασκήσεων (Αξιολόγηση Αποτελεσµατικότητας Ανάκτησης) Άσκηση 1 (4 βαθµοί) Θεωρείστε

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ AM: Δοµές Δεδοµένων Εξεταστική Ιανουαρίου 2014 Διδάσκων : Ευάγγελος Μαρκάκης 20.01.2014 ΥΠΟΓΡΑΦΗ ΕΠΟΠΤΗ: Διάρκεια εξέτασης : 2 ώρες και

Διαβάστε περισσότερα

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1 ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1 1 Βελτιστοποίηση Στην προσπάθεια αντιμετώπισης και επίλυσης των προβλημάτων που προκύπτουν στην πράξη, αναπτύσσουμε μαθηματικά μοντέλα,

Διαβάστε περισσότερα

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών 1 Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ της Κωτσογιάννη Μαριάννας Περίληψη 1. Αντικείµενο- Σκοπός Αντικείµενο της διπλωµατικής αυτής εργασίας

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΡΓΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΡΓΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΡΓΩΝ 1. Διαχείριση έργων Τις τελευταίες δεκαετίες παρατηρείται σημαντική αξιοποίηση της διαχείρισης έργων σαν ένα εργαλείο με το οποίο οι διάφορες επιχειρήσεις

Διαβάστε περισσότερα

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ Κεφάλαιο 7 ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ Ερωτήσεις 1. Να αναφέρετε διαφορές μεταξύ γλωσσών μηχανής και γλωσσών χαμηλού επιπέδου. Οι γλώσσες μηχανής κωδικοποιούν τις εντολές τους με ομάδες

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr Βασίλης Κατσάρης, telia.co.gr Σύνοψη Το σύστημα ΕΥΡΗΚΑ

Διαβάστε περισσότερα

Επίλυση Προβλημάτων 1

Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης Αναζήτηση πρώτα σε βάθος Αναζήτηση πρώτα σε πλάτος (ΒFS) Αλγόριθμοι ευρετικής αναζήτησης

Διαβάστε περισσότερα

Το Επενδυτικό σχέδιο 3. Βασικές έννοιες και ορισµοί

Το Επενδυτικό σχέδιο 3. Βασικές έννοιες και ορισµοί ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΤΕΧΝΟΛΟΓΙΚΗ ΟΙΚΟΝΟΜΙΚΗ I Διδάσκων: Δρ. Κ. Αραβώσης Το Επενδυτικό σχέδιο 3. Βασικές έννοιες

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

1 Ανάλυση Προβλήματος

1 Ανάλυση Προβλήματος 1 Ανάλυση Προβλήματος 1.1 Η Έννοια Πρόβλημα Τι είναι δεδομένο; Δεδομένο είναι οτιδήποτε μπορεί να γίνει αντιληπτό από έναν τουλάχιστον παρατηρητή, με μία από τις πέντε αισθήσεις του. Τι είναι επεξεργασία

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ικανοποίηση Περιορισμών Κατηγορία προβλημάτων στα οποία είναι γνωστές μερικές

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ Βασικός τελικός στόχος κάθε επιστηµονικής τεχνολογικής εφαρµογής είναι: H γενική βελτίωση της ποιότητας του περιβάλλοντος Η βελτίωση της ποιότητας ζωής Τα µέσα µε τα

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση Κεφάλαιο ο: Δικτυωτή Ανάλυση. Εισαγωγή Η δικτυωτή ανάλυση έχει παίξει σημαντικό ρόλο στην Ηλεκτρολογία. Όμως, ορισμένες έννοιες και τεχνικές της δικτυωτής ανάλυσης είναι πολύ χρήσιμες και σε άλλες επιστήμες.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ... ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ...1 1. Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...3 Κατηγορίες των Γεωγραφικών εδοµένων...3 Γεωγραφικές οντότητες...3 ιαστάσεις

Διαβάστε περισσότερα

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας. Η Πυξίδα Απασχόλησης είναι ένα πλήρως παραμετροποιήσιμο portal που απευθύνεται σε Κέντρα Επαγγελματικής Κατάρτισης, Δήμους, Εκπαιδευτικούς Οργανισμούς και Εταιρίες Εύρεσης Εργασίας, με στόχο τόσο την μηχανογράφηση

Διαβάστε περισσότερα

Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ

Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών Περίληψη Τί προτείνουμε, πώς και γιατί με λίγα λόγια: 55 μαθήματα = 30 για ενιαίο

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης Επίλυση προβληµάτων Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης! Παιχνίδια δύο αντιπάλων Προβλήµατα ικανοποίησης περιορισµών Γενικά " Ντετερµινιστικά

Διαβάστε περισσότερα

επιπτώσεων στο περιβάλλον απαιτήσεις σε αντιρρυπαντικά συστήµατα Αέριες Εκποµπές Εκποµπές οσµών

επιπτώσεων στο περιβάλλον απαιτήσεις σε αντιρρυπαντικά συστήµατα Αέριες Εκποµπές Εκποµπές οσµών ΠΕΡΙΛΗΨΗ Για την επιτυχή εφαρµογή της πολυκριτηριακής ανάλυσης, είναι απαραίτητο αφενός µεν να εξετασθεί ένας ικανός και αναγκαίος αριθµός κριτηρίων που θα δίνουν µία αντιπροσωπευτική και πλήρη εικόνα

Διαβάστε περισσότερα

Social Web: lesson #4

Social Web: lesson #4 Social Web: lesson #4 looking for relevant information browsing searching monitoring recommendations Information Retrieval the inverted index Google.com the pagerank algorithm the value of words the price

Διαβάστε περισσότερα

Σύστηµα Προσαρµοστικής. Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11

Σύστηµα Προσαρµοστικής. Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11 ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Σύστηµα Προσαρµοστικής Μάθησης για την Αξιολόγηση Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11 Προβλήµατα

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ασάφεια (Fuzziness) Ποσοτικοποίηση της ποιοτικής πληροφορίας Οφείλεται κυρίως

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (data mining)

Εξόρυξη Γνώσης από εδοµένα (data mining) Εξόρυξη νώσης από εδοµένα (data mining) Ε.Κ.Ε.Φ.Ε. ηµόκριτος Ινστ. Πληροφορικής και Τηλεπικοινωνιών εώργιος Παλιούρας Email: paliourg@iit.demokritos.gr WWW: http://www.iit.demokritos.gr/~paliourg Περιεχόµενα

Διαβάστε περισσότερα

Βασικά ζητήματα μιας βάσης δεδομένων

Βασικά ζητήματα μιας βάσης δεδομένων Τριαντάφυλλος Πριμηκύρης* Βασικά ζητήματα μιας βάσης δεδομένων Τι είναι μια βάση δεδομένων; Ας ξεκινήσουμε με κάτι πολύ απλό! Όλοι έχετε έναν τηλεφωνικό κατάλογο. Ο κατάλογος αυτός είναι μια χειροκίνητη

Διαβάστε περισσότερα