Εφαρµογές της Μηχανικής Μάθησης στην Κατηγοριοποίηση Κειµένου

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εφαρµογές της Μηχανικής Μάθησης στην Κατηγοριοποίηση Κειµένου"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΚΠΑΙ ΕΥΤΙΚΟΥ ΛΟΓΙΣΜΙΚΟΥ (ESD Lab) Εφαρµογές της Μηχανικής Μάθησης στην Κατηγοριοποίηση Κειµένου ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΥΑΓΓΕΛΙΑΣ ΕΛΕΝΗΣ ΑΘΑΝΑΣΟΠΟΥΛΟΥ ΜΑΘΗΜΑΤΙΚΟΥ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ ΠΑΝΑΓΙΩΤΗΣ ΠΙΝΤΕΛΑΣ ΠΑΤΡΑ ΟΚΤΩΒΡΙΟΣ 2006

2 2

3 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή µου, κ. Παναγιώτη Πιντέλα για την ευκαιρία που µου έδωσε να ασχοληθώ µε ένα τόσο ενδιαφέρον και σύγχρονο θέµα καθώς και για την καθοδήγηση και βοήθεια που µου παρείχε καθ όλη τη διάρκεια εκπόνησης της εργασίας. Επίσης θέλω να ευχαριστήσω τα υπόλοιπα δύο µέλη της συµβουλευτικής επιτροπής: κ. Μιχαήλ Βραχάτη, κ. Όµηρο Ράγγο. Ιδιαίτερα ευχαριστώ πολύ τον διδάκτορα κ. Σωτήρη Κοτσιαντή για την ουσιαστική και καθοριστική συµβολή και αµέριστη βοήθειά του στην εκπόνηση της εργασίας καθώς και για την άριστη συνεργασία που είχαµε. Θα ήθελα επιπλέον να ευχαριστήσω τον κ. Μανόλη Οικονοµάκη, µεταπτυχιακό φοιτητή του τµήµατος Μαθηµατικών του Πανεπιστηµίου Πατρών για την συνεργασία που είχαµε πάνω στη χρήση των σχετικών προγραµµάτων Η/Υ. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά µου για το ενδιαφέρον και τη στήριξη που µου έδειξε κατά τη διάρκεια των µεταπτυχιακών µου σπουδών. Πάτρα, Οκτώβριος 2006 Ευαγγελία - Ελένη Αθανασοπούλου Μαθηµατικός 3

4 4

5 ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ...7 ΕΙΣΑΓΩΓΗ...9 Εξόρυξη Κειµένου (Text Mining)...9 ΚΕΦΑΛΑΙΟ 1 Ο Επεξεργασία Φυσικής Γλώσσας Περίληψη Κειµένου Πρότυπα Συσχέτισης Αναγνώριση Θεµάτων Κατηγοριοποίηση Κειµένου Ταξινόµηση Κειµένου, Οµαδοποίηση Κειµένου...18 ΚΕΦΑΛΑΙΟ 2 Ο Αυτόµατη Κατηγοριοποίηση Κειµένου (Text Classification) Εφαρµογές της Αυτόµατης Κατηγοριοποίησης Κειµένου Σχεδίαση Συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου Η ιαδικασία της Προεπεξεργασίας των εδοµένων Αναπαράσταση Κειµένων Κατηγοριοποίηση σε Μία ή Περισσότερες Κατηγορίες Κατηγοριοποίηση Προσανατολισµένη στις Κατηγορίες και Κατηγοριοποίηση Προσανατολισµένη στο Κείµενο Επιλογή Γνωρισµάτων Επιλογή των Γνωρισµάτων (Feature Selection) της Επεξεργασίας για την Ταξινόµηση Κειµένων Feuture Weighting Μείωση ιαστασιµότητας (Dimensionality Reduction)...31 ΚΕΦΑΛΑΙΟ 3 Ο Βασικές Έννοιες της Μηχανικής Μάθησης Αλγόριθµοι Μηχανικής Μάθησης

6 3.2.1 Baysian Μέθοδος...39 Θεώρηµα του Bayes...39 Baysian Κατηγοριοποίηση Μάθηση βασισµένη στα στιγµιότυπα- Μέθοδος Κ πλησιέστερων γειτόνων (ΚΝΝ) Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines) ένδρα Απόφασης (DT) Νευρωνικά ίκτυα ( Neural Networks - ΝΝ) Κανόνες Ταξινόµησης (Classification Rules)...56 ΚΕΦΑΛΑΙΟ 4 Ο Συνολική Άποψη του Συστήµατος Επαγωγική Κατασκευή του Ταξινοµητή Αξιολόγηση του Συστήµατος Μέθοδοι Εκτίµησης της Αποτελεσµατικότητας Μέτρα Αποτελεσµατικότητας της Κατηγοριοποίησης...61 ΚΕΦΑΛΑΙΟ 5 Ο Προτεινόµενος αλγόριθµος: Naïve Bayes - Multinomial και LogitBoost Οµάδες ταξινοµητών - Logit Boost Πιθανοθεωρητικό Πλαίσιο Εργασίας µε βάση την Μπαϊζιανή Μάθηση Μοντέλο Multinomial Κατηγοριοποίηση µε το Μοντέλο Multinomial Logit Boost και Naïve Bayes Multinomial (LΒ NBMultinomial) Ο Αλγόριθµος Συγκρίσεις και αποτελέσµατα Αποτελέσµατα για το σύνολο κειµένων oh0.mat Αποτελέσµατα για το σύνολο κειµένων oh15.mat Αποτελέσµατα για το σύνολο κειµένων tr23.mat Αποτελέσµατα για το σύνολο κειµένων re0.mat Αποτελέσµατα για το σύνολο κειµένων oh10.mat Αποτελέσµατα για το σύνολο κειµένων tr21.mat Αποτελέσµατα για το σύνολο κειµένων tr11.mat Αποτελέσµατα για το σύνολο κειµένων re1.mat Αποτελέσµατα για το σύνολο κειµένων tr41.mat Αποτελέσµατα για το σύνολο κειµένων tr12.mat Συµπεράσµατα...76 ΕΠΙΛΟΓΟΣ...78 ΠΑΡΑΡΤΗΜΑ...81 ΒΙΒΛΙΟΓΡΑΦΙΑ

7 ΠΡΟΛΟΓΟΣ Είναι σίγουρο πως η χρήση προϊόντων και ολοκληρωµένων συστηµάτων αυτόµατης κατηγοριοποίησης εγγράφων θα ενταθεί τα προσεχή χρόνια, καθώς η τεχνογνωσία στην περιοχή αυτή θα αυξάνεται, ενώ παράλληλα η ανάγκη διαχείρισης ενός όλο και περισσότερο διογκούµενου αριθµού εγγράφων διαθέσιµων σε ηλεκτρονική µορφή, κυρίως λόγω της αλµατώδους ανάπτυξης και χρήσης του ιαδικτύου, θα καταστήσει ανέφικτη ή ασύµφορη τη χειρωνακτική (manual) κατηγοριοποίηση των ηλεκτρονικών εγγράφων. Η κατηγοριοποίηση κειµένου (text categorization -ΚΚ), γνωστή και ως κατάταξη κειµένου (text classification), είναι η διαδικασία κατάταξης κειµένων φυσικής γλώσσας σε ένα προκαθορισµένο αριθµό θεµατικών κατηγοριών γνωστών εκ των προτέρων. Η ιστορία της ΚΚ, ως πεδίου έρευνας στην περιοχή της βασισµένης στο περιεχόµενο (content-based) διαχείρισης εγγράφων, ξεκίνησε στις αρχές της δεκαετίας του 60. Ωστόσο έγινε κύριο πεδίο ενασχόλησης ενός σηµαντικού αριθµού ερευνητών κατά τις αρχές της δεκαετίας του 90, λόγω του αυξηµένου ενδιαφέροντος πρακτικής αξιοποίησής της και των ισχυρών υπολογιστικών µέσων που ήταν πλέον διαθέσιµα. Σήµερα, η ΚΚ χρησιµοποιείται σε διάφορα περιβάλλοντα εφαρµογής, όπως στην ευρετηριοποίηση εγγράφων µε βάση ένα ελεγχόµενο λεξικό, στο φιλτράρισµα εγγράφων, στην αυτόµατη δηµιουργία µεταδεδοµένων, στη δηµιουργία ιεραρχικών καταλόγων για πόρους του ιαδικτύου, κ.α. Μια πολλά υποσχόµενη λύση σε πολλά προβλήµατα αυτόµατης κατηγοριοποίησης κειµένου, αλλά και οποιασδήποτε µορφής πληροφορίας, έρχεται από το χώρο της µηχανικής µάθησης. Η µηχανική µάθηση (machine learning) έχει ως σκοπό τη δηµιουργία µηχανών ικανών να µαθαίνουν, κατά τον τρόπο που χρησιµοποιούµε τον όρο µάθηση για τον άνθρωπο, δηλαδή τη βελτίωση ικανοτήτων µέσω της αξιοποίησης της συσσωρευµένης γνώσης και εµπειρίας. H πρόοδος που έχει συντελεστεί στη µηχανική µάθηση, ιδιαίτερα την τελευταία δεκαετία, είναι σηµαντική και έχει δώσει τόσο αλγορίθµους και θεωρητικά αποτελέσµατα, όσο και πρακτικές εφαρµογές µε µεγάλη επιτυχία. Μία από τις περιοχές στις οποίες διείσδυσε η εφαρµογή της µηχανικής µάθησης ήταν και η ΚΚ. Μέχρι τα τέλη της δεκαετίας του 80, η πιο αποτελεσµατική προσέγγιση στην ΚΚ ήταν µέσω µεθόδων γνωσιακής µηχανικής (knowledge-engineering), δηλαδή το χειρωνακτικό ορισµό λογικών κανόνων που να κωδικοποιούν την γνώση των ανθρώπωνειδικών (experts) ως προς την κατηγοριοποίηση κειµένων. Στην επόµενη δεκαετία, η προσέγγιση αυτή ξεπεράστηκε µέσω της επικράτησης του παραδείγµατος της µηχανικής µάθησης (machine learning paradigm). Σύµφωνα µε το παράδειγµα αυτό, µια γενική επαγωγική διαδικασία δηµιουργεί έναν αυτόµατο ταξινοµητή, µαθαίνοντας τα χαρακτηριστικά κάθε κατηγορίας µέσω ενός συνόλου προκαταταγµένων κειµένων από ειδικούς. Τα πλεονεκτήµατα αυτού του σχήµατος είναι µια ακρίβεια κατάταξης συγκρίσιµη µε αυτή των ανθρώπων-ειδικών και η εξοικονόµηση ανθρώπινου δυναµικού, καθώς δεν απαιτείται η επέµβαση γνωσιολόγων-µηχανικών και ειδικών. Στόχος της εργασίας είναι η βελτιστοποίηση της απόδοσης ενός συστήµατος κατηγοριοποίησης µέσω του συντονισµού κάποιων από τις παραµέτρους που υπάρχουν ως σχεδιαστικές επιλογές. Επιπλέον, κάποιες από τις παρατηρήσεις που έγιναν κατά τη διαδικασία της βελτιστοποίησης οδήγησαν σε γενικότερα συµπεράσµατα, πέραν του συγκεκριµένου πεδίου εφαρµογής, στηριζόµενα τόσο στα πειραµατικά αποτελέσµατα, όσο και σε θεωρητικά και διαισθητικά επιχειρήµατα. Συνοπτικά, οι στόχοι της εργασίας είναι: Να µελετηθεί και να παρουσιαστεί η µέχρι σήµερα δραστηριότητα στους τοµείς της αυτόµατης κατηγοριοποίησης κειµένου, της µηχανικής µάθησης και της εφαρµογής της 7

8 δεύτερης στην πρώτη, µέσω της εκτεταµένης βιβλιογραφίας που έχει δηµιουργηθεί, κατά τη διάρκεια των τελευταίων κυρίως ετών. Να καταδειχθεί πειραµατικά η υψηλή απόδοση που επιτυγχάνεται µε τη χρήση τεχνικών µηχανικής µάθησης για την αντιµετώπιση του προβλήµατος. Να βελτιστοποιηθεί η επίδοση της µεθόδου µέσω του συντονισµού κάποιων εκ των διαθέσιµων σχεδιαστικών επιλογών. Να ερµηνευθούν τα αποτελέσµατα των πραγµατοποιηθέντων πειραµάτων και να Να γενικευτούν όπου είναι δυνατόν τα συµπεράσµατα που έχουν προκύψει. 8

9 ΕΙΣΑΓΩΓΗ Εξόρυξη Κειµένου (Text Mining) Η Εξόρυξη Κειµένου είναι µία νέα περιοχή έρευνας η οποία ασχολείται µε προβλήµατα επεξεργασίας εγγράφων κειµένων και εξαγωγής γνώσης από τα κείµενα της επεξεργασίας. Χρησιµοποιεί τεχνικές που έχουν αντληθεί από πεδία έρευνας όπως είναι τα: Εξόρυξη δεδοµένων (Data Mining) Μηχανική µάθηση (Machine Learning) Ανάκτηση πληροφορίας (Information Retrieval) Κατανόηση της φυσικής γλώσσας (Natural Language Understanding) Λογική µε βάση τα αποτελέσµατα προηγούµενων περιπτώσεων (Case-based Reasoning) Στατιστική (Statistics) ιαχείριση γνώσης (Knowledge Management) Η αξιοποίηση των τεχνικών αυτών, βοηθά στην επεξεργασία µεγάλων συλλογών από ηµιδοµηµένα ή µη-δοµηµένα κείµενα, µε τη χρήση µεθόδων όπως είναι οι: Προεπεξεργασία (Preprocessing) της συλλογής των εγγράφων, δια µέσου της διαδικασίας κατηγοριοποίησης του κειµένου (Text Categorization) και της διαδικασίας εξαγωγής όρων (Term Extraction) Αποθήκευση (Storing) εικτοδότηση (Indexing) Ανάλυση των ενδιάµεσων αναπαραστάσεων (Intermadiate Representations Analysis) µέσα από διαδικασίες όπως είναι οι: Ανάλυση κατανοµών (Distribution Analysis) Οµαδοποίηση εγγράφων (Document Clustering) Ανάλυση τάσεων (Trend Analysis) Ανακάλυψη κανόνων συσχέτισης (Association Rule Discovery) Σήµερα, είναι ξεκάθαρο ότι πολλές εργασίες γίνονται µε τη χρήση εγγράφων. Όταν µία διαπραγµάτευση τείνει να τελειώσει, ένα έγγραφο έρχεται στην επιφάνεια, ένας συµβιβασµός, ένας νόµος, ένα συµβόλαιο, µία συµφωνία. Όταν διεξάγεται κάποια έρευνα, ένα έγγραφο δηµιουργείται και δηµοσιεύεται. Επιπλέον, η γνώση µεταβιβάζεται δια µέσω των εγγράφων, όπως είναι οι δηµοσιογραφικές έρευνες, τα βιβλία και οι εφηµερίδες. Τα έγγραφα, ουσιαστικά είναι πληροφορία και γνώση οργανωµένη και παρουσιασµένη µε τρόπο φιλικό για την ανθρώπινη κατανόηση. Τα έγγραφα που µπορεί να αναζητήσει κανείς σήµερα, είτε θα είναι εκτυπωµένα, είτε θα βρίσκονται σε ηλεκτρονική µορφή. Τα εκτυπωµένα έγγραφα µπορούν να µετατραπούν σε ηλεκτρονικά µε την οπτική σάρωση και τη χρήση µεθόδων Optical Character Recognition (OCR). Προβλήµατα παρουσιάζονται στην περίπτωση που το κείµενο περιέχει πίνακες, σχήµατα, γραφικά και εικόνες. Τα ηλεκτρονικά έγγραφα µπορούν να είναι είτε ιεραρχικά είτε ελεύθερας µορφής. Τα ιεραρχικά έγγραφα χρησιµοποιούν διάφορα είδη γλώσσων περιγραφής σελίδων (PDL), όπως είναι για παράδειγµα τα έγγραφα Latex, και προγράµµατα απεικόνισης, τα οποία µετατρέπουν τις αναπαραστάσεις PDL σε εικόνες που µπορούν να εκτυπωθούν ή σε εικόνες που να αξιοποιηθούν από κάποιο σύστηµα προβολής εικόνων. Τα ελεύθερας µορφής έγγραφα ίσως να περιέχουν µόνο κείµενο ελεύθερας µορφής ή κείµενο ελεύθερας µορφής εµπλουτισµένο µε πίνακες, σχήµατα, γραφικά και εικόνες. Πρόσφατα, δύο νέοι τύποι πληροφόρησης έχουν γίνει δηµοφιλείς. Αυτοί αφορούν τα έγγραφα πολυµέσων που περιέχουν εκτός του κειµένου και των εικόνων, ηχητικό (φωνή) και 9

10 οπτικοακουστικό (Video) υλικό, και τα έγγραφα υπερµέσων (ΗyperΜedia) των οποίων τα περιεχόµενα δεν βρίσκονται σε γραµµική µορφή. Στην παρούσα εργασία ασχοληθήκαµε µε την αυτόµατη κατηγοριοποίηση κειµένου, τόσο από τη θεωρητική όσο και από την πρακτική σκοπιά. Η κατηγοριοποίηση κειµένου είναι ένας κλάδος ραγδαία εξελισσόµενος κυρίως τα τελευταία χρόνια στον τοµέα της Μηχανικής Μάθησης. Τις εφαρµογές της κατηγοριοποίησης κειµένου τις συναντάµε ως επί τω πλείστω σε δραστηριότητες της καθηµερινής µας ζωής. Ειδικότερα, στο πρώτο κεφάλαιο της εργασίας γίνεται µια παρουσίαση των προβληµάτων που έχουν λυθεί µε τη βοήθεια της εξόρυξης κειµένου: Κατηγοριοποίηση κειµένου ταξινόµηση κειµένου επεξεργασία φυσικής γλώσσας περίληψη κειµένου πρότυπα συσχέτισης αναγνώριση θεµάτων. Στο δεύτερο κεφάλαιο µελετάται διεξοδικά η διαδικασία κατηγοριοποίησης κειµένου: Ανάγνωση κειµένου, αντικατάσταση ειδικών λέξεων µε σύµβολα, µετατροπή των λέξεων στη ρίζα τους, αφαίρεση κοινών λέξεων, διανυσµατική αναπαράσταση του κειµένου, επιλογή των γνωρισµάτων και τέλος η επιλογή του αλγορίθµου µάθησης. Στο τρίτο κεφάλαιο παρουσιάζονται αναλυτικά οι πιο ευρέως γνωστοί αλγόριθµοι στον τοµέα της κατηγοριοποίησης κειµένου: ο αλγόριθµος του Bayes, των k πλησιέστερων γειτόνων, των µηχανών διανυσµάτων υποστήριξης, των Νευρωνικών ικτύων, των δένδρων απόφασης και των κανόνων ταξινόµησης. Στο τέταρτο κεφάλαιο µελετάται η µεθοδολογία κατασκευής ενός συστήµατος αυτόµατης κατηγοριοποίησης κειµένων και ειδικότερα τα στάδια στα οποία θα µπορούσε να διαιρεθεί η ανάπτυξή του: Προεπεξεργασία και αναπαράσταση του σώµατος κειµένων που διατίθεται για την εκπαίδευση του συστήµατος, αλλά και των άγνωστων κειµένων που προορίζονται για κατηγοριοποίηση. Επαγωγική κατασκευή του ταξινοµητή που αποτελεί την «καρδιά» του συστήµατος. Αξιολόγηση της αποτελεσµατικότητας του συστήµατος. Στο πέµπτο κεφάλαιο, το οποίο αποτελεί το πρακτικό µέρος της εργασίας, αρχικά, αναφέρουµε τα αποτελέσµατα που προέκυψαν µετά από τον πειραµατισµό κειµένων µε τους γνωστούς αλγορίθµους µάθησης. Ο σκοπός ήταν να εντοπισθεί η καλύτερη ακρίβεια για κάθε αλγόριθµο µε τη 10- fold cross validation µέθοδο, µε τη βοήθεια του προγράµµατος Weka. Αναζητώντας µεγαλύτερη ακρίβεια συγκριτικά µε τα προηγούµενα αποτελέσµατα, προτείνουµε έναν άλλο αλγόριθµο τον LΒ - NBMultinomial που είναι ένας συνδυασµός των Naïve Bayes Multinomial µε τον Logit Boost. Στον επίλογο αναφέρονται συνοπτικά τα συµπεράσµατα που προέκυψαν από αυτή την εργασία, ενώ στο παράρτηµα αποδίδονται τα αριθµητικά αποτελέσµατα που προέκυψαν από τους πειραµατισµούς. 10

11 ΚΕΦΑΛΑΙΟ 1 ο 1.1. Επεξεργασία Φυσικής Γλώσσας Η ανάπτυξη και η σύγκλειση των τηλεπικοινωνιών, και των υπολογιστικών και πληροφοριακών συστηµάτων, έχει δηµιουργήσει µία επανάσταση στον τρόπο που εργαζόµαστε, επικοινωνούµε, αγοράζουµε αγαθά, χρησιµοποιούµε υπηρεσίες, ψυχαγωγούµαστε και εκπαιδευόµαστε. Ως αποτέλεσµα της επανάστασης αυτής, υπολογιστικά συστήµατα συσσωρεύουν µεγάλες ποσότητες πληροφοριών σε µία µορφή που διαφέρει από τις τυπικές αναπαραστάσεις δεδοµένων του παρελθόντος. Η πιο φυσική µορφή αποθήκευσης δεδοµένων για τον άνθρωπο, είναι τα έγγραφα κειµένου. Απώτερος στόχος, είναι η επεξεργασία των κειµένων αυτών για τη δηµιουργία γνώσης. Όµως η µορφή των δεδοµένων της επεξεργασίας, αποτελεί και το σηµαντικότερο πρόβληµα τέτοιων διαδικασιών. Η επεξεργασία φυσικής γλώσσας (Natural Language Processing) είναι µία κρίσιµη διαδικασία για την επίλυση τέτοιων προβληµάτων. Γενικά, η επεξεργασία φυσικής γλώσσας, είναι η διαδικασία εκείνη που επιχειρεί να αποτελέσει τον ενδιάµεσο κρίκο ανάµεσα στον άνθρωπο χρήστη και τα υπολογιστικά συστήµατα. Προσπαθεί να υποβοηθήσει την επικοινωνία των χρηστών µε τα υπολογιστικά συστήµατα. Η επικοινωνία αυτή, πραγµατοποιείται µε τη χρήση πληροφοριών που εκφράζονται στην φυσική γλώσσα των ανθρώπων. Τα τελευταία χρόνια, έχουν προταθεί πολλές εφαρµογές που αξιοποιούν τις διαδικασίες επεξεργασίας φυσικής γλώσσας και προσεγγίζουν µία ευρεία οµάδα χρηστών. Οι πιο χαρακτηριστικές από αυτές είναι οι: Μηχανική µετάφραση (Machine Translation) Αναγνώριση προφορικού λόγου (Speech Recognition) Ανάκτηση πληροφορίας (Information Retrieval) Περίληψη κειµένων (Text Summarization) Όµως, όλοι όσοι έχουν χρησιµοποιήσει τέτοιες εφαρµογές, γνωρίζουν πόσο ηµιτελείς είναι. Παρ όλα αυτά, τις χρησιµοποιούν µιας και δεν έχουν άλλους τρόπους να οργανώσουν και να εξάγουν πληροφορία από τα τεράστια ποσά δεδοµένων (κυρίως κείµενα) που τους είναι διαθέσιµα on-line. Ο µεγάλος όγκος των διαθέσιµων κείµενων, είναι το κρίσιµο σηµείο για την εξόρυξη γλωσσολογικής πληροφορίας, που είναι χρήσιµη για τους σχεδιαστές εφαρµογών επεξεργασίας φυσικής γλώσσας. Η γλωσσολογική πληροφορία, χρησιµοποιείται για να βελτιωθεί η ποιότητα των συστηµάτων επεξεργασίας φυσικής γλώσσας. Πάντως σε κάθε περίπτωση, το πλήθος των µη-δοµηµένων κειµένων (βιβλία, άρθρα περιοδικών, ερευνητικές δηµοσιεύσεις, εγχειρίδια προϊόντων, ανεπίσηµα σηµειώµατα, e- mail, κλπ) που περιέχουν πληροφορίες στην µορφή των κειµένων φυσικής γλώσσας, είναι αυτό που δίνει το κίνητρο για την περαιτέρω έρευνα για την ανάπτυξη διαδικασιών για την επεξεργασία αυτών των κειµένων. Εξάλλου, η ανάλυση όλων των διαθέσιµων πληροφοριών, είτε αυτές βρίσκονται στην µορφή του κειµένου, είτε όχι, συχνά αναµιγνύεται µε την διαδικασία των ενηµερωµένων και σωστών επιχειρηµατικών αποφάσεων. Οι περισσότερες εφαρµογές επεξεργασίας φυσικής γλώσσας, απαιτούν µεγάλες ποσότητες από κωδικοποιηµένη γνώση που µπορεί να αποκτηθεί µε τη χρήση τυπικών µεθόδων επεξεργασίας κειµένων. Η γνώση αυτή, είναι χρήσιµη πληροφορία που αφορά τις λέξεις, τα µέρη του λόγου, την γραµµατική, την έννοια των λέξεων, την φωνητική, την δοµή του κειµένου, κλπ, και ότι άλλη χρήσιµη πληροφορία µπορεί να περιέχεται σε κάποιο κείµενο. Για την περίπτωση των µικρών εφαρµογών, η γνώση αυτή µπορεί να 11

12 δακτυλογραφηθεί, αλλά για εφαρµογές γενικού σκοπού, αυτές δηλαδή που επιζητούν και οι περισσότεροι χρήστες, ο όγκος της απαιτούµενης γνώσης αυξάνεται. Η απαίτηση για αυτόµατη ή ηµι-αυτόµατη απόκτηση γνώσης για την δηµιουργία εφαρµογών επεξεργασίας φυσικής γλώσσας, έχει οδηγήσει στην δηµιουργία µιας σειράς νέων τεχνικών, που καλύπτονται από τον όρο «Στατιστική Επεξεργασία Φυσικής Γλώσσας». Ο όρος αυτός φαίνεται να αποκλείει προσεγγίσεις που δεν χρησιµοποιούν υπολογισµούς στατιστικής συχνότητας (Statistical Frequency) ή βασικές αρχές της θεωρίας των πιθανοτήτων (Probability Theory), αλλά λόγω του ότι είναι περιεκτικός χρησιµοποιείται ευρέως. Όµως, θα µπορούσαµε ισοδύναµα αντί αυτού, να χρησιµοποιήσουµε τον όρο «Αυτόµατη ή Ηµι-Αυτόµατη Απόκτηση Γνώσης από Γλωσσολογικές Πηγές». Ουσιαστικά, η διαδικασία της επεξεργασίας φυσικής γλώσσας, αποτελείται από διάφορες µεθόδους σηµασιολογικής και συντακτικής ανάλυσης εγγράφων. Για την υλοποίηση αυτών των µεθόδων θα πρέπει να δηµιουργηθούν σύνολα κανόνων, είτε χειρωνακτικά, είτε µέσω αυτόµατων διαδικασιών εκπαίδευσης των µεθόδων που χρησιµοποιούνται για την επεξεργασία κειµένων. Τα σύνολα των κανόνων που δηµιουργούνται από αυτόµατες διαδικασίες, έχουν το πλεονέκτηµα της εύκολης επέκτασης τους αλλά και τις µικρές απαιτήσεις για γλωσσολογική γνώση που θα αναφέρεται αποκλειστικά στο προς επεξεργασία έγγραφο. Παρ όλα αυτά, η απόδοση των εκπαιδεύσιµων συνόλων, συνήθως δεν είναι τόσο καλή όσο αυτή των χειρωνακτικά δηµιουργηµένων κανόνων Περίληψη Κειµένου Η διαδικασία της δηµιουργίας περίληψεων κειµένων (Text Summarization), αποσκοπεί στην παρουσίαση των κύριων σηµείων των κειµένων που επεξεργάζονται, σε µία περιεκτική και κατανοητή µορφή. Η έρευνα που άφορα τις διαδικασίες αυτόµατης δηµιουργίας περιλήψεων κειµένου, ξεκίνησε πριν από περίπου σαράντα χρόνια. Τα αποτελέσµατα αυτών των ερευνών, αποτυπώνονται στα σύγχρονα συστήµατα δηµιουργίας περιλήψεων κειµένου. Τα συστήµατα αυτά, επεξεργάζονται έγγραφα κειµένου και δηµιουργούν αυτόµατα τις περιλήψεις αυτών. Η πρόσφατη ανάπτυξη του Internet και το πλήθος των κειµένων που µπορεί να αντληθεί από αυτό, αναζωογόνησε την έρευνα για τις διαδικασίες δηµιουργίας περιλήψεων. Τώρα πια, µελετάται η εφαρµογή των συστηµάτων δηµιουργίας περιλήψεων, σε νέα ερευνητικά πεδία όπως είναι η φροντίδα της υγείας και οι ψηφιακές βιβλιοθήκες. Μάλιστα, τα τελευταία χρόνια αυξήθηκε και το πλήθος των εµπορικά διαθέσιµων ολοκληρωµένων συστηµάτων δηµιουργίας περιλήψεων. Χαρακτηριστικά παραδείγµατα τέτοιων εµπορικών εφαρµογών, αποτελούν τα: Capito [52], Inxight [53], Brevity [54], Copernic [55], και TextAnalyst [56]. Οι εφαρµογές αυτές, δηµιουργούν περιλήψεις µε τη χρήση διαδικασιών αυτόµατης εξαγωγής επιλεγµένων φράσεων / προτάσεων από τµήµατα των κειµένων της επεξεργασίας. Μία περίληψη κειµένου για να έχει πραγµατική αξία, θα πρέπει να εκφράζει περιεκτικά την ουσία του, αποκαλύπτοντας το βαθύτερο νόηµα του περιεχοµένου του. Ουσιαστικά, οι διαδικασίες δηµιουργίας περιλήψεων αποσκοπούν στην ανακάλυψη ενδιαφέρουσας και άγνωστης µέχρι τώρα πληροφορίας, που βρίσκεται στα έγγραφα της επεξεργασίας. Έτσι, πολλοί είναι αυτοί που πιστεύουν ότι για να έχουν αξία οι περιλήψεις, θα πρέπει να περιέχουν τις σηµαντικότερες προτάσεις του κειµένου της επεξεργασίας και τις 12

13 βαθύτερες έννοιες αυτού. Όµως, τέτοια συστήµατα δηµιουργίας περιλήψεων προσφέρουν µία δυναµική που ακόµη δεν έχει αξιοποιηθεί µε κατάλληλο τρόπο Πρότυπα Συσχέτισης Η ανάλυση δεδοµένων, ή ανάλυση συγγγένειας ή συσχέτιση αναφέρεται στη διαδικασία εκείνη της εξόρυξης γνώσης που αποκαλύπτει συσχετίσεις µεταξύ των δεδοµένων. Ένα πρότυπο συσχέτισης είναι ένα µοντέλο που αναγνωρίζει ειδικούς τύπους συσχέτισης µεταξύ των δεδοµένων. Αυτές οι συσχετίσεις συχνά χρησιµοποιούνται στις λιανικές πωλήσεις για να αναγνωριστούν προϊόντα που συχνά αγοράζονται µαζί. Με δεδοµένο ένα σύνολο από στοιχεία I = { I1, I2,... I m } και µια βάση δεδοµένων = { } όπου t { I, I,... I } D t1, t2,... t n i = i1 i2 ik και Iij I, ένας κανόνας συσχέτισης (association rule) είναι ένα επαγωγικό συµπέρασµα της µορφής X Y όπου X, Y I είναι σύνολα στοιχείων που ονοµάζονται στοιχειοσύνολα. Η υποστήριξη (support- s) για ένα κανόνα συσχέτισης X Y είναι το ποσοστό των συναλλαγών στη βάση δεδοµένων που περιέχουν το X Y. Η εµπιστοσύνη ή ισχύς (confidence, strength- a) για ένα κανόνα συσχέτισης X Y είναι το κλάσµα του αριθµού των συναλλαγών που περιέχουν το X Y προς τον αριθµό των συναλλαγών που περιέχουν το Χ. Η εµπιστοσύνη µετρά την ισχύ του κανόνα, ενώ η υποστήριξη µετρά πόσο συχνά βρίσκεται στη βάση δεδοµένων. εδοµένου ενός συνόλου από στοιχεία I { I1, I2,... I m } από συναλλαγές D = { t t t } όπου t { I, I,... I } = και µια βάση δεδοµένων 1, 2,... n i = i1 i2 ik και Iij I, το πρόβληµα των κανόνων συσχέτισης είναι η εύρεση όλων των κανόνων συσχέτισης X Y µε µια ελάχιστη τιµή για τη υποστήριξη και την εµπιστοσύνη. Αυτές οι τιµές (s, a) δίνονται σαν είσοδος στο πρόβληµα. Η αποτελεσµατικότητα των αλγορίθµων κανόνων συσχέτισης συχνά µελετάται σε σχέση µε τον αριθµό των σαρώσεων που απαιτούνται στη βάση δεδοµένων και το µέγιστο αριθµό των στοιχειοσυνόλων που πρέπει να µετρηθούν. Μία από τις εφαρµογές, που αξιοποιεί τις τεχνικές αναγνώρισης προτύπων συσχέτισης, είναι το Intelligent Miner for Text [5], που υλοποίησαν οι Dorre Jochen, Gerstl Peter, Seiffert Ronald. Βέβαια, η εφαρµογή αυτή περιλαµβάνει και άλλες διαδικασίες της τεχνολογίας της Εξόρυξης Κειµένου. Τώρα, η εφαρµογή Intelligent Miner for Text χρησιµοποιείται για την εξαγωγή γνωρισµάτων (Feature Extraction) από κείµενα φυσικής γλώσσας. Η διαδικασία της εξαγωγής γνωρισµάτων, αναλαµβάνει την αναγνώριση και την ταξινόµηση σηµαντικών σηµασιολογικών στοιχείων που περιέχονται στα προς επεξεργασία έγγραφα. Η υλοποίηση τους, βασίζεται σε γλωσσικολογικές ευρηστικές µεθόδους και διαδικασίες ταίριασµατος προτύπων. Επιπλέον, η τεχνική που ακολούθησαν δεν απαιτεί µεγάλες ποσότητες λεξικολογικής πληροφορίας, όπως είναι η πληροφορία που αφορά τα µέρη του λόγου, και δεν απαιτεί σε βάθος σηµασιολογική και συντακτική ανάλυση των κειµένων της επεξεργασίας. Προτιµήθηκε η τεχνική αυτή, για να είναι δυνατή η πολύ γρήγορη επεξεργασία των εγγράφων και έτσι να είναι εφικτή η επεξεργασία µαζικών δεδοµένων. Επιπλέον, είναι επιθυµητή η ανεξαρτησία του πεδίου, για να είναι δυνατή µία γενική εφαρµογή της µεθόδου. Η πληροφορία που εξάγεται από το σύστηµα, αυτόµατα κατηγοριοποιείται σε συγκεκριµένες κατηγορίες προτύπων που περιλαµβάνουν: Ονόµατα ατόµων 13

14 Ονοµασίες οργανισµών και τοποθεσιών Όροι που εκφράζονται µε τη χρήση πολλών λέξεων Συντοµογραφίες Συσχετίσεις όρων Ειδικές πληροφορίες Για κάθε γνώρισµα που υπάρχει στα έγγραφα της επεξεργασίας, συµπληρώνεται µία κανονική φόρµα. Με αυτό τον τρόπο, πληροφορίες που βρίσκονται στη µορφή των ηµεροµηνιών, των αριθµών, κλπ, µπορούν να χρησιµοποιούν είτε έχουν αποτυπωθεί µε κείµενο, είτε µε τη χρήση αριθµητικών ψηφίων. Για παράδειγµα, η λέξη «πέντε» και ο αριθµός «5» θα πρέπει να επεξεργαστούν µε τον ίδιο τρόπο, σαν να ήταν ένα µόνο γνώρισµα. Επιπλέον, όλες οι λέξεις του κειµένου της επεξεργασίας, είτε βρίσκονται στον ενικό αριθµό, είτε στον πληθυντικό, θα πρέπει να µετατραπούν στην ίδια περίπτωση. H εφαρµογή αυτή έχει τη δυνατότητα υπολογισµού στατιστικών δεδοµένων που αφορούν την κατανοµή των προτύπων στα έγγραφα της επεξεργασίας και σε οµάδες εγγράφων που προκύπτουν από τα έγγραφα αυτά. Στην συνέχεια, τα στατιστικά δεδοµένα µπορούν να αξιοποιηθούν από διαδικασίες όπως είναι οι διαδικασίες οµαδοποίησης εγγράφων, για να βρεθεί η σπουδαιότητα κάθε προτύπου που ανήκει σε συγκεκριµένο έγγραφο σε σχέση µε τις οµάδες των εγγράφων. Οι Montes-y-Gomez M., Gelbukh A. και Lopez-Lopez A. [6], αξιοποιούν τις διαδικασίες εύρεσης προτύπων συσχέτισης για την ανάλυση συλλογών ειδησιογραφικών αναφορών. Οι συλλογές των ειδησιογραφικών αναφορών, µπορούν να δηµιουργηθούν µε τη συλλογή δεδοµένων από πηγές όπως είναι οι εφηµερίδες, τα περιοδικά, το διαδίκτυο και άλλα µαζικά µέσα ενηµέρωσης. Η ανάλυση τέτοιων συλλογών, διαφέρει από την ανάλυση εγγράφων κειµένων. Αυτό συµβαίνει γιατί οι ειδησογραφικές αναφορές έχουν µεγάλη σχέση µε τα ενδιαφέροντα της κοινωνίας και την κοινωνική συµπεριφορά. Τα ενδιαφέροντα και οι συµπεριφορές που παρατηρούνται σε µία κοινωνία, παρουσιάζουν σηµαντικές µεταξύ τους διαφορές και µεταβάλλονται και αλληλεπιδρούν πολύ συχνά. Ορίζεται ως είδηση αιχµής, µία είδηση για την οποία το ενδιαφέρον του κοινού, αυξάνεται απότοµα µέσα σε µία σύντοµη χρονική περίοδο και πολύ σύντοµα εξανεµίζεται. Μία είδηση αιχµής επηρεάζει τα υπόλοιπα θέµατα της επικαιρότητας, κυρίως για δύο λόγους. Πρώτον, επειδή είναι επιθυµητό να έρθει στην επιφάνεια κάποιο θέµα που θεωρείται σηµαντικό. εύτερον, για να ξεχαστεί ίσως και µόνο προσωρινά, κάποιο από τα υπόλοιπα θέµατα της επικαιρότητας. Η µέθοδος που προτείνουν, ανακαλύπτει τέτοιου είδους επιρροές, οι οποίες καλούνται εφήµερες συσχετίσεις (Ephemeral Associations). Για την ανακάλυψη των εφήµερων συσχετίσεων των ειδησιογραφικών θεµάτων, χρησιµοποιούνται απλές στατιστικές αναπαραστάσεις των ειδησιογραφικών αναφορών. Οι αναπαραστάσεις αυτές, αποτελούνται από κατανοµές πιθανοτήτων και κατανοµές συχνοτήτων. Επιπλέον, χρησιµοποιούνται και απλά στατιστικά µέτρα σύγκρισης της απόδοσης των διαδικασιών, που αποτελούνται κυρίως από τον συντελεστή συσχέτισης (Correlation Coefficient). Οι Furukawa Kazuyoshi, Uchida Tomoyuki, Yamada Kazuya, Miyahara Tetsuhiro, Shoudai Takayoshi και Nakamura Yasuaki [7], αξιοποιούν τις διαδικασίες εύρεσης προτύπων συσχέτισης για την επεξεργασία ηλεκτρονικών εγγράφων που δεν έχουν αυστηρή δοµή. Τα έγγραφα αυτά, ονοµάζονται ηµι-δοµηµένα (Semistructured). Απώτερος σκόπος είναι ο καθορισµός των εγγράφων που αξίζει να επεξεργαστούν για την απόκτηση χρήσιµης γνώσης. Ως µοντέλο δεδοµένων για τα ηµι-δοµηµένα έγγραφα, χρησιµοποιούν µία διαφορετική έκδοση του µοντέλου ανταλλαγής αντικειµένων (Object Exchange Model). Το µοντέλο που χρησιµοποιούν, αποτελείται από ένα αναγνωριστικό (Identifier), µία τιµή 14

15 (Value) και ένα σύνδεσµο (Link). Το αναγνωριστικό διαχωρίζει τα αντικείµενα της επεξεργασίας. Η τιµή, είναι είτε µία απλή συµβολοσειρά, όπως είναι οι ετικέτες των αρχείων HTML/XML, είτε κείµενο της µορφής του πεδίου PCDATA των αρχείων XML. Ο σύνδεσµος, είναι µία λίστα (List) ή ένας σάκος (Bag) των αναγνωριστικών όλων των υποαντικειµένων. Το ηµι-δοµηµένο έγγραφο, αναπαρίσταται ως ένα ετικετοποιηµένο κατευθυνόµενο δέντρο που ονοµάζεται δέντρο του µοντέλου ανταλλαγής αντικειµένων (Object Exchange Model Tree). Κάθε κόµβος του δέντρου, αναπαριστά ένα αναγνωριστικό αντικειµένου και έχει ως ετικέτα την αξία της τιµής του αντικειµένου. Οι ακµές που συνδέουν τους κόµβους του δέντρου, δεν διαθέτουν ετικέτες. Εάν ο σύνδεσµος είναι λίστα, τότε τα αναγνωριστικά που είναι απόγονοι συγκεκριµένου αντικειµένου, είναι ταξινοµηµένα. ιαφορετικά, αν ο σύνδεσµος είναι «σάκος», οι αναγνωριστές που είναι απόγονοι συγκεκριµένου αντικειµένου, είναι µη-ταξινοµηµένοι. Ένα δέντρο θεωρείται ταξινοµηµένο όταν όλοι οι εσωτερικοί του κόµβοι, έχουν ταξινοµηµένους τους απογόνους τους. Ο αλγόριθµος που παρουσίασαν, επεξεργάζεται µη-ταξινοµηµένα δέντρα. Ένα ταξινοµηµένο δέντρο, θα καλείται δέντρο δύο διαστάσεων (2- Tree), εάν αποτελείται από ένα κόµβο ή ο αριθµός των φύλλων του δέντρου είναι ακριβώς δύο και το πλήθος των ακµών που καταλήγουν στη ρίζα του δέντρου, είναι και αυτό ίσο µε δύο. Για κάθε δέντρο δύο διαστάσεων, εάν αυτό αποτελείται από ένα µόνο κόµβο, τότε ο κόµβος του θα ετικετοποιηθεί µε ένα ζευγάρι διαφορετικών λέξεων. ιαφορετικά, κάθε φύλλο του δέντρου ετικετοποιείται µε µία λέξη και οι υπόλοιποι κόµβοι του κόµβου, δεν θα έχουν κάποια ετικέτα. έντρο προτύπων συσχέτισης (Tree-Association Patterns) θα καλείται µία ακολουθία δέντρων δύο διαστάσεων. εδοµένου ενός συνόλου ηµι-δοµηµένων εγγράφων και µιας τιµής συχνότητας σ (0 σ 1), η οποία ορίζεται από το χρήστη και ονοµάζεται ελάχιστη υποστήριξη (Minimum Support), το ζητούµενο είναι η εύρεση όλων των δέντρων προτύπων συσχέτισης σ συχνότητας (Frequent Tree-Association Patterns). Ο αλγόριθµος που προτείνουν, βασίζεται σε µία apriori ευρηστική µέθοδο, που προτάθηκε από τους Agrawal R. και Srikant R. [3]. Είσοδος για τον αλγόριθµο, αποτελεί ένα σύνολο από ηµι-δοµηµένα έγγραφα και µία ελάχιστη συχνότητα σ (0 σ 1). Έξοδο του αλγορίθµου αποτελεί το σύνολο όλων των δέντρων προτύπων συσχέτισης σ συχνότητας. Ο αλγόριθµος αρχικά δηµιουργεί ένα σύνολο όλων των δέντρων προτύπων συσχέτισης συγκεκριµένης συχνότητας που αποτελούνται από δύο λέξεις. Για το σκοπό αυτό, χρησιµοποιείται µια λίστα λέξεων ταξινοµηµένων σε λεξικογραφική σειρά. Ακολούθως, θα δηµιουργηθούν τα δέντρα προτύπων συσχέτισης, µε τη χρήση λιστών τριών, τεσσάρων, κλπ, λέξεων, έως ότου δεν θα δηµιουργούνται νέα δέντρα προτύπων συσχέτισης. Τέλος, ο αλγόριθµος υπολογίζει όλα τα δέντρα προτύπων συσχέτισης συχνότητας σ. Οι Gatzemeeir H. Felix και Meyer Oliver [8], αξιοποιούν τις µεθόδους αναζήτησης προτύπων συσχέτισης, µε σκοπό την παροχή εργαλείων που θα αποτελέσουν χρήσιµο βοήθηµα για τους συγγραφείς εγγράφων. Τα έγγραφα αυτά, θα πρέπει να έχουν µία έµφυτη δοµή περιεχοµένου, όπως είναι αυτή των επιστηµονικών άρθρων ή των εγχειριδίων χρήσης. Με τη χρήση τέτοιων εργαλείων, οι συγγραφείς θα έχουν τη δυνατότητα να συντάξουν τα έγγραφα τους, γρηγορότερα και µε υψηλότερη ποιότητα περιεχοµένου. Αυτό επιτυγχάνεται µε τη δηµιουργία και την συντήρηση ενός µοντέλου της δοµής του εγγράφου, που ονοµάζεται εννοιολογικός γράφος (Conceptual Graph). Η διαδικασία της µοντελοποίησης του εγγράφου, απαιτεί τη βαθιά γνώση του βαθύτερου νοήµατος του κειµένου. Οι διαδικασίες της συντήρησης µπορούν να επιτελεστούν µε τη χρήση πληροφοριών που θα παρέχει ο συγγραφέας του κειµένου. 15

16 1.4. Αναγνώριση Θεµάτων Η πρόσφατη ανάπτυξη του διαδικτύου, έχει δηµιουργήσει µία τεράστια βιβλιοθήκη κειµένων, τα οποία διακρίνονται για την επικαιρότητα της θεµατολογίας τους. Βέβαια, επίκαιρα έγγραφα κειµένου, µπορούµε να αντλήσουµε και από πολλές άλλες πηγές, αλλά το διαδίκτυο είναι η πλέον ενδεδειγµένη πηγή, λόγω της συχνής ανανέωσης της. Η ανάλυση τέτοιων συλλογών µε µεθόδους Εξόρυξης Κειµένου, λόγω της επικαιρότητας των κειµένων, είναι σίγουρο ότι θα µας αποφέρει άγνωστη µέχρι τώρα πληροφορία. Σύµφωνα µε τον Hearst A. Marti [9], χαρακτηριστικό παράδειγµα διαδικασίας που χρησιµοποιείται για µία τέτοια ανάλυση αποτελούν οι προσεγγίσεις υπολογιστικής γλωσσολογίας (Computational Linguistic Approaches). Οι προσεγγίσεις αυτές, εστιάζουν στην ανακάλυψη κανόνων (Rules) που µπορούν να χρησιµοποιηθούν σε εργασίες, όπως είναι οι: Ετικετοποίηση µερών του λόγου (Part-of-Speech Tagging) Αποσαφηνισµός της σηµασίας των λέξεων (Word Sense Disambiguation) ηµιουργία δίγλωσσου λεξικού (Bilingual Dictionary Creation) Επιπλέον, ανάλογες διαδικασίες µπορούν να αξιοποιηθούν για την ανακάλυψη νέων ιατρικών υποθέσεων (New Medical Hypotheses Discovery), µε βάση τον συνδυασµό (Combination) και την διαδοχική ανάλυση (Subsequent Analysis), µεγάλων βάσεων δεδοµένων κειµένου. Αυτές οι βάσεις δεδοµένων αποτελούνται από ιατρικά πεδία, τα οποία συνδέονται µε συγκεκριµένες σχέσεις. Εξάλλου, υπάρχει και η δυνατότητα για τη χρήση διαδικασιών ανακάλυψης νέων θεµάτων (Topics), µε τη χρήση διαδικασιών αναγνώρισης θεµάτων (Topic Identification) και σεναρίων ανίχνευσης θεµάτων (Tracking Scenario) σε διάφορα έγγραφα κειµένου. Η διαδικασία της αναγνώρισης θεµάτων, αναλαµβάνει να ανακαλύψει πληροφορίες συγκεκριµένης θεµατολογίας και να τις αξιοποιήσει κατάλληλα. Οι πληροφορίες αυτές, µπορούν να ενσωµατωθούν σε άλλα έγγραφα κειµένου ή να αποτελέσουν συµπληρωµατική πληροφορία για άλλες διαδικασίες της τεχνολογίας της Εξόρυξης Κειµένου όπως είναι οι διαδικασίες της κατηγοριοποίησης και οι διαδικασίες της οµαδοποίησης. Με την εφαρµογή των διαδικασιών της αναγνώρισης θεµάτων, θα αποτιµηθεί η αξία του περιεχοµένου του κειµένου της επεξεργασίας και θα γίνει γνωστό αν θα πρέπει να µελετηθεί περαιτέρω και από άλλες διαδικασίες της Εξόρυξης Κειµένου, για την απόκτηση γνώσης διαφορετικής µορφής Κατηγοριοποίηση Κειµένου Καθώς η ποσότητα της πληροφορίας, που είναι διαθέσιµη (κυρίως στο διαδίκτυο και στα εταιρικά Intranet, αλλά και όχι µόνο) συνεχίζει να αυξάνει, υπάρχει µία αυξανόµενη ανάγκη για εργαλεία που θα βοηθούν τους ανθρώπους να βρίσκουν ευκολότερα, να φιλτράρουν καλύτερα και να διαχειρίζονται καλύτερα τέτοιες πηγές πληροφοριών. Η κατηγοριοποίηση κειµένου, επιχειρεί να δώσει λύση σε αυτό το πρόβληµα και αναλαµβάνει την ανάθεση εγγράφων ελεύθερου κειµένου σε µία ή περισσότερες κατηγορίες µε βάση το περιεχόµενο των εγγράφων της επεξεργασίας. Οι τεχνικές της κατηγοριοποίησης κειµένων, αποτελούν σηµαντικό συστατικό στοιχείο σε πολλά θέµατα διαχείρισης πληροφορίας, όπως είναι τα: Κατηγοριοποίηση ηλεκτρονικού ταχυδροµείου σε πραγµατικό χρόνο. Κατηγοριοποίηση αρχείων σε ιεραρχίες φακέλων. Αναγνώριση θεµάτων για την υποστήριξη διαδικασιών επεξεργασίας κειµένων συγκεκριµένης θεµατολογίας. 16

17 οµηµένη έρευνα και/ή η έρευνα για πληροφορία Εύρεση εγγράφων που ταιριάζουν µε τα ενδιαφέροντα συγκεκριµένων χρηστών. Μέχρι τώρα, όσοι επιθυµούσαν να αξιοποιήσουν τα αποτελέσµατα των διαδικασιών κατηγοριοποίησης κειµένων, συµβουλεύονταν εκπαιδευµένους επαγγελµατίες. Όµως, λόγω του ότι η διαδικασία κατηγοριοποίησης είναι πολύ απαιτητική όσον αφορά τον χρόνο εκτέλεσης και πολύ ακριβή σε κόστος, περιορίζεται σηµαντικά η εφαρµογή της. Συµπερασµατικά, υπάρχει ένα αυξανόµενο ενδιαφέρον για την ανάπτυξη τεχνολογιών που θα αφορούν διαδικασίες αυτόµατης κατηγοριοποίησης κειµένου. Για το σκοπό αυτό, για τη διαδικασία της κατηγοριοποίησης κειµένου έχει εφαρµοστεί ένας µεγάλος αριθµός από τεχνικές στατιστικής ταξινόµησης (Statistical Classification) και µηχανικής µάθησης (Machine Learning), που περιλαµβάνεις τις: Παλινδροµικά µοντέλα (Regression Models) Ταξινοµητές του πλησιέστερου γείτονα (Nearest Neighbour Classifiers) έντρα αποφάσεων (Decision Trees) Ταξινοµητές Bayesian (Bayesian Classifiers) Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines) Αλγορίθµους µάθησης κανόνων (Rule Learning Algorithms) Επαγωγή κανόνων (Rule Induction) Καταλληλότητα της ανατροφοδότησης (Relevance Feedback) Ψηφιζόµενη ταξινόµηση (Voted Classification) Τεχνητά νευρωνικά δίκτυα (Artificial Neural Networks) Όλες αυτές οι στατιστικές µέθοδοι υιοθετούν το παράδειγµα της µάθησης υπό επίβλεψη (Supervised Learning). Η διαδικασία της µάθησης υπό επίβλεψη, διαχωρίζεται σε δύο φάσεις. Τη φάση της µάθησης και τη φάση των δοκιµών. Κατά την διάρκεια της φάσης της µάθησης, ένας κατηγοριοποιητής εξάγει γνώση κατηγοριοποίησης από ένα σύνολο εγγράφων. Τα έγγραφα αυτά, έχουν προεπεξεργαστεί για να εµπλουτιστεί κάθε συστατικό τους στοιχείο, µε ετικέτες οι οποίες για παράδειγµα θα αφορούν τα µέρη του λόγου. Κατά την διάρκεια της φάσης των δοκιµών, ο κατηγοριοποιητής προβλέπει κατηγορίες εγγράφων, επεξεργαζόµενος ένα σύνολο εγγράφων τα οποία δεν έχουν χρησιµοποιηθεί κατά τη διάρκεια της φάσης της µάθησης. Όµως, η περίπτωση της εκπαίδευσης υπό επίβλεψη, προϋποθέτει την ύπαρξη µίας µεγάλης ύλης εκπαίδευσης στην οποία έχουν προστεθεί ετικέτες στα µέρη που την αποτελούν. Σε συγκεκριµένα πεδία εφαρµογών, τέτοια ύλη ίσως να µην είναι διαθέσιµη για επεξεργασία. Για παράδειγµα, σε εφαρµογές φιλτραρίσµατος πληροφοριών λίγοι χρήστες έχουν την υποµονή να συµπληρώσουν ένα µεγάλο αριθµό εγγράφων, που θα χρησιµοποιηθούν για την εκπαίδευση του κατηγοριοποιητή. Από την άλλη πλευρά, οι περισσότεροι χρήστες είναι πρόθυµοι να καθορίσουν ρητά, τι ακριβώς γνώση θέλουν να αποκτήσουν. Σε τέτοιες περιπτώσεις, είναι επιθυµητό να έχουµε την ευελιξία της δηµιουργίας ενός κατηγοριοποιητή κειµένων από χαρακτηριστικά παραδείγµατα εγγράφων, πέρα από την γνώση κατηγοριοποίησης που θα ανακτηθεί απευθείας από τους χρήστες. Στη βιβλιογραφία της µηχανικής µάθησης, έχουν µελετηθεί υβριδικά µοντέλα για να ολοκληρώσουν πολλαπλές πηγές γνώσης οι οποίες θα χρησιµοποιηθούν για την ταξινόµηση προτύπων. Για παράδειγµα, τα τεχνητά νευρωνικά δίκτυα που βασίζονται στη γνώση (Knowledge Based Artificial Neural Network) βελτιώνουν πεδία γνώσης που παρουσιάζουν προβλήµατα για τη διαδικασία της µηχανικής µάθησης, αξιοποιώντας τα νευρωνικά δίκτυα Backpropagation. Τα αυτο-οργανώµενα νευρωνικά δίκτυα που χρησιµοποιούνται για την πρόβλεψη της γνώσης, επιτρέπουν την παρεµβολή συγκεκριµένων κανόνων σε οποιοδήποτε σηµείο της διαδικασίας µάθησης νέων πληροφοριών. 17

18 Πειραµατικές µελέτες για τον έλεγχο των επιδόσεων σε πολλαπλές βάσεις δεδοµένων, έχουν δείξει ότι η αρχικοποίηση τέτοιων υβριδικών συστηµάτων µάθησης µε γνώση που έχει προκύψει από προηγούµενες εφαρµογές, βελτιώνει την ακρίβεια πρόβλεψης γνώσης και έχει ως αποτέλεσµα βελτιωµένη ποιότητα µάθησης, πάντοτε σε σχέση µε τον απαιτούµενο χρόνο µάθησης και του µεγέθους των κατηγοριοποιητών. Επιπλέον, πειραµατικά αποτελέσµατα που ανακτήθηκαν από την εφαρµογή τεχνητών νευρωνικών δικτύων που βασίζονται στη γνώση, για τη δηµιουργία έξυπνων πρακτόρων για ταξινόµηση σελίδων του διαδικτύου, δίνουν το έναυσµα για περαιτέρω έρευνα. Γενικά, θα µπορούσε να ειπωθεί ότι η διαδικασία της κατηγοριοποίησης κειµένου, επιλύει το πρόβληµα της αυτόµατης ανάθεσης εγγράφων ελευθέρου κειµένου σε µία ή περισσότερες προ-ορισµένες κατηγορίες, οι οποίες ονοµάζονται θέµατα (Topics ή Themes). Οι κατηγορίες αυτές, επιλέγονται µε τέτοιο τρόπο ώστε να καλύπτουν την µελλοντική χρήση της συλλογής των κειµένων. Από πολλούς η διαδικασία της κατηγοριοποίησης κειµένων, θεωρείται ως η απλούστερη µορφή της Εξόρυξης Κειµένου, µιάς και αντικαθιστά το περιεχόµενο των κειµένων, µε µία απλή ετικέτα που θα περιγράφει την θεµατική κατηγορία παρόµοιων εγγράφων. Συµπεραίνουµε από τα παραπάνω ότι η αυτόµατη κατηγοριοποίηση κειµένου είναι µια πολύ γνωστή και διµοφιλής τεχνική της εξόρυξης γνώσης. Αποτελεί τη βάση πολλών σηµαντικών εφαρµογών της καθηµερινής ζωής και αυτός ήταν ο βασικός λόγος που αποτέλεσε αντικείµενο ενασχόλησης στην παρούσα εργασία Ταξινόµηση Κειµένου, Οµαδοποίηση Κειµένου Άνθρωποι και οργανισµοί συσσωρεύουν όλο και περισσότερα δεδοµένα, που βρίσκονται στη µορφή των µη-δοµηµένων ή ηµι-δοµηµένων εγγράφων κειµένου. Προέκυψε λοιπόν, η ανάγκη για επεξεργασία τέτοιων δεδοµένων. Για το σκοπό αυτό, πρόσφατα προτάθηκαν συστήµατα διαχείρισης βάσεων δεδοµένων κειµένου που αξιοποιούνται από διαδικασίες επεξεργασίας κειµένων. Τέτοια συστήµατα, προσπαθούν να δώσουν απαντήσεις σε ερωτήµατα χρηστών, που αποτελούνται από λέξεις κλειδιά. Επιχειρούν να λειτουργήσουν µε τρόπο ανάλογο της χειρωνακτικής διευθέτησης εγγράφων σε ιεραρχικές δοµές. Κύριο πλεονέκτηµα µιας ιεραρχικής δοµής, είναι η δυνατότητα για γρήγορο διαχωρισµό ενός συνόλου εγγράφων. Αυτό συµβαίνει χωρίς να απαιτείται να γνωρίζουµε τις λέξεις κλειδιά που περιέχονται στα έγγραφα της επεξεργασίας. Επιπλέον, υπάρχει η δυνατότητα για εύκολη αναζήτηση πληροφοριών σε µεγάλα σύνολα σχετιζόµενων εγγράφων. Όµως οι διαδικασίες συντήρησης ιεραρχιών φακέλων, απαιτούν σηµαντικά ποσά υπολογιστικού χρόνου και συχνά τα δεδοµένα τέτοιων ιεραρχιών, είτε παραµένουν αχρησιµοποίητα, είτε δεν θα χρησιµοποιηθούν όσο αποδοτικά θα έπρεπε. Για παράδειγµα, πολλοί από τους χρήστες απλά συσσωρεύουν τα µηνύµατα τους σε ένα φάκελο εισερχόµενων , όπου και παραµένουν µέχρι να διαγραφούν. Έτσι, τα πλεονεκτήµατα µίας καλά συντηρηµένης ιεραρχίας φακέλων δεν γίνονται άµεσα αντιληπτά. Παρ όλα αυτά, µηχανές αναζήτησης πληροφοριών στο διαδίκτυο και δικτυακοί τόποι ηλεκτρονικού εµπορίου που διαθέτουν µεγάλους καταλόγους προϊόντων, έχουν την ανάγκη να διατηρούν και να συντηρούν ιεραρχικές κατηγοριοποιήσεις των στοιχείων τους. Αυτό γίνεται, για να εµπλουτίσουν την χρηστικότητα των αποτελεσµάτων της αναζήτησης 18

19 συγκεκριµένων πληροφοριών και να διευκολύνουν τη διαδικασία της έρευνας για την πληροφορία που αναζητάται. Αφού επιλεγούν τα γνωρίσµατα της επεξεργασίας, τότε οι διαδικασίες της ταξινόµησης τα επεξεργάζονται και δηµιουργούν ένα σύνολο οµάδων. Στις οµάδες αυτές, θα ανατεθούν τα έγγραφα της επεξεργασίας. Αυτή είναι και η κύρια διαφορά της διαδικασίας οµαδοποίησης από τη διαδικασία της κατηγοριοποίησης κειµένων. Οι οµάδες στις οποίες ανατίθενται τα έγγραφα της επεξεργασίας, δεν έχουν οριστεί από τον χρήστη, όπως συµβαίνει µε τη διαδικασία της κατηγοριοποίησης. Οι τάξεις στις οποίες θα ανατεθούν τα έγγραφα της επεξεργασίας, ανακαλύπτονται από την επεξεργασία των περιεχοµένων των εγγράφων. 19

20 ΚΕΦΑΛΑΙΟ 2 ο 2.1. Αυτόµατη Κατηγοριοποίηση Κειµένου (Text Classification) Η σύγκλιση των ραγδαία αναπτυσσόµενων επιστηµών της πληροφορικής και των τηλεπικοινωνιών, διευκόλυνε καθοριστικά την διακίνηση της πληροφορίας, αναδεικνύοντάς τη ως κινητήρια δύναµη της σύγχρονης κοινωνίας. Καθώς όµως ο όγκος της διακινούµενης πληροφορίας αυξάνεται µε γοργούς ρυθµούς, η χρησιµοποίηση τεχνικών, ικανών να εξασφαλίσουν την αποτελεσµατική διαχείρισή της, θεωρείται πλέον επιβεβληµένη. Ένας επιστηµονικός κλάδος, ο οποίος επιχειρεί να αντιµετωπίσει το εν λόγω πρόβληµα, διευκολύνοντας την πρόσβαση και αναζήτηση στην πληθώρα των πηγών πληροφόρησης που παρέχονται σε ηλεκτρονική µορφή, είναι εκείνος της Αυτόµατης Κατηγοριοποίησης Κειµένου A.K.K.(Automated Text Categorization), δηλαδή της αυτόµατης ανάθεσης κειµένων, γραµµένων σε φυσική γλώσσα, σε ένα σύνολο προκαθορισµένων κατηγοριών βάσει του περιεχοµένου τους. Οι πρώτες προσεγγίσεις στην κατηγοριοποίηση κειµένου περιελάµβαναν την κατασκευή κανόνων από επιστήµονες της τεχνολογίας γνώσεων και από επαγγελµατίες, εξειδικευµένους στο γνωστικό αντικείµενο των υπό κατηγοριοποίηση κειµένων. Με την πρόοδο που σηµειώθηκε ωστόσο τα τελευταία χρόνια στο επιστηµονικό πεδίο της Μηχανικής Μάθησης, το κέντρο βάρους της Α.Κ.Κ. άρχισε να µετατοπίζεται προς την κατασκευή ταξινοµητών, ικανών να κατηγοριοποιήσουν ηλεκτρονικά κείµενα αυτόµατα, µέσω της εκµάθησης των χαρακτηριστικών των κατηγοριών αυτών, από ένα ήδη ταξινοµηµένο σώµα κειµένων. Η νέα αυτή αντιµετώπιση του προβλήµατος προσέφερε στην Α.Κ.Κ. συγκρίσιµη ακρίβεια µε εκείνη που επιτύγχαναν οι κανόνες των επιστηµόνων της τεχνολογίας γνώσεων, ανεξαρτησία από τη θεµατολογία των υπό κατηγοριοποίηση κειµένων και ελαχιστοποίηση της ανθρώπινης παρέµβασης στην όλη διαδικασία Εφαρµογές της Αυτόµατης Κατηγοριοποίησης Κειµένου Παρ όλο που ο επιστηµονικός κλάδος της Α.Κ.Κ. έχει ήδη συµπληρώσει τέσσερις δεκαετίες ζωής (από το 1960), συνεχίζει να παρουσιάζει έντονο ερευνητικό ενδιαφέρον, γεγονός που µαρτυρεί µια πληθώρα εφαρµογών, οι σηµαντικότερες από τις οποίες παρουσιάζονται εν συντοµία παρακάτω: Αυτόµατη Ευρετηριοποίηση Συστηµάτων Ανάκτησης Πληροφορίας (Information Retrieval ή IR Systems): Στην περίπτωση των συστηµάτων ανάκτησης πληροφορίας, η χρήση της Α.Κ.Κ. συνίσταται στη δηµιουργία ευρετηρίων από κείµενα, µε βάση ένα ελεγχόµενο λεξικό. Πιο συγκεκριµένα, σε κάθε κείµενο ανατίθενται µια σειρά από λέξεις ή φράσεις κλειδιά που εννοιολογικά ταιριάζουν µε το περιεχόµενό του, και οι οποίες συστήνουν το προαναφερθέν λεξικό. Υπό το παραπάνω πρίσµα, οι λέξεις και οι φράσεις κλειδιά του λεξικού αντιστοιχούν στις κατηγορίες ενός συστήµατος Α.Κ.Κ. Για περισσότερα παραδείγµατα ολοκληρωµένων συστηµάτων αυτής της περιοχής ανατρέξατε στα: [1], [2]. Αυτόµατη Παραγωγή Μεταδεδοµένων: Η εφαρµογή αυτή, η οποία σχετίζεται πολύ µε την προηγούµενη, αποσκοπεί στη δηµιουργία βιβλιογραφικών στοιχείων (µεταδεδοµένων), όπως ηµεροµηνία συγγραφής, όνοµα συγγραφέα, τύπος κειµένου, κ.α. τα οποία χρησιµοποιούνται από ψηφιακές βιβλιοθήκες. Καθώς πολλά από τα στοιχεία αυτά έχουν θεµατικό περιεχόµενο, η εφαρµογή θα µπορούσε να 20

21 αντιµετωπιστεί ως ειδική περίπτωση της αυτόµατης ευρετηριοποίησης κειµένων, οδηγούµενης από ένα κατευθυνόµενο λεξικό (τα θεµατικά χαρακτηριστικά που προαναφέρθηκαν), η οποία παρουσιάστηκε προηγουµένως. Παράδειγµα αποτελεί το σύστηµα Clarity [58]. Οργάνωση Εγγράφων: Η εφαρµογή αυτή αναφέρεται στην αυτόµατη κατάταξη εγγράφων που λαµβάνονται / δηµιουργούνται σε πραγµατικό χρόνο, σε κατηγορίες, προς διευκόλυνση της διαχείρισής τους, όπως για παράδειγµα η αυτόµατη κατηγοριοποίηση των ειδήσεων που καταφθάνουν στα γραφεία κάποιου ειδησιογραφικού πρακτορείου σε θεµατικές περιοχές (π.χ. Πολιτιστικά νέα, ιεθνή, κλπ.). Επίλυση προβληµάτων που απασχολούν την επεξεργασία φυσικής γλώσσας: Στην ενότητα αυτή εντάσσονται οι επιµέρους εφαρµογές της εννοιολογικής αποσαφήνισης λέξεων (Word Sense Disambiguation WSD), της εύρεσης δηλαδή του νοηµατικού περιεχοµένου µιας λέξης σε ένα κείµενο [3], του ορθογράφου βασισµένου στα συµφραζόµενα (context-sensitive spelling correction), της αναγνώρισης µέρους του λόγου (part of speech tagging), καθώς και της κατάλληλης επιλογής λέξης (word choice selection) που συναντάται στη µηχανική µετάφραση [41]. Κατηγοριοποίηση δικτυακών τόπων: Τα αποτελέσµατα της εφαρµογής αυτής απαντώνται συχνά σε διάφορες µηχανές αναζήτησης στο διαδίκτυο (π.χ. Yahoo!, INFOSEEK, κ.α.). Πρόκειται για ιεραρχικούς καταλόγους οι οποίοι περιλαµβάνουν ιστοσελίδες ή ακόµα και ολόκληρους δικτυακούς τόπους µε σχετική θεµατολογία, διευκολύνοντας έτσι την περιήγηση των χρηστών σε αυτές, καθώς και την αναζήτηση πληροφοριών. ηµοσιεύσεις οι οποίες ασχολούνται µε την εφαρµογή αυτή είναι οι ακόλουθες: [42]. Κατηγοριοποίηση οµιλίας: Εφαρµογή η οποία κάνει παράλληλη χρήση της αναγνώρισης οµιλίας µε την Α.Κ.Κ. [43]. Κατηγοριοποίηση εγγράφων πολυµέσων: Εφαρµογή η οποία επικεντρώνεται στην κατηγοριοποίηση εγγράφων µε βάση τους υπότιτλους ή τις λεζάντες που συνοδεύουν ένα multimedia έγγραφο (π.χ. φωτογραφία, video clip, κ.α.), [44]. Αναγνώριση του συγγραφέα κειµένων αµφισβητούµενης ή άγνωστης προέλευσης [45]. Φιλτράρισµα Εγγράφων: Μια από τις σηµαντικότερες εφαρµογές της Α.Κ.Κ., είναι το φιλτράρισµα εγγράφων. Πρόκειται για τη διαδικασία ταξινόµησης µιας συλλογής εγγράφων που τροφοδοτείται δυναµικά στο σύστηµα από κάποια πηγή πληροφορίας, η οποία προσφέρει τις υπηρεσίες της στον λεγόµενο καταναλωτή της πληροφορίας. Τέτοια συστήµατα µπορούν να εγκατασταθούν τόσο στο άκρο του καταναλωτή, φιλτράροντας τα κείµενα που απευθύνονται σ αυτόν, όσο και στο άκρο της πηγής, περίπτωση κατά την οποία απαιτείται η δηµιουργία ενός προφίλ για κάθε καταναλωτή του συστήµατος, το οποίο θα καθοδηγεί το σύστηµα ταξινόµησης ανάλογα µε τις προτιµήσεις του τελευταίου. Ως παράδειγµα µιας τέτοιας εφαρµογής, θα µπορούσε να θεωρηθεί ένα σύστηµα φιλτραρίσµατος διαφηµιστικής αλληλογραφίας, εγκατεστηµένο στο mail server (πηγή) και ικανό να διακρίνει και να χαρακτηρίζει αυτόµατα τα διαφηµιστικά µηνύµατα που απευθύνονται µαζικά στους χρήστες που εξυπηρετούνται από αυτόν (καταναλωτές). 21

22 2.3. Σχεδίαση Συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου O Sebastiani [31] έδωσε µια αρκετά καλή γραφική αναπαράσταση της διαδικασίας κατηγοριοποίησης κειµένου Εικόνα 1. Η εργασία της κατασκευής ενός ταξινοµητή κειµένων δεν διαφέρει κατά πολύ από τις άλλες από τις άλλες δραστηριοτητες της Μηχανικής Μάθησης. Το πρωταρχικό πολύ βασικό θέµα είναι η αναπαράσταση του κειµένου [46] η οποία παρουσιάζεται σε επόµενη ενότητα. Έπειτα πρέπει να αφαιρεθούν οι λέξεις παρόµοιας σηµασίας και να αντικατασταθούν µε µία ισοδύναµη (Stemming), οι τετριµµένες λέξεις που συναντώνται στα περισσότερα έγγραφα (Stopwords) όπως είναι τα άρθρα, ρήµατα κ.λ.π. Ένα από τα βασικά προβλήµατα της Κ.Κ είναι η µείωση των γνωρισµάτων (features)- λέξεις ή φράσεις που πολλές φορές µπορούν να φτάσουν τις δεκάδες χιλιάδες. Αυτό αποτελεί πρόβληµα στους αλγόριθµους µάθησης της κατηγοριοποίησης κειµένου. Οι µέθοδοι για τη µείωση των γνωρισµάτων αναφέρονται ή στην επιλογή ενός υποσυνόλου από τα αρχικά γνωρίσµατα (Feature Selection) ή στο µετασχηµατισµό των γνωρισµάτων δηµιουργώντας άλλα νέα λιγότερα από τα αρχικά (Feature Transformation). Τα παραπάνω περιγράφονται αναλυτικά στις επόµενες ενότητες. Έπειτα επιλέγεται ο αλγόριθµος µάθησης που θα χρησιµοποιηθεί για την κατηγοριοποίηση του κειµένου και τέλος φίνεται αξιολόγηση της απόδοσης του ταξινοµητή. Εικόνα 1 ιαδικασία της Κατηγοριοποίησης Κειµένου Η ιαδικασία της Προεπεξεργασίας των εδοµένων Ένα από τα κύρια προβλήµατα της Εξόρυξης Κειµένου είναι ότι τα έγγραφα προς επεξεργασία, µπορεί να περιέχουν ένα µεγάλο αριθµό λέξεων. Εάν κάθε λέξη που πρόκειται να επεξεργαστεί, αναπαρασταθεί ως ένα διάνυσµα συντεταγµένων, τότε ο αριθµός των διαστάσεων του διανύσµατος αυτού, θα είναι πάρα πολύ µεγάλος. Έτσι, είναι κρίσιµο να χρησιµοποιηθούν µέθοδοι προεπεξεργασίας των κειµένων, που θα αποσκοπούν στην µείωση του αριθµού των διαστάσεων (λέξεων) που θα αποτελέσουν την είσοδο του αλγορίθµου 22

23 Εξόρυξης Κειµένου που πρόκειται να εφαρµοστεί. Η µείωση του αριθµού λέξεων της επεξεργασίας, απαιτείται και σε κάθε άλλη αναπαράσταση των κειµένων της επεξεργασίας, συµπεριλαµβάνοντας και την αναπαράσταση «Σάκος-των-Λέξεων». Είναι πολύ σηµαντικό, η µέθοδος της προεπεξεργασίας να είναι εύρωστη. Για παράδειγµα, θα πρέπει να µπορεί να επεξεργαστεί µε σωστό τρόπο κείµενα µε θόρυβο, δηλαδή κείµενα που περιέχουν γραµµατικά και τυπογραφικά λάθη. Από τις κυριότερες µεθόδους προεπεξεργασίας είναι η µετατροπή του τύπου των γραµµάτων (Case Folding), η εύρεση του θέµατος των λέξεων (Stemming), η αποµάκρυνση των κοινών, µη σηµαντικών λέξεων (Stop Words) και η αναπαράσταση κάθε λέξης µε συµβολοσειρές N χαρακτήρων (N-Grams). Η µέθοδος Case Folding είναι η διαδικασία εκείνη κατά την οποία γίνεται µετατροπή όλων των χαρακτήρων του εγγράφου, είτε µόνο σε κεφαλαίους, είτε µόνο σε πεζούς. Η διαδικασία Stemming, µετατρέπει κάθε λέξη που πρόκειται να επεξεργαστεί, στην αντίστοιχη ρίζα της. Επιπλέον, καθορίζει τις παραγωγικές καταλήξεις και/ή τις ρηµατικές/πληθυντικές κλίσεις, κάθε λέξης του κειµένου. Οι διαδικασίες αυτές, λόγω του ότι ενσωµατώνουν γλωσσολογική γνώση, εξαρτώνται από τη γλώσσα του κειµένου. Οι κοινές, µη-σηµαντικές (Stop Word), είναι λέξεις που εµφανίζονται πολύ συχνά στο περιεχόµενο του εγγράφου. Αφού είναι τόσο κοινές και βρίσκονται σε πολλά έγγραφα, περιέχουν πολύ λίγη πληροφορία για τα περιεχόµενα του εγγράφου όπου εµφανίζονται. Έτσι, δεν µπορούν να αποτελέσουν χαρακτηριστικά στοιχεία του εγγράφου που επεξεργάζεται. Γι αυτό, θα πρέπει να αποµακρυνθούν από το κείµενο και να µην χρησιµοποιηθούν από τη διαδικασία αναπαράστασης του εγγράφου της επεξεργασίας. Οι κοινές, µη-σηµαντικές λέξεις υπάρχει περίπτωση να υπάρχουν πολύ λίγες φορές στο έγγραφο που επεξεργάζεται. Όµως και σε αυτή την περίπτωση θα πρέπει να αναγνωριστούν και να αποµακρυνθούν, µιας και δεν αποτελούν χρήσιµα στοιχεία που θα πρέπει να επεξεργαστούν. Οι κοινές, µη-σηµαντικές λέξεις, είτε υπάρχουν πολλές φορές στο έγγραφο που επεξεργάζεται, είτε λίγες, µπορούν να αναγνωριστούν µε τη χρήση πληροφορίων που έχουν προκύψει από γλωσσολογικές µελέτες. Η αναπαράσταση Ν-χαρακτήρων (N-Gram) είναι ένας εναλλακτικός τρόπος προεπεξεργασίας του κειµένου της επεξεργασίας, έναντι του Stemming και της αποµάκρυνσης των κοινών, µη-σηµαντικών λέξεων. Η αναπαράσταση αυτή, δηµιουργεί συµβολοσειρές N χαρακτήρων µε βάση τη µελέτη κάθε λέξης του κειµένου της επεξεργασίας. Για παράδειγµα, η λέξη ΜΕΤΑ, µπορεί να αναπαρασταθεί µε συµβολοσειρές 3-χαρακτήρων, όπως είναι οι _ΜΕ, ΜΕΤ, ΕΤΑ και ΤΑ_. Η αντίστοιχη αναπαράσταση µε 4- χαρακτήρων συµβολοσειρές, θα είναι της µορφής _ΜΕΤ, ΜΕΤΑ και ΕΤΑ_. Σε σχέση µε τις διαδικασίες του Stemming και της αποµάκρυνσης των κοινών, µη-σηµαντικών λέξεων, έχει το πλεονέκτηµα να είναι πιο εύρωστη µέθοδος. Είναι λιγότερο ευαίσθητη σε γραµµατικά και τυπογραφικά λάθη και δεν απαιτεί κάποια γλωσσολογική προετοιµασία του εγγράφου που πρόκειται να προεπεξεργαστεί. Έτσι, η διαδικασία αυτή, είναι ανεξάρτητη της γλώσσας του κειµένου που προεπεξεργάζεται. Παρ όλα αυτά, δεν είναι τόσο αποτελεσµατική µέθοδος για τη διαδικασία της µείωσης του αριθµού των διαστάσεων (λέξεων) που πρόκειται να επεξεργαστούν. Η µείωση του πλήθους των διαστάσεων, είναι πολύ πιο αποτελεσµατική µε τη χρήση των διαδικασιών του Stemming και της αποµάκρυνσης των κοινών, µη σηµαντικών λέξεων. Η διαδικασία της προεπεξεργασίας των δεδοµένων, υπάρχει περίπτωση να αναφέρεται και στην αφαίρεση τυχών εικόνων και πινάκων που υπάρχουν στο κείµενο. Σε περιπτώσεις όπου η δοµή του κειµένου δεν αποτελεί χρήσιµη στοιχείο για το περιεχόµενο του κειµένου, θα πρέπει να αποµακρυνθεί για να µην επηρεαστεί η µετέπειτα επεξεργασία. Επί προσθέτως, µαθηµατικά σύµβολα, αριθµοί, διευθύνσεις δικτυακών τόπων και διευθύνσεις που ίσως να περιέχονται στο κείµενο, θα πρέπει να αντικατασταθούν µε 23

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (data mining)

Εξόρυξη Γνώσης από εδοµένα (data mining) Εξόρυξη νώσης από εδοµένα (data mining) Ε.Κ.Ε.Φ.Ε. ηµόκριτος Ινστ. Πληροφορικής και Τηλεπικοινωνιών εώργιος Παλιούρας Email: paliourg@iit.demokritos.gr WWW: http://www.iit.demokritos.gr/~paliourg Περιεχόµενα

Διαβάστε περισσότερα

Οπτική αντίληψη. Μετά?..

Οπτική αντίληψη. Μετά?.. Οπτική αντίληψη Πρωτογενής ερεθισµός (φυσικό φαινόµενο) Μεταφορά µηνύµατος στον εγκέφαλο (ψυχολογική αντίδραση) Μετατροπή ερεθίσµατος σε έννοια Μετά?.. ΓΙΑ ΝΑ ΚΑΤΑΝΟΗΣΟΥΜΕ ΤΗΝ ΟΡΑΣΗ ΠΡΕΠΕΙ ΝΑ ΑΝΑΛΟΓΙΣΤΟΥΜΕ

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 ΕΚΕΦΕ «ηµόκριτος» Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 Το Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού

Διαβάστε περισσότερα

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Προηγµένη ιασύνδεση µε τοπεριβάλλον Προηγµένη ιασύνδεση µε τοπεριβάλλον! Επεξεργασία φυσικής γλώσσας # Κατανόηση φυσικής γλώσσας # Παραγωγή φυσικής γλώσσας! Τεχνητή όραση! Ροµποτική Κατανόηση Φυσικής Γλώσσας! Αναγνώριση οµιλίας (Speech recognition)!

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος Καπιδάκης 1 1 Εργαστήριο Ψηφιακών Βιβλιοθηκών και

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Έκδοσης 2005 Π. Κεντερλής

Έκδοσης 2005 Π. Κεντερλής Σύστημα «Ηλέκτρα» Το Σύστημα «Ηλέκτρα» αποτελεί μια ολοκληρωμένη διαδικτυακή εφαρμογή διαχείρισης πληροφοριών μαθημάτων και χρηστών. Αναπτύχθηκε εξολοκλήρου από τον εργαστηριακό συνεργάτη Παναγιώτη Κεντερλή

Διαβάστε περισσότερα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ρ. Χαράλαµπος Π. Στρουθόπουλος Αναπληρωτής Καθηγητής

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Εισαγωγή στον προγραµµατισµό Η έννοια του προγράµµατος Ο προγραµµατισµός ασχολείται µε τη δηµιουργία του προγράµµατος, δηλαδή του συνόλου εντολών που πρέπει να δοθούν στον υπολογιστή ώστε να υλοποιηθεί

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001 ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001 ΥΠ.ΕΣ...Α Αριθµ.Πρωτ. / ΙΑ Π/A1/22123 Γ.Γ. ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ ΓΕΝ. /ΝΣΗ ΙΟΙΚΗΤΙΚΗΣ ΟΡΓΑΝΩΣΗΣ /ΝΣΗ ΑΠΛΟΥΣΤΕΥΣΗΣ ΙΑ ΙΚΑΣΙΩΝ ΚΑΙ ΠΑΡΑΓΩΓΙΚΟΤΗΤΑΣ ΤΜΗΜΑ ΜΕΘΟ ΩΝ ΕΡΓΑΣΙΩΝ

Διαβάστε περισσότερα

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης ιπλωµατική Εργασία του Θεοδώρου Ι. Γαλάνη ΠΕΡΙΛΗΨΗ Γενικά Με την εξάπλωση του διαδικτύου όλο και περισσότεροι

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό, 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή 1. εδοµένα, Πληροφορίες και Υπολογιστές 2. Πώς φτάσαµε στους σηµερινούς υπολογιστές 3. Το υλικό ενός υπολογιστικού συστήµατος 4. Το λογισµικό ενός υπολογιστικού συστήµατος

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)» 6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)» Ένα µεγάλο µέρος του Προγράµµατος Σπουδών της Σχολής ΑΤΜ αφορά την εκπαίδευση σε ποικίλα αντικείµενα που άπτονται

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το Σηµαντικά σηµεία κεφαλαίου Τα τρία στάδια επίλυσης ενός προβλήµατος: Ακριβής προσδιορισµό του προβλήµατος Ανάπτυξη του αντίστοιχου αλγορίθµου. ιατύπωση του αλγορίθµου σε κατανοητή µορφή από τον υπολογιστή.

Διαβάστε περισσότερα

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή 1 Πίνακας Περιεχομένων 1. Εισαγωγή... 4 1.1 Περιβάλλον Moodle...4 1.2 Χρήση ονόματος χρήστη και κωδικού...4 1.3 Δημιουργία νέου μαθήματος...4 1.3.1

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Α. Ερωτήσεις Ανάπτυξης

Α. Ερωτήσεις Ανάπτυξης οµηµένος Προγραµµατισµός-Κεφάλαιο 7 Σελίδα 1 α ό 10 ΕΝΟΤΗΤΑ ΙΙΙ (ΠΡΟΓΡΑΜΜΑΤΑ) ΚΕΦΑΛΑΙΟ 7: Είδη, Τεχνικές και Περιβάλλοντα Προγραµµατισµού Α. Ερωτήσεις Ανάπτυξης 1. Τι ονοµάζουµε γλώσσα προγραµµατισµού;

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

INFO. Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ ΑΠΟΚΛΕΙΣΤΙΚΑ ΤΑ ΕΞΕΤΑΣΤΙΚΑ ΚΕΝΤΡΑ ECDL

INFO. Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ ΑΠΟΚΛΕΙΣΤΙΚΑ ΤΑ ΕΞΕΤΑΣΤΙΚΑ ΚΕΝΤΡΑ ECDL INFO ECDL Expert Ένα ολοκληρωµένο Πρόγραµµα Πιστοποίησης γνώσεων πληροφορικής και δεξιοτήτων χρήσης Η/Υ ΠΡΟΧΩΡΗΜΕΝΟΥ ΕΠΙΠΕ ΟΥ Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ

Διαβάστε περισσότερα

Ανοικτά Ακαδηµα κά Μαθήµατα

Ανοικτά Ακαδηµα κά Μαθήµατα ΤΕΙ Ιονίων Νήσων Ανοικτά Ακαδηµα κά Μαθήµατα Ανάλυση Σχεδίαση Υλοποίηση Αξιολόγηση Ανάλυση: Πληροφορίες σχετικά µε τις ανάγκες της εκπαίδευσης Σχεδίαση: Καθορισµός χαρακτηριστικών του εκπαιδευτικού λογισµικού

Διαβάστε περισσότερα

ΠΕ60/70, ΠΕ02, ΠΕ03, ΠΕ04)

ΠΕ60/70, ΠΕ02, ΠΕ03, ΠΕ04) «Επιµόρφωση εκπαιδευτικών στη χρήση και αξιοποίηση των ΤΠΕ στην εκπαιδευτική διδακτική διαδικασία» (Γ ΚΠΣ, ΕΠΕΑΕΚ, Μέτρο 2.1, Ενέργεια 2.1.1, Κατηγορία Πράξεων 2.1.1 θ) Αναλυτικό Πρόγραµµα Σπουδών για

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης»

«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» «Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Πέρα όµως από την Γνωσιακή/Εννοιολογική ανάλυση της δοµής και του περιεχοµένου των σχολικών εγχειριδίων των Μαθηµατικών του Δηµοτικού ως προς τις έννοιες

Διαβάστε περισσότερα

Αγορά Πληροφορικής. Προϊόντα και Υπηρεσίες.

Αγορά Πληροφορικής. Προϊόντα και Υπηρεσίες. Αγορά Πληροφορικής. Προϊόντα και Υπηρεσίες. Υποδειγματικό Σενάριο Γνωστικό αντικείμενο: Πληροφορική Δημιουργός: ΚΩΝΣΤΑΝΤΙΝΑ ΚΟΝΤΟΣΗ ΙΝΣΤΙΤΟΥΤΟ ΕΚΠΑΙΔΕΥΤΙΚΗΣ ΠΟΛΙΤΙΚΗΣ ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ, ΕΡΕΥΝΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ

Διαβάστε περισσότερα

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Εισαγωγή 1. Τι είναι αυτό που κρατάς στα χέρια σου. Αυτό το κείµενο είναι µια προσπάθεια να αποτυπωθεί όλη η θεωρία του σχολικού µε

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Πρόλογος των Συγγραφέων

Πρόλογος των Συγγραφέων Πρόλογος των Συγγραφέων Τεχνητή Νοηµοσύνη (ΤΝ) είναι ο τοµέας της επιστήµης των υπολογιστών, που ασχολείται µε τη σχεδίαση ευφυών (νοηµόνων) υπολογιστικών συστηµάτων, δηλαδή συστηµάτων που επιδεικνύουν

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας 1. Εισαγωγή Σχολιασµός των εργασιών της 16 ης παράλληλης συνεδρίας µε θέµα «Σχεδίαση Περιβαλλόντων για ιδασκαλία Προγραµµατισµού» που πραγµατοποιήθηκε στο πλαίσιο του 4 ου Πανελλήνιου Συνεδρίου «ιδακτική

Διαβάστε περισσότερα

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Διοίκησης Συστημάτων Εφοδιασμού Μάθημα: Εισαγωγή στην Εφοδιαστική (Εργαστήριο) Ανάλυση του άρθρου με τίτλο: «Intelligent Decision Support Systems» των Stephanie Guerlain,

Διαβάστε περισσότερα

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4 Επιστήμη της Πληροφορικής Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4 Η πληροφορική είναι η επιστήμη που ερευνά την κωδικοποίηση, διαχείριση και μετάδοση συμβολικών αναπαραστάσεων πληροφοριών. Επίσης

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ ΔΕΔΟΜΕΝΑ ΔΕΔΟΜΕΝΑ ΠΛΗΡΟΦΟΡΙΑ ΑΡΙΘΜΟΙ ΣΥΜΒΟΛΑ - ΛΕΞΕΙΣ ΟΠΟΙΑΔΗΠΟΤΕ ΔΡΑΣΤΗΡΙΟΤΗΤΑ ΣΥΜΒΑΙΝΕΙ ΣΕ ΜΙΑ ΟΙΚΟΝΟΜΙΚΗ ΜΟΝΑΔΑ ΠΡΕΠΕΙ ΝΑ ΜΕΤΡΕΙΤΑΙ ΚΑΙ ΝΑ ΚΑΤΑΓΡΑΦΕΤΑΙ ΟΡΓΑΝΩΣΗ ΚΑΤΑΓΡΑΦΗΣ

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS) Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών (Geographical Information Systems GIS) ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ, ΤΜΗΜΑ ΓΕΩΓΡΑΦΙΑΣ ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ Εισαγωγή στα GIS 1 Ορισµοί ΣΓΠ Ένα σύστηµα γεωγραφικών πληροφοριών

Διαβάστε περισσότερα

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση µεθόδων Συµπερασµού Γραµµατικών Κορφιάτης Γιώργος ιπλωµατική Εργασία Αντικείµενο Κατασκευή µοντέλου ικανού να περιγράψει την πλοήγηση

Διαβάστε περισσότερα

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Πίνακας περιεχομένων Τίτλος της έρευνας (title)... 2 Περιγραφή του προβλήματος (Statement of the problem)... 2 Περιγραφή του σκοπού της έρευνας (statement

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ Βασικές Έννοιες - εδοµένα { Νίκος, Μιχάλης, Μαρία, Θάλασσα, Αυτοκίνητο }, αριθµοί, π.χ. {1, 2, 3, 5, 78}, συµβολοσειρές (strings) π.χ. { Κώστας, 5621, ΤΡ 882, 6&5 #1, +

Διαβάστε περισσότερα

ΙΟΙΚΗΤΙΚΗ ΙΚΤΥΩΣΗ. Ενότητα 98 η ίκτυα ΟΠ νθρώπινου υναµικού 1

ΙΟΙΚΗΤΙΚΗ ΙΚΤΥΩΣΗ. Ενότητα 98 η ίκτυα ΟΠ νθρώπινου υναµικού 1 ΙΟΙΚΗΤΙΚΗ ΙΚΤΥΩΣΗ [1] εν εφαρµόζονται τυπικές συνταγές. Αδυναµία επίβλεψης και ελέγχου. Περιορισµένη και έµµεση επιρροή της κοινής πολιτιστικής ταυτότητας. [2] Ένταξη οργανωτικών αναγκών σε ρεύµατα ενεργειών.

Διαβάστε περισσότερα

Σχεδιασµός βασισµένος σε συνιστώσες

Σχεδιασµός βασισµένος σε συνιστώσες Σχεδιασµός βασισµένος σε συνιστώσες 1 Ενδεικτικά περιεχόµενα του κεφαλαίου Ποια είναι τα "άτοµα", από τα οποία κατασκευάζονται οι υπηρεσίες; Πώς οργανώνουµε τις συνιστώσες σε ένα αρµονικό σύνολο; Τι είναι

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική Δέσποινα Πόταρη Πανεπιστήμιο Πατρών Η έννοια της δραστηριότητας Δραστηριότητα είναι κάθε ανθρώπινη δράση που έχει ένα κίνητρο και ένα

Διαβάστε περισσότερα

Το µάθηµα Ψηφιακές Βιβλιοθήκες

Το µάθηµα Ψηφιακές Βιβλιοθήκες Τµήµα Αρχειονοµίας Βιβλιοθηκονοµίας Ιόνιο Πανεπιστήµιο Το µάθηµα Ψηφιακές Βιβλιοθήκες Σαράντος Καπιδάκης Επικοινωνία Σαράντος Καπιδάκης Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής ηµοσίευσης sarantos@ionio.gr

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

Tεχνολογίες της Πληροφορίας. Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 1

Tεχνολογίες της Πληροφορίας. Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 1 Tεχνολογίες της Πληροφορίας Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 1 2 1 Πληροφορία Πληροφόρηση- Τεχνολογία Πληροφοριών Ε ΟΜΕΝΑ (Τα δεδοµένα (data), είναι γεγονότα, µηνύµατα, κωδικοποιηµένα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 435: ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΑΝΘΡΩΠΟΥ ΥΠΟΛΟΓΙΣΤΗ Ακαδηµαϊκό Έτος 2004 2005, Χειµερινό Εξάµηνο 2 Η ΟΜΑ ΙΚΗ ΕΡΓΑΣΙΑ: ΑΝΑΠΤΥΞΗ ΑΡΧΙΚΗΣ Ι ΕΑΣ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΚΑΙ ΑΝΑΛΥΣΗ ΑΝΑΓΚΩΝ

Διαβάστε περισσότερα

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ 1 ΕΙΣΑΓΩΓΗ Με την ολοένα και ταχύτερη ανάπτυξη των τεχνολογιών και των επικοινωνιών και ιδίως τη ραγδαία, τα τελευταία

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Κεφάλαιο 10 ο Υποπρογράµµατα

Κεφάλαιο 10 ο Υποπρογράµµατα Κεφάλαιο 10 ο Υποπρογράµµατα Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον Η αντιµετώπιση των σύνθετων προβληµάτων και η ανάπτυξη των αντίστοιχων προγραµµάτων µπορεί να γίνει µε την ιεραρχική σχεδίαση,

Διαβάστε περισσότερα

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε;

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε; 1.1 ΕΙΣΑΓΩΓΗ Η πληροφορία αποτελεί το βασικό εργαλείο άσκησης της ιατρικής επιστήμης. Η διάγνωση, η θεραπεία, η πρόληψη και η διοίκηση της υγείας βασίζονται στην απόκτηση, διαχείριση και επεξεργασία της

Διαβάστε περισσότερα

ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ

ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ Για τους φοιτητές που έχουν εισαχθεί στο Τµήµα από το Ακαδηµαϊκό Έτος 1999-2000 έως το Ακαδηµαϊκό Έτος 2003-2004 1 1. Εγγραφή και παρακολούθηση για τουλάχιστον

Διαβάστε περισσότερα

1. ΕΙΣΑΓΩΓΗ 2. ΠΕΡΙΓΡΑΦΗ

1. ΕΙΣΑΓΩΓΗ 2. ΠΕΡΙΓΡΑΦΗ 1. ΕΙΣΑΓΩΓΗ Το πακέτο λογισµικού AuctionDesigner είναι ένα από τα πολλά πακέτα που έχουν σχεδιαστεί και µπορεί να παραγγείλει κανείς µέσω του Internet µε σκοπό να αναπτύξει εφαρµογές ηλεκτρονικού εµπορίου.

Διαβάστε περισσότερα

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις Άγγελος Μητρέλης 1, Λεωνίδας Παπαχριστόπουλος 1, Γιάννης Τσάκωνας 1,2, Χρήστος Παπαθεοδώρου

Διαβάστε περισσότερα

Σύστηµα Προσαρµοστικής. Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11

Σύστηµα Προσαρµοστικής. Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11 ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Σύστηµα Προσαρµοστικής Μάθησης για την Αξιολόγηση Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11 Προβλήµατα

Διαβάστε περισσότερα

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο ρ. Η. Μαγκλογιάννης Πανεπιστήµιο Αιγαίου Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών

Διαβάστε περισσότερα

Μέθοδος : έρευνα και πειραματισμός

Μέθοδος : έρευνα και πειραματισμός 1 Ο ΓΥΜΝΑΣΙΟ ΠΕΥΚΩΝ Γ ΓΥΜΝΑΣΙΟΥ ΜΑΘΗΜΑ : ΤΕΧΝΟΛΟΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΣ : Τρασανίδης Γεώργιος, διπλ. Ηλεκ/γος Μηχανικός Μsc ΠΕ12 05 Μέθοδος : έρευνα και πειραματισμός Στόχος της Τεχνολογίας στην Γ Γυμνασίου

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Σύµφωνα µε την Υ.Α /Γ2/ Εξισώσεις 2 ου Βαθµού. 3.2 Η Εξίσωση x = α. Κεφ.4 ο : Ανισώσεις 4.2 Ανισώσεις 2 ου Βαθµού

Σύµφωνα µε την Υ.Α /Γ2/ Εξισώσεις 2 ου Βαθµού. 3.2 Η Εξίσωση x = α. Κεφ.4 ο : Ανισώσεις 4.2 Ανισώσεις 2 ου Βαθµού Σύµφωνα µε την Υ.Α. 139606/Γ2/01-10-2013 Άλγεβρα Α ΤΑΞΗ ΕΣΠΕΡΙΝΟΥ ΓΕΛ Ι. ιδακτέα ύλη Από το βιβλίο «Άλγεβρα και Στοιχεία Πιθανοτήτων Α Γενικού Λυκείου» (έκδοση 2013) Εισαγωγικό κεφάλαιο E.2. Σύνολα Κεφ.1

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα