ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ"

Transcript

1 ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ (MBA) ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΑΠΟ ΚΕΙΜΕΝΟ (TEXT MINING) ΣΤΟΝ ΕΝΤΟΠΙΣΜΟ ΚΥΡΙΩΝ ΤΑΣΕΩΝ ΣΕ ΣΥΝΟΛΟ ΚΕΙΜΕΝΩΝ: ΕΦΑΡΜΟΓΗ ΣΤΟΝ ΕΝΤΟΠΙΣΜΟ ΚΥΡΙΩΝ ΕΡΕΥΝΗΤΙΚΩΝ ΠΕΔΙΩΝ ΣΤΟ ΣΥΝΟΛΟ ΤΩΝ ΕΡΕΥΝΗΤΙΚΩΝ ΕΡΓΩΝ ΤΟΥ ΕΛΚΕ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΑΓΓΕΛΟΠΟΥΛΟΣ ΚΩΝΣΤΑΝΤΙΝΟΣ Α.Μ.: 334 ΕΠΙΒΛΕΠΩΝ: ΚΑΘΗΓΗΤΗΣ ΒΟΥΤΣΙΝΑΣ ΒΑΣΙΛΕΙΟΣ ΠΑΤΡΑ ΜΑΪΟΣ 2016

2 Κωνσταντίνος Αγγελόπουλος Με την επιφύλαξη παντός δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς το συγγραφέα. 2

3 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ... 5 ABSTRACT... 7 ΕΥΧΑΡΙΣΤΙΕΣ... 8 ΕΙΣΑΓΩΓΗ... 9 ΚΕΦΑΛΑΙΟ 1: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ Εξόρυξη Γνώσης από Δεδομένα (Data Mining) Εξόρυξη Γνώσης από Κείμενα (Text Mining) Στόχοι Text Mining Text Mining vs Data Mining Τεχνικές Μέθοδοι Εξόρυξης Γνώσης Εφαρμογές Text Mining ΚΕΦΑΛΑΙΟ 2: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ Προεπεξεργασία Κειμένων (Text Pre-Processing) Αναπαράσταση Κειμένων Συχνότητα Όρου Αντίστροφη Συχνότητα Κειμένου (TF IDF) Μοντέλο Διανυσματικού Χώρου (Vector Space Model) ΚΕΦΑΛΑΙΟ 3: ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Βήματα Διαδικασίας Ομαδοποίησης Εφαρμογές Ομαδοποίησης Ιεραρχικοί Αλγόριθμοι Ομαδοποίησης Διαχωριστικοί Αλγόριθμοι Ομαδοποίησης Αλγόριθμος K Means Βήματα Αλγορίθμου K Means Χαρακτηριστικά Αλγορίθμου K Means Αλγόριθμος Spherical K Means

4 3.8 Ασαφής Ομαδοποίηση (Fuzzy Clustering) Αξιολόγηση Αποτελεσμάτων Ομαδοποίησης Μετρική F Measure Μετρική Εντροπίας (Entropy) Μετρική Καθαρότητας (Purity) Μετρική Eυκλείδειας Απόστασης ΚΕΦΑΛΑΙΟ 4: ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ TEXT MINING ΣΕ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ Εισαγωγή Συλλογή Ερευνητικών Προγραμμάτων Προ-επεξεργασία Ερευνητικών Προγραμμάτων Αφαίρεση Δομής Κειμένων Γλωσσική Προ-επεξεργασία Αφαίρεση Stopwords Stemming Επεξεργασία Δεδομένων Εισαγωγή Δεδομένων στο QDA Miner Επεξεργασία Δεδομένων με το Λογισμικό Wordstat Ανάλυση Αποτελεσμάτων Μελλοντική Έρευνα ΒΙΒΛΙΟΓΡΑΦΙΑ ΔΙΑΔΙΚΤΥΑΚΕΣ ΠΗΓΕΣ

5 ΠΕΡΙΛΗΨΗ Τα τελευταία χρόνια με την ανάπτυξη του παγκόσμιου ιστού, των ψηφιακών βιβλιοθηκών και των βάσεων δεδομένων έχει δημιουργηθεί ένα τεράστιο πρόβλημα συσσώρευσης μεγάλου όγκου κειμένων και πληροφοριών. Το φαινόμενο αυτό έχει απασχολήσει πάρα πολλούς χρήστες που προσπαθούν να εξαγάγουν γρήγορα και εύκολα χρήσιμες πληροφορίες από μεγάλες συλλογές κειμένων. Η δυσκολία έγκειται στην αδυναμία επεξεργασίας όλης αυτής της διαθέσιμης πληροφορίας και των μεγάλων κειμενικών πόρων με απώτερο σκοπό την αδυναμία εξαγωγής χρήσιμων ή νέων γνώσεων και συμπερασμάτων. Προκειμένου να αντιμετωπισθεί το παραπάνω πρόβλημα, έχουν αναπτυχθεί αρκετές τεχνικές για την οργάνωση, την ανάλυση και την εξαγωγή νέας γνώσης από μεγάλους όγκους κειμένων. Μία από αυτές τις τεχνικές είναι η εξόρυξη γνώσης από κείμενα (Text Mining). Μία από τις σημαντικότερες μεθόδους της εξόρυξης γνώσης από κείμενα (Text Mining) είναι η ομαδοποίηση, η οποία ως σκοπό έχει την οργάνωση μεγάλου όγκου κειμένων σε ομάδες (clusters) βάση ορισμένων κριτηρίων ομοιότητας, βοηθώντας καθοριστικά στην ανάλυσή τους και στην εξαγωγή νέων γνώσεων από αυτά. Σκοπός της παρούσας μεταπτυχιακής εργασίας είναι η συλλογή των ερευνητικών προγραμμάτων από την Επιτροπή Ερευνών (ΕΛΚΕ) του Πανεπιστημίου Πατρών και η εφαρμογή της τεχνικής εξόρυξης γνώσης από κείμενα (Text Mining) με απώτερο σκοπό την εξαγωγή συμπερασμάτων για το ποια είναι τα κύρια ερευνητικά πεδία του Πανεπιστημίου Πατρών. Πιο αναλυτικά στο πρώτο κεφάλαιο γίνεται μία σύντομη ανασκόπηση σχετικά με την εξόρυξη γνώσης από κείμενα (Text Mining) και περιγράφονται οι στόχοι, οι μέθοδοι και τα εργαλεία που χρησιμοποιεί. Στο δεύτερο κεφάλαιο παρουσιάζεται η διαδικασία προ-επεξεργασίας των κειμένων καθώς και ο τρόπος αναπαράστασης αυτών. Στο τρίτο κεφάλαιο περιγράφονται η διαδικασία της ομαδοποίησης, σημαντικοί αλγόριθμοι ομαδοποίησης και διάφορα μέτρα ομοιότητας. Στο τέταρτο κεφάλαιο περιγράφεται η διαδικασία συλλογής και προ-επεξεργασίας των ερευνητικών προγραμμάτων καθώς επίσης και η εφαρμογή του λογισμικού Text Mining, QDA Miner, σε συνδυασμό με το λογισμικό ανάλυσης περιεχομένου, Wordstat, 5

6 προκειμένου τα εν λόγω ερευνητικά προγράμματα να ομαδοποιηθούν σε ομάδες (clusters) με απώτερο σκοπό την εξαγωγή κατάλληλων συμπερασμάτων, ώστε να αποφανθεί όπως προαναφέραμε, ποια είναι τα κύρια ερευνητικά πεδία του Πανεπιστημίου Πατρών. Η εν λόγω εργασία κλείνει με την ανάλυση των αποτελεσμάτων και τις προτάσεις για μελλοντική έρευνα. Λέξεις κλειδιά: εξόρυξη γνώσης, εξόρυξη κειμένου, ομαδοποίηση, αλγόριθμος 6

7 ABSTRACT In recent years with the development of the Web, digital libraries and databases has created a huge problem accumulation of large volumes of text and information. This phenomenon has occupied too many users trying to quickly and easily extract useful information from large text collections. The difficulty lies in the inability of all processing of this information available and large textual resources with the aim of export weakness or useful new knowledge and conclusions. To address the above problem, we have developed several techniques for organizing, analyzing and export of new knowledge from large volumes of text. One of these techniques is the extraction of knowledge from texts (Text Mining). One of the most important methods of knowledge extraction from text (Text Mining) is a grouping, which aim is the large volume organize text into groups (clusters) based on certain similarity criteria, helping decisively in their analysis and to draw new knowledge from these. The purpose of this postgraduate thesis is the collection of research projects by the Research Committee of the University of Patras and the application of the technique of extraction of knowledge from texts (Text Mining) with the aim of drawing conclusions as to what the main research fields of the University of Patras. More detail in the first chapter gives a brief overview on the mining of texts (Text Mining) and describes the objectives, methods and tools used. The second chapter presents the process of text preprocessing and how such representation. The third chapter describes the process of clustering, significant clustering algorithms and various similarity measures. The fourth chapter describes the process of collection and pre-processing of research programs as well as the software application Text Mining, QDA Miner, combined with content analysis software, Wordstat, so that these research projects be grouped into groups (clusters) with the ultimate purpose of enabling appropriate conclusions, in order to rule as mentioned above, what are the main research fields of the University of Patras. This paper ends with an analysis of the results and suggestions for future research. Keywords: data mining, text mining, clustering, algorithm 7

8 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω θερμά τον επιβλέποντα καθηγητή μου κ. Βασίλειο Βουτσινά, για την υποστήριξή του στην εκπόνηση της μεταπτυχιακής εργασίας. Η πολύτιμη καθοδήγησή του, ο χρόνος που αφιέρωσε και η άριστη συνεργασία που είχαμε συνέβαλαν σημαντικά στην εκπλήρωση αυτής της εργασίας. Επίσης, θα ήθελα να ευχαριστήσω την υποψήφια διδάκτορα κα. Αγγελική Γιαννοπούλου και τον προγραμματιστή εφαρμογών Η/Υ κ. Αριστείδη Καμποθρέκα για την ουσιαστική βοήθεια που προσέφεραν στη διεκπεραίωση αυτής της εργασίας. Επιπλέον, ευχαριστώ θερμά την Επιτροπή Ερευνών του Πανεπιστημίου Πατρών που μου παραχώρησε τη δυνατότητα και με βοήθησε στη συλλογή των ερευνητικών προγραμμάτων. Τέλος, θα ήθελα να ευχαριστήσω τους γονείς μου για την πολύτιμη βοήθεια και συμπαράσταση τους όλα αυτά τα χρόνια. 8

9 ΕΙΣΑΓΩΓΗ Η εξόρυξη κειμένου (text mining) είναι ένας νέος τομέας έρευνας που προσπαθεί να επιλύσει το πρόβλημα της υπερφόρτωσης πληροφοριών χρησιμοποιώντας τεχνικές από άλλους παρεμφερείς τομείς όπως είναι η εξόρυξη από δεδομένα (data mining), η μηχανική μάθηση (machine learning), η επεξεργασία φυσικής γλώσσας (natural language processing), η ανάκτηση πληροφορίας (information retrieval), η εξαγωγή πληροφορίας (information extraction), και η διαχείριση γνώσης (knowledge management). Ο κύριος στόχος του text mining είναι να βοηθήσει τους χρήστες να εξαγάγουν πληροφορίες από μεγάλο όγκο κειμένων. Δύο από τους σημαντικότερους στόχους αποτελούν η κατηγοριοποίηση και η ομαδοποίηση εγγράφων. Είναι επιτακτική η ανάγκη για την ομαδοποίηση κειμένων λόγω της εκρηκτικής αύξησης του παγκόσμιου ιστού και γενικότερα των δεδομένων που υπάρχουν σε ψηφιακές βιβλιοθήκες (π.χ. ιατρικά δεδομένα, ακαδημαϊκά δεδομένα κ.λ.π.). Τα σημαντικότερα προβλήματα για την ομαδοποίηση κειμένων-εγγράφων είναι η υψηλή διαστατικότητα του κειμένου φυσικής γλώσσας και η επιλογή των χαρακτηριστικών γνωρισμάτων που χρησιμοποιούνται για να αντιπροσωπεύσουν μια περιοχή κειμένου ή ολόκληρο το κείμενο. Συνεπώς, ένας αυξανόμενος αριθμός ερευνητών έχει επικεντρωθεί στην έρευνα για τη σχετική αποτελεσματικότητα των διάφορων τεχνικών μείωσης της διάστασης και της σχέσης μεταξύ των επιλεγμένων χαρακτηριστικών γνωρισμάτων που χρησιμοποιούνται για να αντιπροσωπεύσουν το κείμενο και την ποιότητα της τελικής ομαδοποίησης. Η ποιότητα της τελικής ομαδοποίησης είναι σημαντική γιατί μπορεί να δώσει ενδιαφέρουσες ερμηνείες των κειμένων και νέες πληροφορίες σχετικά με τα χαρακτηριστικά τους. 9

10 ΚΕΦΑΛΑΙΟ 1: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ 1.1 Εξόρυξη Γνώσης από Δεδομένα (Data Mining) Στις μέρες μας, έχει παρατηρηθεί ραγδαία αύξηση των δεδομένων που συγκεντρώνονται και αποθηκεύονται σε τεράστιες βάσεις δεδομένων. Η σημαντική αυτή αύξηση έχει οδηγήσει σε αδυναμία ανάλυσης και ερμηνείας των μεγάλων όγκων δεδομένων, όπως και της εξόρυξης χρήσιμης γνώσης από αυτά. Επομένως, χρειάζονται αποδοτικές τεχνικές που να δίνουν τη δυνατότητα στους χρήστες να αναλύουν πολύ μεγάλες συλλογές από δεδομένα και να εξάγουν χρήσιμες πληροφορίες από αυτά. Ένας νέος ερευνητικός τομέας, γνωστός ως Ανεύρεση Γνώσης από Βάσεις Δεδομένων (Knowledge Discovery in Databases KDD) περιλαμβάνει τέτοιες τεχνικές. Ειδικότερα, ο τομέας της Ανεύρεσης Γνώσης από Βάσεις Δεδομένων ασχολείται με την εξόρυξη γνώσης μέσω της ανάλυσης δεδομένων από μεγάλες αποθήκες δεδομένων[20]. Πρόκειται δηλαδή, για μια μεθοδολογία μέσω της οποίας επιτυγχάνεται ανακάλυψη χρήσιμης γνώσης από δεδομένα η οποία δεν μπορεί να εξαχθεί από τον άνθρωπο με ευκολία και η οποία θα ήταν πρακτικά αδύνατη χωρίς τη χρήση ηλεκτρονικού υπολογιστή. Η Εξόρυξη Δεδομένων (Data Mining) αναφέρεται ως άμεσα συνακόλουθη τεχνική με την Ανεύρεση Γνώσης από Βάσεις Δεδομένων. Η Εξόρυξη Δεδομένων έχει εφαρμοσθεί επιτυχημένα σε πλήθος προβλημάτων, εκ των οποίων τα πιο συνήθη είναι τα εξής: Προώθηση προϊόντων: π.χ. διαχείριση και έρευνα της πελατειακής βάσης μιας επιχείρησης. Λιανεμπόριο: π.χ. αναγνώριση των προτιμήσεων των αγοραστών. Οικονομικά: π.χ. αναγνώριση της επικινδυνότητας. Βιομηχανία: π.χ. επεξεργασία των προδιαγραφών των ανταλλακτικών. Υγεία: π.χ. διάγνωση ασθένειας. Ενέργεια: π.χ. πρόβλεψη των απαιτήσεων για κατανάλωση ηλεκτρικής ενέργειας. 10

11 1.2 Εξόρυξη Γνώσης από Κείμενα (Text Mining) Η Εξόρυξη Γνώσης από Κείμενα μπορεί να ορισθεί ως μία διαδικασία εξαγωγής νέας πληροφορίας μέσω της οποίας ο χρήστης αλληλεπιδρά σε μία συλλογή κειμένων χρησιμοποιώντας ένα σύνολο εργαλείων ανάλυσης[18]. Στόχος του Text Mining είναι η εξαγωγή χρήσιμης πληροφορίας από πηγές δεδομένων μέσω της αναγνώρισης και της διερεύνησης σημαντικών προτύπων. Στην περίπτωση βέβαια του Text Mining οι πηγές δεδομένων είναι συλλογές κειμένων και τα πρότυπα (patterns) αναζητούνται σε μη δομημένα κείμενα (unstructured texts)[14]. Βασικό στοιχείο του Text Mining είναι η εστίασή του σε συλλογές κειμένων. Μια συλλογή κειμένων θα μπορούσε να θεωρηθεί ένα σύνολο εγγράφων βασισμένο σε κείμενο. Ο αριθμός των κειμένων σε τέτοιες συλλογές μπορεί να κυμανθεί από πολλές χιλιάδες έως μερικά εκατομμύρια. Οι συλλογές κειμένων μπορούν να χωρισθούν σε δύο κατηγορίες: τις στατικές και τις δυναμικές. Στατικές χαρακτηρίζονται αυτές των οποίων το αρχικό σύνολο κειμένων παραμένει αμετάβλητο. Από την άλλη δυναμικές χαρακτηρίζονται αυτές, όπου με τη πάροδο ου χρόνου προστίθενται στη συλλογή νέα ή ενημερωμένα κείμενα. Ένα χαρακτηριστικό παράδειγμα πραγματικής συλλογής κειμένων είναι η PubMed[25]. Η PubMed αποτελεί διαδικτυακή πηγή η οποία περιλαμβάνει βιβλιογραφικές αναφορές που σχετίζονται με τομείς των βιοϊατρικών επιστημών και των επιστημών υγείας. Αυτή η online υπηρεσία περιλαμβάνει ερευνητικές αναφορές στον τομέα της βιοϊατρικής, γεγονός το οποίο προσελκύει αρκετούς ερευνητές που ασχολούνται με τεχνικές εξόρυξης κειμένων. Επίσης, η PubMed αποτελεί δυναμική συλλογή κειμένων καθώς αυξάνεται διότι κάθε μήνα προστίθενται κατά μέσο όρο με νέες ερευνητικές αναφορές. Το γεγονός ότι οι συλλογές κειμένων είναι τεράστιου μεγέθους καθιστά αδύνατες τις χειροκίνητες προσπάθειες πολλών ερευνητών να βρουν συσχετίσεις μεταξύ των κειμένων. Οι αυτοματοποιημένες τεχνικές του Text Mining δίνουν τη δυνατότητα στους ερευνητές να αναγνωρίζουν πρότυπα από μεγάλο αριθμό κειμένων φυσικής γλώσσας γεγονός που τους δίνει τη δυνατότητα να αυξήσουν σημαντικά την ταχύτητα και την απόδοση των ερευνητικών τους δραστηριοτήτων τους. 11

12 Αυτό που πρέπει να επισημανθεί είναι ότι στα πλαίσια του Text Mining, οι αλγόριθμοι εξόρυξης γνώσης δεν εφαρμόζονται σε μη επεξεργασμένες συλλογές κειμένων. Η προεπεξεργασία των κειμένων είναι μία από τις σημαντικότερες διαδικασίες στον τομέα του Text Mining προκειμένου εν συνεχεία να εφαρμοσθούν επιτυχώς οι αλγόριθμοι εξόρυξης γνώσης. Το Text Mining είναι διαφορετικό από αυτό που γνωρίζουμε εμείς σήμερα ως παγκόσμιος ιστός (WWW). Σε μία αναζήτηση στον παγκόσμιο ιστό ο χρήστης ψάχνει κάτι που είναι ήδη γνωστό και έχει γραφτεί από κάποιον άλλο. Σημαντικό για τον χρήστη θα ήταν να ξεχωρίσει το υλικό που δεν είναι σχετικό με τις ανάγκες του και να βρει τη πληροφορία που τον ενδιαφέρει. Αυτός είναι και ο στόχος του Text Mining. Να ανακαλύψει δηλαδή την μέχρι τότε άγνωστη πληροφορία. Επίσης, το Text Mining διαφοροποιείται από την ανάκτηση πληροφορίας (Information Retrieval) και την περίληψη κειμένου (Text Summarization). Αυτό διότι η ανάκτηση πληροφορίας και η περίληψη εστιάζουν σε μεγαλύτερες ενότητες κειμένου, ενώ το Text Mining εξετάζει με μεγαλύτερη λεπτομέρεια τις συσχετίσεις μεταξύ συγκεκριμένων ειδών πληροφορίας τόσο εντός όσο και μεταξύ των κειμένων. Επιπλέον, το Text Mining διαφοροποιείται και από την επεξεργασία φυσικής γλώσσας (Natural Language Processing), διότι στόχος του NLP είναι να κατανοήσει την έννοια του κειμένου στο σύνολό του. Από την άλλη το Text Mining στοχεύει στην εξόρυξη καινούριας πληροφορίας για την αντιμετώπιση ενός συγκεκριμένου προβλήματος που έχει προσδιορισθεί εκ των προτέρων. Για παράδειγμα, το Text Mining θα μπορούσε να βοηθήσει τους ερευνητές ιατρούς να επιλέξουν άρθρα από τη συλλογή κειμένων PubMed που περιέχουν νέες θεραπείες για την οσφυαλγία, αναζητώντας φαρμακευτικές ουσίες που σχετίζονται με βιολογικές διαδικασίες σχετικές με την οσφυαλγία. 1.3 Στόχοι Text Mining Οι κυριότεροι στόχοι του Text Mining είναι οι παρακάτω: Να εξάγει και να συνδέσει διάφορα στοιχεία τα οποία μπορεί να προέρχονται από μεγάλες ποσότητες πηγών δεδομένων. 12

13 Να αναπαραστήσει και να αξιολογήσει τη σημασία των σχετιζόμενων στοιχείων. Να δημιουργήσει τεχνικές που θα οδηγήσουν στην εξαγωγή, ανακάλυψη και σύνδεση οντοτήτων. Η εξόρυξη πληροφορίας από αδόμητα ή ημι-δομημένα δεδομένα. Η αποτελεσματικότερη διαχείριση γνώσης. 1.4 Text Mining vs Data Mining Τα συστήματα του Text και του Data Mining παρουσιάζουν αρκετές αρχιτεκτονικές ομοιότητες. Για παράδειγμα και τα δύο συστήματα βασίζονται σε διαδικασίες προεπεξεργασίας των κειμένων και των δεδομένων αντίστοιχα. Επίσης, το Text Mining υιοθετεί για την εξόρυξη γνώσης αρκετές μεθόδους που χρησιμοποιούνται και στο Data Mining όπως είναι η κατηγοριοποίηση και η ομαδοποίηση. Παρόλα αυτά η διαφορά του Text Mining από το Data Mining είναι ότι στο Text Mining οι συσχετίσεις και τα υποδείγματα (γνώση) εξάγονται από αδόμητα κείμενα τα οποία είναι γραμμένα σε φυσική γλώσσα και όχι από δομημένες βάσεις δεδομένων[11]. Οι βάσεις δεδομένων έχουν σχεδιαστεί με τέτοιο τρόπο ώστε να μπορούν να επεξεργάζονται αυτόματα από διάφορα προγράμματα. Οι τεχνικές εξόρυξης κειμένου είναι πιο περίπλοκες σε σύγκριση με τις τεχνικές εξόρυξης δεδομένων, γεγονός που οφείλεται στην ασαφή και αδόμητη φύση των κειμένων φυσικής γλώσσας[9]. Το κείμενο γενικά γράφεται προκειμένου να διαβασθεί από ανθρώπους. Είναι γνωστό πως δεν υπάρχουν ακόμη προγράμματα που να μπορούν να διαβάσουν και να κατανοήσουν πλήρως ένα κείμενο το οποίο είναι γραμμένο σε φυσική γλώσσα. Δηλαδή δεν υπάρχουν ακόμη προγράμματα που να μπορούν να προσομοιάσουν πλήρως τον ανθρώπινο εγκέφαλο ως προς την κατανόηση του εννοιολογικού περιεχομένου ενός κειμένου. Εντούτοις, υπάρχει ένας τομέας που ονομάζεται 13

14 Επεξεργασία Φυσικής Γλώσσας ή διαφορετικά Υπολογιστική Γλωσσολογία (Natural Language Processing) που σημειώνει σημαντική πρόοδο στην ανάλυση κειμένου. Στόχος του NLP είναι η δημιουργία προγραμμάτων σε ηλεκτρονικούς υπολογιστές που θα μπορούν να διαβάζουν, να κατανοούν ή και να δημιουργούν κείμενα σε φυσική γλώσσα. 1.5 Τεχνικές Μέθοδοι Εξόρυξης Γνώσης Στις μέρες μας με την ανάπτυξη της τεχνολογίας έχουν αναπτυχθεί αρκετές τεχνολογικές βάσεις οι οποίες είναι αρκετά χρήσιμες κατά τη διαδικασία του Text Mining. Μερικές από αυτές είναι οι εξής: Εξαγωγή Πληροφοριών (Information Extraction) Κατηγοριοποίηση (Categorization) Ομαδοποίηση (Clustering) Συνόψιση (Summarization) Απεικόνιση Πληροφορίας (Information Visualization) Διασύνδεση Εννοιών (Concept Linkage) Εξαγωγή Οντολογιών (Ontology Extraction) Στη συνέχεια θα παρουσιάσουμε αναλυτικά κάθε μία από τις παραπάνω τεχνολογίες. Εξαγωγή Πληροφοριών (Information Extraction) Η εξαγωγή πληροφοριών είναι ένα είδος ανάκτησης πληροφοριών από μη δομημένα δεδομένα ή κείμενα γραμμένα σε φυσική γλώσσα και αποτελεί κλάδο της σύγχρονης επιστήμης των υπολογιστών. Είναι βασισμένη στην τεχνολογία της επεξεργασίας του φυσικού λόγου. 14

15 Πρακτικά, συνίσταται στην αναγνώριση συγκεκριμένου είδους πληροφοριών, όπως κύρια ονόματα (ονόματα ανθρώπων, τοπωνύμια, ονόματα εταιρειών, ημερών, μηνών, κτλ.), χρονικές πληροφορίες (ημερομηνίες), σχέσεις και γεγονότα από (συνήθως) ηλεκτρονικά κείμενα. Απώτερος στόχος της εξαγωγής πληροφοριών είναι η «κατανόηση» των βασικών συστατικών του υπό ανάλυση κειμένου, τα οποία αργότερα μπορούν να χρησιμοποιηθούν από εφαρμογές όπως αυτόματη εξαγωγή περιλήψεων κειμένων, αυτόματη απάντηση ερωτήσεων, αυτόματη μετάφραση κ.α. Δεδομένου του μεγάλου όγκου πληροφοριών που παράγονται και διακινούνται σήμερα, όπου είναι σχεδόν και το κύριο χαρακτηριστικό του διαδικτύου, το ζητούμενο στις μέρες μας είναι όχι απλώς η κατοχή της πληροφορίας, αλλά η διαχείριση της πληροφορίας και ο εντοπισμός της «σχετικής» πληροφορίας. Κατηγοριοποίηση (Categorization) Μια από τις πιο δημοφιλείς τεχνικές του Text Mining είναι η κατηγοριοποίηση κειμένων φυσικής γλώσσας (Classification). Η κατηγοριοποίηση είναι η διαδικασία της κατάταξης εγγράφων σε προκαθορισμένες κατηγορίες. Σκοπός της τεχνικής αυτής είναι o προσδιορισμός των κύριων θεμάτων μέσα από μια συλλογή εγγράφων. Όταν κατηγοριοποιείται ένα έγγραφο, ο ηλεκτρονικός υπολογιστής συνήθως το αντιμετωπίζει σαν ένα σύνολο από λέξεις, καθώς δεν επιχειρεί να επεξεργαστεί την πραγματική πληροφορία, όπως η εξαγωγή πληροφοριών. Υπάρχουν δύο τρόποι για την κατηγοριοποίηση. Ο πρώτος περιλαμβάνει τη δημιουργία ενός θησαυρού (thesaurus), δηλαδή ενός συνόλου που περιλαμβάνει όρους σχετικούς με το θέμα κάθε κατηγορίας καθώς και συσχετίσεις μεταξύ των όρων αυτών και τελικά τον ορισμό του θέματος του κειμένου με βάση τη συχνότητα των όρων, των σχετικών με το θέμα που υπάρχουν στο έγγραφο. Ο δεύτερος τρόπος περιλαμβάνει την εκπαίδευση ενός μοντέλου με κάποια δείγματα από τα έγγραφα. Έπειτα αναλύει στατιστικά τα γλωσσικά υποδείγματα (όπως οι λεξικογραφικές συγγένειες, οι συχνότητες λέξεων) των εγγράφων προς εκπαίδευση και τα χωρίζει σε κατηγορίες (στατιστικά)[22]. Τέλος ταξινομεί τα υπόλοιπα έγγραφα. Η δεύτερη προσέγγιση είναι προτιμότερη όταν έχουμε να χειριστούμε μεγάλους τομείς, καθώς τότε είναι αρκετά δύσκολο να δημιουργηθεί κάποιος θησαυρός εννοιών. 15

16 Η κατηγοριοποίηση έχει ποικίλες εφαρμογές. Αρκετές επιχειρήσεις παρέχουν υποστήριξη στους πελάτες τους απαντώντας σε ερωτήσεις πάνω σε διάφορα θέματα μέσω κατηγοριοποίησης εγγράφων ανά θεματική ενότητα. Με αυτό τον τρόπο οι πελάτες μπορούν να βρουν την πληροφορία που αναζητούν αμεσότερα. Χαρακτηριστικό παράδειγμα αποτελεί η ιστοσελίδα amazon[26]. Ομαδοποίηση (Clustering) Μία ομάδα (cluster) είναι μια συλλογή από σχετικά έγγραφα, και η ομαδοποίηση (clustering) είναι η διαδικασία της δημιουργίας ομάδων εγγράφων βάσει κάποιου κριτηρίου ομοιότητας. Η ομαδοποίηση κειμένων είναι χρήσιμη για τον προσδιορισμό κρυμμένων ομοιοτήτων, για να διευκολύνει τη διαδικασία του να βρούμε παρόμοιες ή σχετικές πληροφορίες, ενώ επιπλέον μπορούμε όταν εξερευνούμε μια καινούρια συλλογή δεδομένων ώστε να έχουμε μια γενική επισκόπηση της συλλογής. Η κατηγοριοποίηση διαφέρει από την ομαδοποίηση στο γεγονός ότι τα κείμενα ομαδοποιούνται εκείνη τη στιγμή με βάση την ομοιότητά τους, χωρίς να υπάρχει η ανάγκη χρησιμοποίησης προκαθορισμένων θεμάτων. Οι πιο γνωστοί αλγόριθμοι που χρησιμοποιούνται είναι ιεραρχικοί (hierarchical), διαχωριστικοί (partitional), δυαδικοί σχεσιακοί (binary relational) και ασαφείς (fuzzy). Επίσης ο πιο σημαντικός παράγοντας στη λειτουργία της ομαδοποίησης είναι το μέτρο ομοιότητας που χρησιμοποιεί ο εκάστοτε αλγόριθμος. Συνόψιση (Summarization) Η συνόψιση ενός κειμένου είναι σημαντική στη προσπάθεια κάποιος να κατανοήσει εάν ένα μεγάλο σε μέγεθος κείμενο μπορεί να καλύψει τις ανάγκες του, προχωρώντας στην λεπτομερή ανάγνωσή του. Ο στόχος στη συνόψιση είναι η ελάττωση της έκτασης και της λεπτομέρειας ενός κειμένου, διατηρώντας όμως τα βασικά του σημεία και το συνολικό του νόημα. Στο σημείο αυτό αξίζει να σημειωθεί ότι ενώ οι ηλεκτρονικοί υπολογιστές μπορούν να αν γνωρίζουν πρόσωπα, τοποθεσίες και 16

17 χρονικές αναφορές, καθίσταται ακόμα δύσκολη η σημασιολογική ανάλυση και ερμηνεία του κειμένου, διότι δεν κατέχουν τις αντίστοιχες γλωσσικές δεξιότητες με τον άνθρωπο. Μία από τις πιο ευρέως χρησιμοποιούμενες στρατηγικές είναι η εξαγωγή προτάσεων. Για παράδειγμα θα μπορούσε ένα λογισμικό συνόψισης να εξάγει φράσεις που ακολουθούν εκφράσεις όπως «συνοψίζοντας», «εν κατακλείδι» κ.α. οι οποίες γενικά περιλαμβάνουν τα πιο βασικά στοιχεία ενός κειμένου. Τέλος, η συνόψιση μπορεί να λειτουργήσει με την κατηγοριοποίηση για τη δημιουργία περιλήψεων σε κείμενα που ανακτώνται σε ένα συγκεκριμένο θέμα. Εάν σε ένα ιατρικό προσωπικό δίνονταν εκατοντάδες κείμενα για ένα συγκεκριμένο τομέα, με τη βοήθεια εργαλείων αυτόματης δημιουργίας περιλήψεων, θα μπορούσε να μειωθεί σημαντικά ο χρόνος για την ταξινόμηση αφενός του υλικού αυτού και αφετέρου ο χρόνος απόκτησης της σχετικής με ένα συγκεκριμένο θέμα πληροφορίας. Απεικόνιση Πληροφορίας (Information Visualization) Στόχος της απεικόνισης πληροφοριών είναι να οργανώσει μεγάλες πηγές κειμένου σε μία οπτική ιεραρχία. Αυτό δίνει τη δυνατότητα της περιήγησης, η οποία είναι πιο σημαντική σε σχέση από μία απλή αναζήτηση και καθιστά πιο εύκολη τη διαδικασία περιορισμού μεγάλου όγκου κειμένων. Επίσης, η απεικόνιση πληροφοριών χρησιμοποιεί την εξαγωγή χαρακτηριστικών γνωρισμάτων προκειμένου να δημιουργηθεί μια γραφική αντιπροσώπευση της συλλογής κειμένων. Αυτή η προσέγγιση βοηθάει το χρήστη στον προσδιορισμό των κύριων θεμάτων ή των πιο σημαντικών εννοιών. Σκοπός είναι, με τη χρήση υπολογιστικών μετασχηματισμών, να μειωθεί η γνωστική προσπάθεια εξέτασης μεγάλων συλλογών από κείμενα γεγονός το οποίο θα βοηθήσει την ανακάλυψη νέας γνώσης. Μία εφαρμογή απεικόνισης πληροφοριών αποτελεί το SPIRE (Spatial Paradigm for Information Retrieval and Exploration) το οποίο αναπτύχθηκε από τον Wise το 1999[21]. 17

18 Διασύνδεση Εννοιών (Concept Linkage) Η διαδικασία διασύνδεσης εννοιών χρησιμοποιεί εργαλεία που συνδέουν σχετικά κείμενα, αναγνωρίζοντας τις κοινές μεταξύ τους έννοιες και βοηθώντας το χρήστη να ανακαλύψει πληροφορίες οι οποίες πιθανόν να μην ήταν δυνατό να βρεθούν με τη χρήση παραδοσιακών μεθόδων. Πρόκειται δηλαδή, για μία ιδιαίτερα σημαντική διαδικασία στον τομέα του Text Mining. Για παράδειγμα στον ιατρικό κλάδο όπου η έρευνα είναι αρκετά εκτεταμένη, είναι δύσκολο για έναν ερευνητή να διαβάσει όλες τις επιστημονικές δημοσιεύσεις και να κάνει τις απαραίτητες διασυνδέσεις με άλλη έρευνα, ώστε να αποκτήσει τη σχετική πληροφορία. Για το λόγο αυτό υπάρχουν λογισμικά Text Mining τα οποία μπορούν εύκολα να αναγνωρίσουν τη σύνδεση μεταξύ δύο ή περισσότερων θεμάτων. Εξαγωγή Οντολογιών (Ontology Extraction) Οι οντολογίες έχουν καθιερωθεί ως δομημένα πλαίσια για την οργάνωση πληροφορίας και χρησιμοποιούνται κυρίως στην Τεχνητή Νοημοσύνη, στον Σημασιολογικό Ιστό, στη Βιοπληροφορική, στην επιστήμη Βιβλιοθηκονομίας, και σε άλλες επιστήμες - κλάδους ως μια μορφή αναπαράστασης γνώσης για τον κόσμο. Αξίζει να σημειωθεί πως η κύρια ώθηση στις οντολογίες δόθηκε από την ανάπτυξη του Σημασιολογικού ιστού (Semantic Web), ο οποίος εφευρέθηκε από τον Tim Berners Lee[2]. Ο κύριος σκοπός του σημασιολογικού ιστού είναι να εξελίξει τον τωρινό ιστό, ο οποίος αποτελείται από απλές σελίδες που μπορούν να αναγνωστούν μόνο από ανθρώπους, σε σελίδες που περιέχουν πληροφορίες ανάγνωσης για τις μηχανές (μεταδεδομένα) και στο πως συνδέονται μεταξύ τους οι σελίδες, δημιουργώντας έτσι αυτόματες υπηρεσίες που χρησιμοποιούν τον ιστό πιο έξυπνα και πραγματοποιούν εργασίες για τους χρήστες. Επομένως, ο ρόλος των οντολογιών σε αυτό το σημείο είναι να παρέχουν εννοιολογική υποστήριξη για να καταστήσουν τη σημασιολογία μιας μηχανής μεταδεδομένων ερμηνεύσιμη[10]. 18

19 Από τη στιγμή λοιπόν που οι οντολογίες, ως εννοιολογικά μοντέλα, παρέχουν το αναγκαίο πλαίσιο για τη σημασιολογική αναπαράσταση των πληροφοριών κειμένου, μπορούν να χρησιμοποιηθούν για εφαρμογές Text Mining δίνοντας τη δυνατότητα σε χρήστες να βρουν τη σχετική ή τη νέα γνώση που αναζητούν. 1.6 Εφαρμογές Text Mining Πολλοί είναι οι τομείς στους οποίους μπορεί να βρει εφαρμογή το Text Mining. Για παράδειγμα στις επιχειρήσεις και συγκεκριμένα στον τομέα του Customer Relationship Management (CRM)[3]. Το Customer Relationship Management είναι ο τομέας εκείνος ο οποίος επικεντρώνεται στην επισήμανση και στην προσέλκυση των πελατών μιας επιχείρησης, μέσα από τη διαδικασία ανάπτυξης διαπροσωπικών σχέσεων μεταξύ επιχείρησης και καταναλωτών. Το Text Mining μπορεί να βοηθήσει την επιχείρηση κατά τη διαδικασία λήψης αποφάσεων για χάραξη μιας νέας στρατηγικής τόσο στην προσέλκυση νέων πελατών όσο και στην καλύτερη ικανοποίηση των ήδη υπαρχόντων. Για παράδειγμα, σε μία εταιρεία εμπορίας αυτοκινήτων και ανταλλακτικών με βάση τις εγγραφές του αρχείου τηλεφωνικών κλήσεων με τους πελάτες της και μέσω τεχνικών του Text Mining μπορούν να εξαχθούν συγκεντρωτικά αποτελέσματα, με βάση τα συναισθήματα των πελατών που εκφράζονται μέσω των τηλεφωνημάτων, δίνοντας με αυτό τον τρόπο τη δυνατότητα στην επιχείρηση να μπορεί να απαντήσει στα εξής ερωτήματα: Ποια είναι τα βασικά παράπονα των πελατών; Ποια προϊόντα έχουν τους περισσότερους και ποια τους λιγότερους ικανοποιημένους πελάτες; Ποια είναι η τάση στον αριθμό ικανοποιημένων και μη ικανοποιημένων πελατών στη περιοχή δράσης της επιχείρησης; Σήμερα, υπάρχει ραγδαία ανάπτυξη των μπλοκς και των μέσων κοινωνικής δικτύωσης. Ιστότοποι κοινωνικής δικτύωσης, όπως είναι το Facebook και το Twitter, δημιουργούν ευκαιρίες για τη δημιουργία αλληλεπίδρασης ανάμεσα στους 19

20 ανθρώπους, η οποία οδηγεί στην αμοιβαία μάθηση και την ανταλλαγή πολύτιμων γνώσεων και απόψεων. Γνώμες που δημιουργούνται σε διάφορα μπλοκς και σε διάφορους ιστότοπους κοινωνικής δικτύωσης αποτελούν πολύτιμη πηγή στις μέρες μας για εξόρυξη πληροφοριών που σχετίζονται με τα συναισθήματα των χρηστών, προκειμένου εν συνεχεία να χρησιμοποιηθούν για σκοπούς διαχείρισης πελατειακών σχέσεων ή ακόμα και παρακολούθησης της κοινής γνώμης[23]. Επιπλέον υπάρχει η δυνατότητα να συλλεχθούν διαφορετικές γνώμες χρηστών από διάφορους ιστότοπους κοινωνικής δικτύωσης με στόχο να αξιολογηθούν τα συναισθήματα των εν λόγω καταναλωτών απέναντι σε γνωστές φίρμες επιχειρήσεων (brands)[13]. Τα δεδομένα στις ιστοσελίδες κοινωνικής δικτύωσης είναι αδόμητα και ασαφούς χαρακτήρα. Στις καθημερινές, on line συνομιλίες οι άνθρωποι δεν νοιάζονται για τη σωστή ορθογραφική και σωστή γραμματική δομή μιας πρότασης που μπορεί να οδηγήσει σε διαφορετικούς τύπους ασαφειών, όπως λεξικές, συντακτικές και σημασιολογικές ασάφειες. Επομένως, το να αναλύσει κανείς και να εξαγάγει πρότυπα πληροφοριών (information patterns) από τέτοιου είδους σύνολα δεδομένων είναι αρκετά περίπλοκο. Αρκετές έρευνες έχουν διεξαχθεί προκειμένου να αναλύσουν τις διαφορετικές μεθόδους για την εξαγωγή των παραπάνω πληροφοριών. Η έρευνα [8] επιχειρεί να δώσει μια εμπεριστατωμένη κατανόηση των διαφορετικών τεχνικών εξόρυξης κειμένου καθώς και την εφαρμογή των τεχνικών αυτών στις ιστοσελίδες κοινωνικής δικτύωσης. Η έρευνα αυτή εξετάζει την πρόσφατη εξέλιξη στον τομέα ανάλυσης ευφυούς κειμένου (intelligent text analysis) και καλύπτει δύο βασικές προσεγγίσεις της εξόρυξης κειμένου, την ταξινόμηση και την ομαδοποίηση οι οποίες χρησιμοποιούνται ευρέως για την εξερεύνηση του μη δομημένου κείμενου, το οποίο είναι διαθέσιμο σε μεγάλης κλίμακας συστήματα, όπως είναι ο ιστότοπος κοινωνικής δικτύωσης (Social Web). Είναι γνωστό, πως τα μέσα κοινωνικής δικτύωσης έχουν πλέον υιοθετηθεί από πάρα πολλές επιχειρήσεις. Ολοένα και περισσότερο αυξάνεται ο αριθμός των επιχειρήσεων που χρησιμοποιούν το Facebook και το Twitter ως μέσα προβολής των διάφορων υπηρεσιών που προσφέρουν και ως μέσα αλληλεπίδρασης με τους πελάτες τους. Αποτέλεσμα αυτού είναι η δημιουργία μεγάλου όγκου πληροφορίας η οποία είναι οποιαδήποτε στιγμή διαθέσιμη στους ιστότοπους κοινωνικής δικτύωσης των επιχειρήσεων. Προκειμένου λοιπόν, οι επιχειρήσεις να αυξήσουν το ανταγωνιστικό τους πλεονέκτημα σε σχέση με τις υπόλοιπες επιχειρήσεις που δραστηριοποιούνται 20

21 στο ίδιο ανταγωνιστικό περιβάλλον και να αναπτύξουν την ανταγωνιστική τους στρατηγική στα μέσα κοινωνικής δικτύωσης, θα πρέπει να μπορούν να ελέγχουν και να αναλύουν όχι μόνο το περιεχόμενο των πληροφοριών (π.χ. tweets) που δημιουργούνται από τους πελάτες τους στους ιστότοπους κοινωνικής δικτύωσής τους, αλλά και το περιεχόμενο των πληροφοριών που υπάρχουν σε ιστότοπους κοινωνικής δικτύωσης των ανταγωνιστών τους. Σε μία προσπάθεια να κατανοήσουν οι επιχειρήσεις πώς να εκτελούν ανάλυση ανταγωνιστικότητας στα μέσα κοινωνικής δικτύωσης και πώς να γίνεται η σωστή συλλογή και ανάλυση δεδομένων από αυτά, τα οποία θα χρησιμοποιηθούν στη συνέχεια από αυτούς που λαμβάνουν αποφάσεις, η έρευνα [7] αναλύει σε βάθος ένα case study στο οποίο εφαρμόζεται η εξόρυξη γνώσης από μη δομημένου κείμενο (Text Mining) που προέρχεται από ιστοσελίδες όπως είναι το Facebook και το Twitter από τρεις μεγάλες αλυσίδες επιχειρήσεων που παρασκευάζουν πίτσα. Τα αποτελέσματα αυτής της έρευνας αποκαλύπτουν τη σημασία της ανάλυσης ανταγωνιστικότητας στα μέσα κοινωνικής δικτύωσης, καθώς και τη σημασία της εξόρυξης κειμένου (Text Mining) ως μία αποτελεσματική τεχνική που μπορεί να εξάγει επιχειρηματική αξία από τεράστιο πλήθος διαθέσιμων δεδομένων σε ιστότοπους κοινωνικής δικτύωσης. Η ποιοτική ανάλυση της ψυχολογίας και των συναισθημάτων των καταναλωτών στα μέσα κοινωνικής δικτύωσης, αλλά και οι καθημερινές online πληροφορίες μπορούν να προσδιορίσουν την προβλεψιμότητα των χρηματοπιστωτικών αγορών, δημιουργώντας κατά αυτό τον τρόπο τεράστια κέρδη για μία επιχείρηση. Η έρευνα [15] κάνει μία συστηματική ανασκόπηση σχετικών ερευνών με την προβλεψιμότητα της αγοράς που βασίζεται σε online εξόρυξη κειμένου (Online-Text-Mining), επιβεβαιώνοντας τη χρησιμότητα των τεχνικών εξόρυξης κειμένου. 21

22 ΚΕΦΑΛΑΙΟ 2: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ 2.1 Προεπεξεργασία Κειμένων (Text Pre-Processing) Η διαδικασία της προεπεξεργασίας κειμένων αποτελεί την πιο σημαντική διεργασία για ένα σύστημα εξόρυξης γνώσης-πληροφορίας. Σκοπός της διαδικασίας αυτής είναι η βελτίωση της αποτελεσματικότητας και της αποδοτικότητας της ανάκτησης πληροφορίας, καθώς και η προσπάθεια μείωσης του λεξιλογίου και συνεπώς του μεγέθους του ευρετηρίου ενός κειμένου. Το αποτέλεσμα της προεπεξεργασίας κειμένων είναι η εξαγωγή των χαρακτηριστικών όρων κάθε κειμένου (όροι δεικτοδότησης), οι οποίοι είναι κατάλληλοι για την αναπαράσταση του περιεχομένου κάθε κειμένου. Η προεπεξεργασία κειμένων αποτελείται από τα παρακάτω στάδια: Αφαίρεση της δομής κειμένων Στην περίπτωση που τα κείμενα είναι της μορφής HTML, PDF κτλ, επεξεργάζονται με τέτοιο τρόπο ώστε να αφαιρεθούν τα δομικά τους συστατικά, όπως για παράδειγμα είναι τα HTML tags και να εξαχθεί το απλό κείμενο (txt) που εμπεριέχεται στα αρχικά έγγραφα. Λημματοποίηση (Tokenization) Σε αυτό το στάδιο το κείμενο διαχωρίζεται σε λήμματα (tokens). Τα λήμματα μπορεί να είναι λέξεις, αριθμοί, σύμβολα ή σημεία στίξης. Επειδή οι αριθμοί, τα σύμβολα και τα σημεία στίξης δεν προσφέρουν καμία πληροφορία και δεν έχουν καμία σχέση με το εννοιολογικό περιεχόμενο του κειμένου μπορούν να αναγνωριστούν σε αυτό το σημείο και να αφαιρεθούν. Με αυτό τον τρόπο παραμένουν μόνο οι λέξεις του κειμένου. Αφαίρεση των stopwords Αρχικά πρέπει να επισημανθεί ότι ως stopword θεωρείται ένας όρος ο οποίος από τη μια έχει μεγάλη συχνότητα εμφάνισης μέσα στο κείμενο και από την άλλη δεν σχετίζεται με το περιεχόμενο του κειμένου. Για παράδειγμα ένας τέτοιος όρος μπορεί να είναι μία πρόθεση, ένα άρθρο ή ακόμη και ένας σύνδεσμος δύο προτάσεων. Αν οι όροι αυτοί συμπεριληφθούν στο ευρετήριο λειτουργούν συνήθως ως θόρυβος με 22

23 κίνδυνο τη μείωση της απόδοσης του συστήματος. Επομένως, με την αφαίρεση των stopwords μειώνεται το μέγεθος του ευρετηρίου. Μια διαδικασία αφαίρεσης των stopwords είναι να συγκρίνουμε κάθε όρο του κειμένου με μία ήδη υπάρχουσα λίστα γνωστών stopwords. Λεξικογραφική Ανάλυση (Pos Tagging) Κατά τη διαδικασία της λεξικογραφικής ανάλυσης αναγνωρίζεται τι μέρους του λόγου είναι η κάθε λέξη του κειμένου, δηλαδή ουσιαστικό, ρήμα, επίθετο κτλ. Υπάρχουν αρκετά προγράμματα τα οποία έχουν σχεδιαστεί προκειμένου να υλοποιούν την παραπάνω διαδικασία. Χαρακτηριστικό παράδειγμα αποτελεί το Genia Tagger[27]. Κατά την υλοποίηση της διαδικασίας αυτής γίνεται η επιλογή των όρων. Επισημαίνεται ότι επιλέγονται κυρίως τα ουσιαστικά διότι φέρουν τη πιο σημαντική πληροφορία των κειμένων. Αποκατάληξη (Stemming) Στόχος της διαδικασίας της αποκατάληξης είναι να αναγνωρισθούν οι ρίζες των λέξεων, ανεξάρτητα από τη πτώση ή το χρόνο στον οποίο βρίσκονται. Με αυτό τον τρόπο μειώνεται ακόμη περισσότερο το μέγεθος των όρων που τελικά θα χρησιμοποιηθούν για την αναπαράσταση των κειμένων. Για παράδειγμα οι λέξεις "argue", "argued", "argues", "arguing", και "argus" μπορούν να αναχθούν στην κοινή ρίζα "argu". Αυτό διευκολύνει επιπλέον την απόδοση των αλγόριθμων εξόρυξης γνώσης. Για τη διαδικασία της αποκατάληξης έχουν αναπτυχθεί επίσης αρκετοί αλγόριθμοι εκ των οποίων ο πιο δημοφιλέστερος από αυτούς είναι ο αλγόριθμος του Porter[28]. Τα παραπάνω βήματα της προεπεξεργασίας κειμένων απεικονίζονται στην παρακάτω εικόνα. 23

24 Εικόνα 1: Βήματα Προεπεξεργασίας Κειμένων 2.2 Αναπαράσταση Κειμένων Για να εφαρμοσθούν οι τεχνικές εξόρυξης κειμένων θα πρέπει τα κείμενα να αναπαρασταθούν σε μία μορφή που να είναι επεξεργάσιμη. Θα μπορούσαμε να πούμε ότι η πιο γνωστή μέθοδος αναπαράστασης κειμένων είναι η διανυσματική αναπαράσταση. Στην αναπαράσταση αυτή δημιουργείται ένας διανυσματικός χώρος, όπου κάθε κείμενο μπορεί να αναπαρασταθεί ως ένα διάνυσμα. Ο διανυσματικός αυτός χώρος αποτελείται από τόσες διαστάσεις όσοι είναι και οι μοναδικοί όροι των κειμένων. Αυτό προκύπτει από την ιδέα ότι το νόημα κάθε κειμένου μπορεί να εξαχθεί από τους όρους εκείνους που αντικατοπτρίζουν το σημασιολογικό του περιεχόμενο. Έτσι λοιπόν, στην διανυσματική αναπαράσταση κάθε κείμενο ως διάνυσμα αναπαρίσταται από ένα σύνολο όρων. Για το λόγο αυτό, προκειμένου να εντοπισθούν οι μοναδικοί εκείνοι όροι που αποτυπώνουν το νόημα του κειμένου, οι οποίοι στη συνέχεια θα αποτελέσουν τις διαστάσεις του διανυσματικού χώρου, η προεπεξεργασία κειμένων προηγείται της αναπαράστασης. Υπάρχουν δύο βασικοί τρόποι που χρησιμοποιούνται για τη διανυσματική αναπαράσταση κειμένων. 24

25 Boolean Model Σε ένα Boolean διανυσματικό μοντέλο η κάθε διάσταση του διανυσματικού χώρου μπορεί να πάρει τη τιμή 1 ή τη τιμή 0. Όπως προαναφέραμε κάθε όρος ενός κειμένου αντιστοιχεί σε μία διάσταση. Επομένως, η τιμή 1 σε μία διάσταση σημαίνει ότι ο όρος εκείνος εμφανίζεται στο κείμενο, ενώ η τιμή 0 σημαίνει ότι ο όρος αυτός δεν υπάρχει στο κείμενο. Term Weight Model Σε ένα Term Weight διανυσματικό μοντέλο σημαντικό ρόλο παίζει η συχνότητα εμφάνισης των όρων στα κείμενα. Αυτό σημαίνει ότι σε κάθε διάσταση του διανυσματικού χώρου αντιστοιχεί μία τιμή, η οποία υποδηλώνει τη συχνότητα εμφάνισης του εκάστοτε όρου στο κείμενο. Μία αρκετά παρόμοια μέθοδος αυτού του τύπου είναι το Term Frequency Inverse Document Frequency Weighting (TF IDF) Συχνότητα Όρου Αντίστροφη Συχνότητα Κειμένου (TF IDF) Όπως αναφέραμε και στην προηγούμενη ενότητα κάθε κείμενο αναπαρίσταται υπό τη μορφή διανύσματος σε ένα πολυδιάστατο χώρο, όπου κάθε διάστασή του αντιπροσωπεύει ένα μοναδικό όρο μιας συλλογής κειμένων. Επίσης, σε κάθε διάσταση αντιστοιχεί ένας πραγματικός αριθμός ο οποίος εξαρτάται από τη συχνότητα εμφάνισης του εκάστοτε όρου κάθε φορά στο κείμενο. Η μέθοδος TF- IDF στοχεύει στο να σταθμίσει όλους τους όρους μιας συλλογής κειμένων. Με λίγα λόγια δηλαδή, στόχος της είναι να αποδώσει το αντίστοιχο βάρος σε κάθε όρο και κατά επέκταση σε κάθε διάσταση του πολυδιάστατου αυτού χώρου. Αυτό συμβαίνει γιατί η απλή αρίθμηση ενός όρου σε ένα κείμενο δεν αρκεί για να μας πληροφορήσει για τη σημαντικότητα του όρου αυτού και τη βαρύτητα της πληροφορίας που περιέχει. Η μέθοδος αυτή αποτελείται από τις ποσότητες TF και IDF. Η ποσότητα TF (συχνότητα όρου) υποδηλώνει το πόσες φορές εμφανίζεται ένας όρος σε ένα κείμενο. Από την άλλη η ποσότητα IDF υποδηλώνει το πόσο ένας όρος είναι διαδεδομένος σε ένα κείμενο αλλά και σε ολόκληρη τη συλλογή κειμένων. Επίσης, η ποσότητα IDF 25

26 υπολογίζεται από το λογάριθμο του πηλίκου όλων των κειμένων προς τα κείμενα που περιέχουν τον όρο[29]. Όπου ο συνολικός αριθμός κειμένων και ο αριθμός των εγγράφων στα οποία εμφανίζεται ο όρος t. Τελικά, το βάρος ενός όρου προκύπτει από τον πολλαπλασιασμό των ποσοτήτων TF και IDF όπως ακριβώς αποτυπώνεται από τον παρακάτω τύπο. Στόχος της μεθόδου αυτής μέσω του βάρους TF IDF είναι η επιλογή εκείνων των όρων που αποτυπώνουν καλύτερα το περιεχόμενο ενός κειμένου. Για τον προσδιορισμό του βάρους ενός όρου είναι εξίσου σημαντικές και οι δύο ποσότητες TF και IDF όπως προκύπτει από την παραπάνω εξίσωση. Αυτό επισημαίνεται διότι αν χρησιμοποιούσαμε μόνο τη συχνότητα εμφάνισης ενός όρου (TF) ως βάρος αυτό θα είχε ως συνέπεια οι συχνότερα εμφανιζόμενοι όροι να θεωρούνται ως οι πιο σημαντικοί. Αυτή η υπόθεση θα μπορούσε να μας οδηγήσει σε λανθασμένη επιλογή όρων οι οποίοι εμφανίζονται σε πολλά κείμενα και δεν προσφέρουν κάποια ιδιαίτερη πληροφορία σε ένα κείμενο. Για παράδειγμα, η λέξη «εξόρυξη» σε μία συλλογή κειμένων με θέμα «Τεχνικές Εξόρυξης Κειμένων» θα εμφανίζεται με μεγάλη συχνότητα σε όλα τα κείμενα της συλλογής. Επομένως, μέσα από αυτό το παράδειγμα καταλαβαίνουμε πως ένας τέτοιος όρος παρότι θα μπορούσε από τη μία να εμφανίζεται αρκετές φορές σε ένα κείμενο, από την άλλη δεν θα μπορούσε να θεωρηθεί ως ένας σημαντικός όρος γιατί δεν προσφέρει ένα ιδιαίτερο χαρακτηριστικό στο κείμενο σε σχέση με τα υπόλοιπα κείμενα της συλλογής. Εδώ λοιπόν, καταλαβαίνουμε τη σημαντικότητα της ποσότητας IDF στον υπολογισμό του βάρους ενός όρου. Σύμφωνα με τον παραπάνω τύπο υπολογισμού της ποσότητας IDF όταν ένας όρος εμφανίζεται σε πολλά κείμενα της συλλογής η τιμή της ποσότητας IDF 26

27 είναι μικρή, ενώ όταν ένας όρος εμφανίζεται σε λίγα κείμενα της συλλογής η τιμή της ποσότητας IDF είναι μεγάλη. Επομένως, μεγάλο βάρος (TF*IDF) για έναν όρο προκύπτει όταν ο όρος αυτός εμφανίζεται πολλές φορές σε ένα κείμενο και λιγότερες φορές στο σύνολο των κειμένων. 2.3 Μοντέλο Διανυσματικού Χώρου (Vector Space Model) Ο πιο δημοφιλής τρόπος αντιπροσώπευσης ενός κειμένου είναι η εφαρμογή του μοντέλου διανυσματικού χώρου. Σύμφωνα με το μοντέλο αυτό, κάθε κείμενο μιας συλλογής κειμένων αλλά και κάθε ερώτημα που μπορεί να θέσει ο χρήστης μπορεί να αναπαρασταθεί ως ένα διάνυσμα σε ένα πολυδιάστατο χώρο. Για παράδειγμα ένα κείμενο ως διάνυσμα μπορεί να πάρει την εξής μορφή[29]: Όπου είναι ο αριθμός των μοναδικών όρων της συλλογής κειμένων και κατά επέκταση ο αριθμός των διαστάσεων του πολυδιάστατου αυτού χώρου. Επίσης, το υποδηλώνει το βάρος του όρου t στο κείμενο j δείχνοντας παράλληλα το πόσο σημαντικός είναι ο όρος αυτός στο κείμενο j. Όπως έχει ήδη προαναφερθεί η προεπεξεργασία κειμένων προηγείται της αναπαράστασης προκειμένου να εξαχθούν οι όροι που χαρακτηρίζουν ένα κείμενο, να δημιουργηθεί δηλαδή το λεγόμενο ευρετήριο κειμένου. Στη συνέχεια, σε κάθε όρο ανατίθεται ένα βάρος ανάλογα με τη σημαντικότητά του στο κείμενο. Σε ότι αφορά την ανάθεση βάρους σε έναν όρο υπάρχουν διάφοροι μέθοδοι. Με βάση την απλή συχνότητα (TF Term Frequency) το βάρος σε κάθε όρο σε ένα κείμενο υπολογίζεται ανάλογα με το πόσες φορές ο όρος εμφανίζεται στο κείμενο αυτό. Αυτό σημαίνει ότι όσες πιο πολλές φορές εμφανίζεται ένας όρος σε ένα κείμενο τόσο πιο σημαντικός θεωρείται για το κείμενο αυτό. Από την άλλη μεριά στη δυαδική ανάθεση 27

28 βάρους, το βάρος ενός όρου μπορεί να είναι είτε μηδέν (0), είτε ένα (1). Αυτό σημαίνει ότι το βάρος ενός όρου θα είναι ένα (1) όταν ο όρος αυτός εμφανίζεται στο κείμενο και μηδέν (0) όταν ο όρος αυτός δεν εμφανίζεται στο κείμενο. Παρόλα αυτά, όπως αναλύθηκε στην προηγούμενη ενότητα η πιο γνωστή μέθοδος ανάθεσης βάρους είναι η μέθοδος TF IDF, σύμφωνα με την οποία το βάρος ενός όρου προκύπτει από τον πολλαπλασιασμό της συχνότητας εμφάνισης ενός όρου στο κείμενο (TF) και της αντίστροφης συχνότητας του όρου αυτού στα κείμενα της συλλογής (IDF). Αυτό σημαίνει ότι ένας όρος έχει μεγάλο βάρος όταν εμφανίζεται πολλές φορές σε ένα κείμενο και λιγότερες φορές στα υπόλοιπα κείμενα της συλλογής. Επίσης, σε κάθε διάσταση του χώρου αντιστοιχεί ένας πραγματικός αριθμός που δεν είναι τίποτα άλλο από το βάρος του αντίστοιχου όρου. Στη συνέχεια μετά την ανάθεση βαρών στους όρους και την απεικόνιση κάθε ερωτήματος που έχει θέσει ο χρήστης και κάθε κειμένου της συλλογής σε διανύσματα ακολουθεί ο υπολογισμός της ομοιότητας μεταξύ των κειμένων ή μεταξύ του ερωτήματος και των κειμένων. Από τη στιγμή που έχουμε να κάνουμε με διανύσματα η πιο δημοφιλής μέθοδος για να υπολογίσουμε την ομοιότητα είναι να βρούμε το συνημίτονο της εσωτερικής γωνίας, δηλαδή της γωνίας που εμπεριέχεται μεταξύ δύο διανυσμάτων όπως φαίνεται στην παρακάτω εικόνα. Η μέθοδος αυτή είναι γνωστή ως ομοιότητα συνημίτονου. Εικόνα 2: Εμπεριεχόμενη Γωνία Δύο Διανυσμάτων 28

29 Επίσης, το συνημίτονο της εμπεριεχόμενης γωνίας δύο διανυσμάτων δίνεται από τον παρακάτω τύπο: Σύμφωνα με τον παραπάνω τύπο συμπεραίνουμε πως από τη στιγμή που η κάθε διάσταση που αντιπροσωπεύει έναν όρο με τη βαρύτητά του στο κείμενο έχει θετική τιμή η ομοιότητα συνημίτονου είναι θετικός αριθμός και παίρνει τιμή στο διάστημα [0,1]. Επίσης όσο το συνημίτονο της εμπεριεχόμενης γωνίας δύο διανυσμάτων τείνει προς τη μονάδα, τόσο περισσότερο η εμπεριεχόμενη γωνία των δύο διανυσμάτων τείνει προς το μηδέν με συνέπεια τόσο περισσότερο τα δύο διανύσματα να γίνονται παράλληλα και να ταυτίζονται μεταξύ τους. Κατά επέκταση τόσο περισσότερο σε αυτή την περίπτωση τα κείμενα τείνουν να είναι όμοια μεταξύ τους. Επομένως, από τη στιγμή που μπορεί να υπολογισθεί ο βαθμός ομοιότητας μεταξύ των κειμένων, το μοντέλο διανυσματικού χώρου κατατάσσει τα κείμενα με βάση το βαθμό ομοιότητάς τους. Αυτό δίνει τη δυνατότητα στο χρήστη να εντοπίζει με ευκολία ποια κείμενα προσεγγίζουν την ίδια θεματική ενότητα ή ποια κείμενα ταιριάζουν καλύτερα με το ερώτημα που έχει θέσει. Τα πλεονεκτήματα του Μοντέλου Διανυσματικού Χώρου είναι τα εξής[29]: Πρόκειται για ένα απλό μοντέλο που βασίζεται στη γραμμική άλγεβρα. Παρέχει τη δυνατότητα μερικού ταιριάσματος. Παρέχει τη δυνατότητα υπολογισμού του βαθμού ομοιότητας μεταξύ ερωτημάτων και κειμένων. Παρέχει τη δυνατότητα κατάταξης των κειμένων ανάλογα με τη σχετικότητά τους. 29

30 ΚΕΦΑΛΑΙΟ 3: ΟΜΑΔΟΠΟΙΗΣΗ 3.1 Εισαγωγή Η Ομαδοποίηση (Clustering) είναι μία από τις θεμελιώδεις τεχνικές εξόρυξης γνώσης για τον διαχωρισμό ενός μεγάλου συνόλου αντικειμένων σε ομογενείς ομάδες (clusters). Η τεχνική ομαδοποίησης χωρίζει πρακτικά ένα σύνολο δεδομένων εγγράφων σε ομάδες, έτσι ώστε τα δεδομένα έγγραφα που βρίσκονται στην ίδια ομάδα να έχουν περισσότερες ομοιότητες μεταξύ τους, με βάση ορισμένα προκαθορισμένα κριτήρια, από τα δεδομένα έγγραφα άλλων ομάδων[1]. Για παράδειγμα, μέσω της τεχνικής αυτής θα μπορούσαμε να ομαδοποιήσουμε τους χρήστες ενός καταστήματος ηλεκτρονικών ειδών με βάση τις αγοραστικές τους προτιμήσεις και να κατατάξουμε σε μία ομάδα όλους εκείνους που έχουν τις ίδιες αγοραστικές συνήθειες. Συνεπώς, η διαδικασία της ομαδοποίησης στοχεύει στην οργάνωση των δεδομένων σε λογικές ομάδες, έτσι ώστε να βρούμε τις ομοιότητες και τις διαφορές μεταξύ των δεδομένων αποκομίζοντας ταυτόχρονα χρήσιμες πληροφορίες για αυτά. Εικόνα 3: Ομαδοποίηση Επίσης, στη διαδικασία της ομαδοποίησης τα δεδομένα δεν είναι προταξινομημένα, δηλαδή δεν υπάρχουν προκαθορισμένες κατηγορίες ούτε κάποια άλλη πληροφορία 30

31 για τη σχέση μεταξύ των δεδομένων όπως συμβαίνει στη διαδικασία της κατηγοριοποίησης κατά την οποία ένα σύνολο δεδομένων ταξινομείται με βάση ενός συνόλου προκαθορισμένων κατηγοριών. Η τεχνική ομαδοποίησης αποσκοπεί σε δύο γενικούς βασικούς σκοπούς: Συμπίεση των αντικειμένων: Η τεχνική ομαδοποίησης δημιουργεί ομάδες δεδομένων. Μετά την ολοκλήρωση της διαδικασίας της ομαδοποίησης, η συμπίεση των δεδομένων επιτυγχάνεται ουσιαστικά αποθηκεύοντας τα χαρακτηριστικά των ομάδων που έχουν δημιουργηθεί και όχι ολόκληρου του συνόλου των δεδομένων. Απόκτηση νέας γνώσης: Η τεχνική ομαδοποίησης συμβάλει σημαντικά στην ερμηνεία των δεδομένων και αποδίδει σημαντικές και νέες πληροφορίες σχετικά με τα χαρακτηριστικά τους. 3.2 Βήματα Διαδικασίας Ομαδοποίησης Η διαδικασία της Ομαδοποίησης ακολουθεί τα παρακάτω βασικά βήματα[29], όπως αυτά απεικονίζονται στην Εικόνα 4 που ακολουθεί. Εικόνα 4: Βήματα Διαδικασίας Ομαδοποίησης 31

32 Επιλογή χαρακτηριστικών γνωρισμάτων. Ο στόχος σε αυτό το βήμα είναι η επιλογή των κατάλληλων γνωρισμάτων στα οποία πρόκειται να εφαρμοστεί η τεχνική ομαδοποίησης ώστε σε κάθε ομάδα να επιτυγχάνεται η βέλτιστη ομοιογένεια. Αξίζει να σημειωθεί πως η προεπεξεργασία των δεδομένων κρίνεται απαραίτητη σε αυτό το βήμα προκειμένου τα δεδομένα να είναι σε κατάλληλη μορφή επεξεργασίας. Αλγόριθμοι ομαδοποίησης. Σε αυτό το στάδιο γίνεται η επιλογή ενός αλγορίθμου ομαδοποίησης για ένα σύνολο δεδομένων. Η επιλογή του αλγορίθμου εξαρτάται από τα δεδομένα που πρόκειται να ομαδοποιηθούν. Το μέτρο γειτνίασης και το κριτήριο ομαδοποίησης είναι αυτά τα οποία χαρακτηρίζουν έναν αλγόριθμο ομαδοποίησης. 1. Το μέτρο γειτνίασης αναφέρεται στην ομοιότητα μεταξύ των δεδομένων. 2. Το κριτήριο ομαδοποίησης εκφράζεται μέσω μιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Για να επιτευχθεί μία επιτυχημένη ομαδοποίηση θα πρέπει το κριτήριο αυτό να καθοριστεί με τέτοιο τρόπο ώστε να ταιριάζει με το σύνολο των δεδομένων που πρόκειται να ομαδοποιηθούν. Επικύρωση αποτελεσμάτων. Σε αυτό το βήμα αξιολογείται η ακρίβεια των αποτελεσμάτων του αλγορίθμου ομαδοποίησης χρησιμοποιώντας κατάλληλα κριτήρια ορθότητας ομαδοποίησης και τεχνικές. Πρόκειται για ένα σημαντικότατο βήμα στη διαδικασία της ομαδοποίησης γιατί οι ομάδες που παράγονται από έναν αλγόριθμο ομαδοποίησης δεν είναι εκ των προτέρων γνωστές. Επίσης, η ποιότητα της ομαδοποίησης εξαρτάται από την ομοιότητα των δεδομένων εντός της ομάδας. Όσο μεγαλύτερη είναι η ομοιότητα εντός της ομάδας και μικρότερη μεταξύ των ομάδων, τόσο καλύτερη είναι ποιότητα της ομαδοποίησης. Ερμηνεία των αποτελεσμάτων. Αποτελεί το τελευταίο στάδιο της διαδικασίας της ομαδοποίησης, όπου τα αποτελέσματα αυτής θα πρέπει να 32

33 συνδυαστούν με άλλα πειραματικά στοιχεία και αποτελέσματα προηγούμενων αναλύσεων, με σκοπό την εξαγωγή του καλύτερου και εγκυρότερου αποτέλεσματος. 3.3 Εφαρμογές Ομαδοποίησης Η ομαδοποίηση έχει πολλές εφαρμογές σε επιστήμες όπως στη ψυχολογία για την κατάταξη των ατόμων σε κατηγορίες προσωπικοτήτων, στη βιολογία για την εξαγωγή ιεραρχιών των οργανισμών του φυτικού βασιλείου ή για τον προσδιορισμό γονιδίων με παρόμοια λειτουργία, στην αστρονομία για την κατηγοριοποίηση των ουράνιων σωμάτων, αλλά και σε πολλούς τομείς της πληροφορικής όπως η αναγνώριση προτύπων, η εξόρυξη γνώσης, η τεχνητή νοημοσύνη και η μηχανική μάθηση. Επίσης, η ομαδοποίηση έχει σημαντική εφαρμογή και στον τομέα της διοίκησης επιχειρήσεων. Για παράδειγμα, οι επιχειρήσεις μπορούν να ομαδοποιούν τους πελάτες τους σε συγκεκριμένες ομάδες. Στη συνέχεια με βάση τις ομάδες αυτές μια επιχείρηση μπορεί αξιολογήσει ένα νέο πελάτη σε ποια ομάδα ανήκει ή ακόμα να προσδιορίσει τους πελάτες εκείνους οι οποίοι έχουν μεγάλη αγοραστική δύναμη και αποφέρουν μεγάλα κέρδη στην επιχείρηση. Αυτό δίνει τη δυνατότητα πολλές φορές στην επιχείρηση να προσανατολίζει τη στρατηγική της ως προς την εξυπηρέτηση ορισμένων ομάδων. 3.4 Ιεραρχικοί Αλγόριθμοι Ομαδοποίησης Οι Ιεραρχικοί Αλγόριθμοι Ομαδοποίησης (Hierarchical Clustering) είναι μία από τις πιο γνωστές μεθόδους ομαδοποίησης δεδομένων. Στην κατηγορία αυτή ανήκουν οι αλγόριθμοι που δημιουργούν ιεραρχικές δομές ομάδων (dendrograms). Οι Ιεραρχικοί Αλγόριθμοι Ομαδοποίησης εκτελούν μια σειρά από συγχωνεύσεις ή διαιρέσεις των δεδομένων προκειμένου να πετύχουν την επιθυμητή ομαδοποίηση. Η διαδικασία αυτή μπορεί να αναπαρασταθεί ως ένα δένδρο σε ένα δισδιάστατο διάγραμμα το οποίο είναι γνωστό ως δενδροδιάγραμμα. Στο διάγραμμα αυτό όταν ένα ζεύγος δεδομένων συγχωνευτεί αναπαρίσταται ως ένας κλάδος στο δένδρο. Από την άλλη πλευρά όταν μία ομάδα διαιρεθεί αναπαρίσταται ως δύο κλάδοι οι οποίοι εκπορεύονται από τον κόμβο που παρίστανε την ομάδα ολόκληρη. Το 33

34 δενδροδιάγραμμα της Εικόνας 5 παρουσιάζει τη διαδικασία συγχώνευσης έξι δεδομένων σε μία τελική ομάδα. Εικόνα 5: Δενδροδιάγραμμα Ιεραρχικού Αλγόριθμου Οι Ιεραρχικοί Αλγόριθμοι μπορούν να χωρισθούν σε δύο κατηγορίες: τους συσσωρευτικούς (agglomerative) και τους διαιρετικούς (divisive) αλγόριθμους. Η διαφορά ανάμεσα σε αυτούς τους δύο τύπους αλγορίθμων, όπως υποδηλώνει και το όνομά τους, είναι ο τρόπος κατασκευής της δομής του δενδροδιαγράμματος. Συσσωρευτικοί Ιεραρχικοί Αλγόριθμοι (Agglomerative) Στην περίπτωση των Συσσωρευτικών Ιεραρχικών Αλγορίθμων η δομή του δενδροδιαγράμματος κατασκευάζεται από κάτω προς τα πάνω, ξεκινώντας από N διακριτές ομάδες, όσα είναι και τα δεδομένα εισόδου. Παράγεται δηλαδή, μία ακολουθία σχημάτων ομαδοποίησης φθίνοντος αριθμού ομάδων σε κάθε βήμα. Επομένως, σε κάθε βήμα παράγεται ένα σχήμα ομαδοποίησης το οποίο προκύπτει από το προηγούμενο με τη συγχώνευση του ζεύγους των πιο κοντινών ομάδων ή του ζεύγους ομάδων με τη μεγαλύτερη ομοιότητα, καταλήγοντας τελικά σε μία ομάδα που περιέχει όλα τα δεδομένα. 34

35 Αντιπροσωπευτικός αλγόριθμος της κατηγορίας των συσσωρευτικών αλγορίθμων είναι ο αλγόριθμος Ward[19]. Στην παρακάτω εικόνα απεικονίζεται η διαδικασία ομαδοποίησης του συσσωρευτικού ιεραρχικού αλγόριθμου. Εικόνα 6: Συσσωρευτικός Ιεραρχικός Αλγόριθμος Διαδικασία Ομαδοποίησης Διαιρετικοί Ιεραρχικοί Αλγόριθμοι (Divisive) Στην περίπτωση αυτή των Διαιρετικών Ιεραρχικών Αλγορίθμων η ιεραρχική δομή κατασκευάζεται από πάνω προς τα κάτω, ξεκινώντας από την πλήρη ομάδα σύνολο των δεδομένων εισόδου. Σε αντίθεση με τους συσσωρευτικούς αλγόριθμους η ακολουθία σχημάτων ομαδοποίησης είναι αύξοντος αριθμού σε κάθε βήμα. Η ομαδοποίηση δηλαδή που παράγεται σε κάθε βήμα προκύπτει από το προηγούμενο με το διαχωρισμό μιας μεγαλύτερης ομάδας σε μικρότερες. Στόχος είναι να καταλήξουμε σε ένα σύνολο ομάδων όπου η κάθε μία θα αποτελείται από ένα μόνο δεδομένο. Αντιπροσωπευτικός αλγόριθμος της κατηγορίας των διαιρετικών αλγορίθμων είναι ο Αλγόριθμος Διαχωρισμού με Βάση τους Κύριους Άξονες (Principal Direction Divisive Partitioning PDDP)[5, 6]. 35

36 Στην παρακάτω εικόνα απεικονίζεται η διαδικασία ομαδοποίησης του διαιρετικού ιεραρχικού αλγόριθμου. Εικόνα 7: Διαιρετικός Ιεραρχικός Αλγόριθμος Διαδικασία Ομαδοποίησης 3.5 Διαχωριστικοί Αλγόριθμοι Ομαδοποίησης Στην κατηγορία αυτή ανήκουν οι αλγόριθμοι εκείνοι που παράγουν επίπεδες διαχωρίσεις των δεδομένων εισόδου. Βασικό σημείο διάκρισης των διαφόρων αλγορίθμων της κατηγορίας αυτής είναι ο τρόπος αναπαράστασης της κάθε ομάδας. Κάθε ομάδα αναπαρίσταται σαν ένα επίπεδο του m διάστατου χώρου, όπου στην πιο απλή περίπτωση, το επίπεδο αυτό αντιστοιχεί σε ένα και μόνο σημείο του χώρου που αντιπροσωπεύει το κέντρο της ομάδας. Οι αλγόριθμοι της οικογένειας αυτής ξεχωρίζουν με βάση τη μετρική ομοιότητας που χρησιμοποιούν για τη δημιουργία των ομάδων. Χαρακτηριστικός είναι ο αλγόριθμος K Means, ο οποίος χρησιμοποιεί τη μετρική της Ευκλείδειας απόστασης και μία από τις κυριότερες παραλλαγές του ο Spherical K Means, ο οποίος χρησιμοποιεί την μετρική του συνημίτονου της γωνίας μεταξύ των διανυσμάτων που κανονικοποιούνται στην είσοδό του, για τον προσδιορισμό των ομάδων. Οι αλγόριθμοι της κατηγορίας αυτής έχουν την ίδια δομή, καθώς στηρίζονται σε ένα επαναληπτικό σχήμα, το οποίο ξεκινά από έναν αρχικό διαμερισμό του χώρου. Συνήθως ο διαχωρισμός αυτός γίνεται με τυχαίο τρόπο. Μετέπειτα, σε κάθε βήμα αρχικά, κάθε σημείο των δεδομένων εισόδου τοποθετείται σε μία ομάδα και στη 36

37 συνέχεια ανανεώνεται το επίπεδο της κάθε ομάδας με βάση τα στοιχεία που έχουν τοποθετηθεί σε αυτή. Θα πρέπει όμως να επισημανθεί, ότι βασικό μειονέκτημα των αλγορίθμων της κατηγορίας αυτής είναι ότι τα αποτελέσματά τους εξαρτώνται σε μεγάλο βαθμό από τον τρόπο που αρχικοποιούνται οι ομάδες. 3.6 Αλγόριθμος K Means Ο Αλγόριθμος K Means αποτελεί έναν από αυτής βασικότερους αλγόριθμους ομαδοποίησης, ο οποίος ανήκει παράλληλα στην κατηγορία αυτής διαχωριστικής ομαδοποίησης. Οι περισσότεροι αλγόριθμοι ομαδοποίησης βασίζονται στην ιδέα του K Means. Υπάρχουν πάρα πολλά εμπορικά συστήματα εξόρυξης γνώσης και συστήματα στατιστικής ανάλυσης τα οποία χρησιμοποιούν τον συγκεκριμένο αλγόριθμο. Ο αλγόριθμος ξεκινά διαχωρίζοντας το σύνολο των δεδομένων σε k ομάδες (clusters), όπου το k καθορίζεται από το χρήστη. Αρχικοποιεί δηλαδή με τυχαίο τρόπο τα κέντρα των ομάδων. Γενικά, ο συγκεκριμένος αλγόριθμος βασίζεται σε κάποια πρότυπα (means) κάθε ομάδας. Κάθε ομάδα που θα δημιουργηθεί θα περιέχει ένα πρότυπο το οποίο στην ουσία αντιπροσωπεύει την ομάδα, διότι αποτελεί μία μέση περιγραφή αυτής ομάδας. Η τυπική αυτή μέση περιγραφή αποτελεί και το κέντρο βάρους μιας ομάδας. Εν συνεχεία, μέσω διαδοχικών επαναλήψεων κατατάσσει τα δεδομένα σε κάποια ομάδα με βάση την ομοιότητα που παρουσιάζουν με το κέντρο αυτής αυτής ομάδας. Η έννοια ομοιότητα αναφέρεται στο γεγονός ότι κάθε αντικείμενο του συνόλου δεδομένων εντάσσεται σε εκείνη την ομάδα (cluster) αυτής οποίας το κέντρο σε σχέση με τα κέντρα των υπόλοιπων ομάδων βρίσκεται πιο κοντά σε αυτό. Αυτής, υπάρχει μία αντικειμενική συνάρτηση που χαρακτηρίζει τον συγκεκριμένο αλγόριθμο. Στόχος του αλγορίθμου είναι να ελαχιστοποιήσει την συνάρτηση αυτή. Η αντικειμενική αυτή συνάρτηση αυτής φαίνεται και από την παρακάτω σχέση αποτελεί τη μέση τετραγωνική απόσταση των δεδομένων από τα κέντρα των ομάδων (clusters). 37

38 Όπου μ i είναι το κέντρο αυτής ομάδας S i και μεταξύ του δεδομένου x και του κέντρου μ i αυτής εκάστοτε ομάδας. είναι η Ευκλείδεια απόσταση Βήματα Αλγορίθμου K Means Τα βασικά βήματα του αλγορίθμου K Means είναι τα εξής: 1. Σαν πρώτο βήμα επιλέγονται τα κέντρα εκείνα στα οποία θα γίνει η αρχική κατάταξη των δεδομένων σε ομάδες. Η επιλογή των κέντρων αυτών είναι τυχαία. Με αυτό τον τρόπο κάθε ομάδα αντιπροσωπεύεται από ένα από τα k κέντρα. 2. Εν συνεχεία, για κάθε δεδομένο υπολογίζεται η ομοιότητα που παρουσιάζει με το πρότυπο κάθε ομάδας. Θεωρώντας λοιπόν, την Ευκλείδεια απόσταση σαν μέτρο ομοιότητας, υπολογίζεται ουσιαστικά στο βήμα αυτό η απόσταση του σημείου που αντιστοιχεί σε κάθε δεδομένο από κάθε σημείο που αντιστοιχεί σε ένα κέντρο μιας ομάδας. 3. Από τη στιγμή που έχει προσδιορισθεί η ομοιότητα κάθε δεδομένου σε σχέση με καθένα από τα k πρότυπα, δηλαδή από τη στιγμή που έχει καθοριστεί η απόσταση κάθε δεδομένου από κάθε k κέντρο κάθε μιας ομάδας, το κάθε δεδομένο εντάσσεται στην ομάδα αυτή αυτής οποίας το κέντρο απέχει λιγότερο από το σημείο που αντιστοιχεί στο δεδομένο αυτό. 4. Αφού τελειώσει η κατάταξη των δεδομένων αυτής ομάδες, για κάθε μία από αυτές επαναπροσδιορίζεται το κέντρο αυτής. Υπολογίζονται δηλαδή τα νέα κέντρα των ομάδων. Αυτό γίνεται διότι μετά την ένταξη των δεδομένων σε ομάδες, υπάρχει πιθανότητα αυτές να έχουν διαφορετική σύσταση και το προηγούμενο κέντρο να μην μπορεί να αυτής αντιπροσωπεύσει πλήρως. 38

39 Μέσω αυτής διαδικασίας αυτής ελαχιστοποιείται η εσωτερική ανομοιομορφία των ομάδων. 5. Αφού έχουν προσδιορισθεί τα νέα κέντρα των ομάδων επαναλαμβάνεται και πάλι η διαδικασία του βήματος 2. Υπολογίζεται δηλαδή εκ νέου η απόσταση του σημείου που αντιστοιχεί σε κάθε δεδομένο από κάθε σημείο που αντιστοιχεί πλέον σε ένα νέο κέντρο μιας ομάδας. Τα παραπάνω βήματα επαναλαμβάνονται μέχρι να διαπιστωθεί ότι η σύσταση των ομάδων δεν έχει αλλάξει σημαντικά από την προηγούμενη επανάληψη Χαρακτηριστικά Αλγορίθμου K Means Έχει αποφανθεί, ότι ο αλγόριθμος K Means έχει τα παρακάτω χαρακτηριστικά[1]: Εμφανίζει ικανοποιητική απόδοση όταν εφαρμόζεται σε μεγάλα σύνολα δεδομένων. Συνήθως, η πολυπλοκότητα που παρουσιάζει εξαρτάται από τον αριθμό των δεδομένων που θέλουμε να ομαδοποιήσουμε και από τον αριθμό των επαναλήψεων που θα πραγματοποιηθούν προκειμένου καταλήξουμε στη βέλτιστη ελαχιστοποίηση της αντικειμενικής συνάρτησης. Η εφαρμογή του γίνεται μόνο σε αριθμητικές τιμές. Αυτό συμβαίνει διότι η αντικειμενική συνάρτηση που τον περιγράφει βασίζεται στο κέντρο βάρους των ομάδων. Υπάρχει πιθανότητα ο αλγόριθμος να μην καταλήξει στη βέλτιστη ελαχιστοποίηση της αντικειμενικής συνάρτησης. Στόχος του αλγορίθμου είναι ο εντοπισμός του ολικού ελαχίστου της αντικειμενικής συνάρτησης. Παρόλα αυτά, υπάρχει περίπτωση ο αλγόριθμος να εντοπίσει ένα τοπικό ελάχιστο που αντιστοιχεί σε ένα υποσύνολο δεδομένων. Αυτό σημαίνει ότι ο συγκεκριμένος αλγόριθμος δεν είναι σε θέση να ξεχωρίζει την εύρεση του ολικού ή του τοπικού ελαχίστου, με αποτέλεσμα (στην περίπτωση του τοπικού ελαχίστου) να σταματά τις επαναλήψεις πριν την ελαχιστοποίηση της αντικειμενικής συνάρτησης. 39

40 Βασικό χαρακτηριστικό του αλγορίθμου είναι ο προσδιορισμός των αρχικών κέντρων των ομάδων. Τα αρχικά κέντρα των ομάδων διαδραματίζουν σημαντικό ρόλο καθώς επηρεάζουν τη σύγκλιση του αλγορίθμου σε τοπικό ή σε ολικό ελάχιστο. Αξιοσημείωτο είναι επίσης το γεγονός ότι μία από τις κύριες παραμέτρους επιτυχίας του αλγορίθμου K Means είναι ο προσδιορισμός του αριθμού των ομάδων. Συχνά, για το καθορισμό του βέλτιστου αριθμού των ομάδων κρίνεται απαραίτητη η εκτέλεση του αλγορίθμου για διαφορετικό κάθε φορά αριθμό ομάδων. Μετά από κάθε επανάληψη αναλύονται τα αποτελέσματα της διαδικασίας προκειμένου να εντοπισθεί ο καλύτερος διαχωρισμός ομάδων. Με αυτό τον τρόπο ουσιαστικά καθορίζεται έμμεσα η καλύτερη επιλογή αριθμού ομάδων. 3.7 Αλγόριθμος Spherical K Means Όπως αναφέραμε στην προηγουμένη ενότητα ο αλγόριθμος K Means χρησιμοποιεί τη μετρική της Ευκλείδειας απόστασης. Παρόλα αυτά η μετρική της απόστασης δεν είναι αρκετές φορές η κατάλληλη για την ομαδοποίηση κειμένων. Έχει αποφανθεί ότι μία αποδοτική μετρική ομοιότητας κειμένων, η οποία χρησιμοποιείται πολλές φορές σε τεχνικές ανάκτησης πληροφορίας, είναι η ομοιότητα συνημίτονου. Η συγκεκριμένη μετρική χρησιμοποιεί το συνημίτονο της γωνίας που εμπεριέχεται μεταξύ των διανυσμάτων των κειμένων. Ο αλγόριθμος K Means μπορεί να τροποποιηθεί ώστε να χρησιμοποιεί την ομοιότητα συνημίτονου. Η εκδοχή αυτή του Κ Means ονομάζεται Spherical K Means και αυτό διότι τα διανύσματα βρίσκονται πάνω στην μοναδιαία σφαίρα. Όπως έχει ήδη προαναφερθεί το ζητούμενο στον αλγόριθμος K Means είναι η ελαχιστοποίηση του αθροίσματος των τετραγώνων των Ευκλείδειων αποστάσεων των κειμένων από τα κεντροειδή τους. Αντίστοιχα, στον αλγόριθμο Spherical K Means, όπου αντί για τις αποστάσεις χρησιμοποιεί τον τύπο του συνημίτονου, το ζητούμενο είναι η μεγιστοποίηση του αθροίσματος των συνημίτονων. 40

41 Θα πρέπει να τονισθεί ότι ο αλγόριθμος Spherical K Means είναι μία hill climbing διαδικασία. Σε αυτή τη περίπτωση, κατά τη διαδικασία βελτιστοποίησης, δηλαδή κατά τη διαδικασία μεγιστοποίησης της αντικειμενικής συνάρτησης, υπάρχει η πιθανότητα ο συγκεκριμένος αλγόριθμος να σταματήσει ή να κολλήσει σε τοπικό βέλτιστο. Αυτό βέβαια δεν είναι το επιθυμητό αποτέλεσμα από τη στιγμή που το ζητούμενο είναι η εύρεση του καθολικού βέλτιστου. Γενικά, έχει αποδεχθεί ότι ο αλγόριθμος Spherical K Means για μεγάλες ομάδες κειμένων αποφέρει καλά αποτελέσματα. Παρόλα αυτά, σε μικρές ή μετρίου μεγέθους ομάδες παράγει αρκετές φορές αποτελέσματα χαμηλής ποιότητας και αυτό οφείλεται στο γεγονός ότι τείνει να κολλάει σε τοπικά βέλτιστα χαμηλής ποιότητας. 3.8 Ασαφής Ομαδοποίηση (Fuzzy Clustering) Στις τεχνικές Στιβαρούς Ομαδοποίησης (Hard Clustering) τα δεδομένα διαχωρίζονται σε μη ασαφής ομάδες, όπου κάθε δεδομένο ανήκει ακριβώς σε μία ομάδα. Με αυτό τον τρόπο δημιουργούνται ομάδες οι οποίες είναι μη επικαλυπτόμενες Εικόνα 8: Hard Fuzzy Clustering Οι αλγόριθμοι που περιγράφονται παραπάνω έχουν ως αποτέλεσμα τη δημιουργία στιβαρών ομάδων. Αυτό σημαίνει, όπως προαναφέραμε, ότι ένα δεδομένο είτε ανήκει σε μία ομάδα είτε όχι. Από την άλλη πλευρά, οι αλγόριθμοι Ασαφής Ομαδοποίησης 41

42 (Fuzzy Clustering) θεωρούν ότι ένα δεδομένο μπορεί να ανήκει σε περισσότερες από μία ομάδες. Έτσι ορίζουν ένα βαθμό συμμετοχής κάθε δεδομένου σε κάθε ομάδα. Η τιμή του βαθμού συμμετοχής ενός δεδομένου σε μία ομάδα καθορίζει και την πιθανότητα το δεδομένο αυτό να ανήκει στη συγκεκριμένη ομάδα. Παρόλα αυτά η Ασαφής Ομαδοποίηση (Fuzzy Clustering) μπορεί να μετατραπεί σε Στιβαρή Ομαδοποίηση (Hard Clustering) αν θεωρήσουμε ότι κάθε στοιχείο ανήκει σε μία μόνο συστάδα, στη συστάδα δηλαδή εκείνη στην οποία παρουσιάζει το μεγαλύτερο βαθμό συμμετοχής. Ένας γνωστός αλγόριθμος Ασαφής Ομαδοποίησης είναι ο Fuzzy C Means[4] (FCM), ο οποίος είναι μία επέκταση του κλασσικού αλγορίθμου K Means. Ο Fuzzy C - Means προσπαθεί να βρει το χαρακτηριστικότερο σημείο ενός δεδομένου σε κάθε ομάδα, το οποίο μπορεί να θεωρηθεί ως κέντρο της ομάδας και στη συνέχεια το βαθμό συμμετοχής κάθε δεδομένου σε κάθε ομάδα. 3.9 Αξιολόγηση Αποτελεσμάτων Ομαδοποίησης Η διαδικασία αξιολόγησης των αποτελεσμάτων ενός αλγορίθμου ομαδοποίησης ή όπως αλλιώς ονομάζεται η εκτίμηση της ποιότητας και της εγκυρότητας των ομάδων (Cluster Quality Validity) είναι πρωταρχικής σημασίας, προκειμένου να ελέγξουμε την απόδοση ενός αλγορίθμου ομαδοποίησης. Γενικά, υπάρχουν δύο προσεγγίσεις μέσω των οποίων γίνεται η αξιολόγηση της ποιότητας των ομάδων. Η πρώτη προσέγγιση ονομάζεται Internal Quality Measures[16]. Η προσέγγιση αυτή μέσω ορισμένων κριτηρίων δίνει τη δυνατότητα σύγκρισης διαφορετικών συνόλων ομάδων, χωρίς τη χρησιμοποίηση οποιασδήποτε εξωτερικής γνώσης. Τα κριτήρια αυτά είναι τα εξής: Συνοχή: Μέτρηση της απόστασης των στοιχείων κάθε ομάδας, η οποία θα πρέπει να είναι όσο το δυνατόν πιο μικρή. Ένα κοινό μέτρο της συνοχής είναι η διακύμανση (Variance) η τιμή της οποίας πρέπει να είναι ελάχιστη. 42

43 Διαχωρισμός: Οι ομάδες θα πρέπει να είναι μεταξύ τους αρκετά διαχωρισμένες. Υπάρχουν τρεις κοινές προσεγγίσεις για τη μέτρηση της απόστασης μεταξύ δύο διαφορετικών ομάδων: Απλός Σύνδεσμος: απόσταση μεταξύ των πιο κοντινών στοιχείων των ομάδων. Πλήρης Σύνδεσμος: απόσταση μεταξύ των πιο απομακρυσμένων στοιχείων των ομάδων. Σύγκριση των Κέντρων: απόσταση μεταξύ των κέντρων των ομάδων. Η δεύτερη προσέγγιση μας δίνει τη δυνατότητα να εκτιμήσουμε πόσο καλά γίνεται η ομαδοποίηση, συγκρίνοντας τις ομάδες που δημιουργούνται από μία τεχνική ομαδοποίησης με δομές ομαδοποίησης που έχουν προσδιορισθεί εκ των προτέρων ή με αποτελέσματα ομαδοποίησης άλλων αλγορίθμων[16]. Γενικά, υπάρχουν αρκετές και διαφορετικές εξωτερικές μετρικές ποιότητας (External Quality Measures). Αυτό σημαίνει ότι η απόδοση ενός αλγορίθμου ομαδοποίησης μπορεί να διαφέρει σημαντικά ανάλογα με το ποιες εξωτερικές μετρικές χρησιμοποιούνται. Παρόλα αυτά, εάν ένας αλγόριθμος ομαδοποίησης αποδίδει καλύτερα σε σχέση με άλλους στις περισσότερες από αυτές τις μετρικές, τότε μπορούμε να ισχυριστούμε ότι σαφώς είναι καλύτερος. Στις υποενότητες που ακολουθούν αναλύονται κάποιες από τις εξωτερικές μετρικές που χρησιμοποιούνται για την εκτίμηση της ποιότητας των συστάδων Μετρική F Measure Η πρώτη εξωτερική μετρική, η οποία είναι η F Measure[19] χρησιμοποιεί τις έννοιες της ακρίβειας (Precision) και της ανάκλησης (Recall) οι οποίες είναι γνωστές από την αξιολόγηση των αλγορίθμων ανάκτησης πληροφορίας. Θα πρέπει να σημειωθεί ότι κάθε ομάδα θεωρείται ως το αποτέλεσμα ενός ερωτήματος και κάθε κλάση ως το ιδανικό σύνολο δεδομένων για ένα ερώτημα. Συγκεκριμένα, η ακρίβεια 43

44 (Precision) ισοδυναμεί με το λόγο των στοιχείων της κλάσης j που περιέχονται στην ομάδα i ως προς τον αριθμό των στοιχείων της ομάδας i. Από την άλλη, η ανάκληση (Recall) ισοδυναμεί με το λόγο στοιχείων της κλάσης j που περιέχονται στην ομάδα i ως προς τον αριθμό των στοιχείων της κλάσης j, όπως ακριβώς φαίνεται και από τους παρακάτω τύπους: Η μετρική F Measure για την ομάδα i και την κλάση j δίνεται από την παρακάτω σχέση: Η μετρική F της κλάσης j, F j, δίνεται από τη μέγιστη τιμή. Επίσης, η μετρική F του αποτελέσματος ενός αλγορίθμου ομαδοποίησης δίνεται από το παρακάτω σταθμισμένο μέσο όρο: όπου n το μέγεθος των κλάσεων, δηλαδή ο συνολικός αριθμός των εγγράφων. Τέλος, το αποτέλεσμα ενός αλγορίθμου ομαδοποίησης είναι τόσο καλύτερο, όσο μεγαλύτερη είναι και η τιμή της μετρικής F. 44

45 3.9.2 Μετρική Εντροπίας (Entropy) Η δεύτερη εξωτερική μετρική είναι η μετρική της εντροπίας (Entropy)[19] η οποία χρησιμοποιείται ως μία μετρική ποιότητας των ομάδων. Συγκεκριμένα, η μετρική αυτή μετρά το βαθμό συνεκτικότητας κάθε ομάδας. Αυτό σημαίνει ότι μία συνεκτική ομάδα που περιέχει στοιχεία από λίγες κλάσεις δίνει μικρή εντροπία. Αντιθέτως, μία ομάδα που περιέχει στοιχεία από πολλές κλάσεις δίνει μεγάλη εντροπία. Για τη συγκεκριμένη μετρική απαιτείται ο υπολογισμός της κατανομής των στοιχείων κάθε ομάδας στις κλάσεις. Υπολογίζεται δηλαδή η πιθανότητα P(i,j) η οποία ισοδυναμεί με το λόγο των στοιχείων της κλάσης j που ανήκουν στην ομάδα i ως προς το συνολικό αριθμό των στοιχείων της ομάδας i, όπως ακριβώς φαίνεται και στο παρακάτω τύπο: Επομένως, η εντροπία της ομάδας i δίνεται από τον παρακάτω τύπο: Η συνολική εντροπία για ένα σύνολο ομάδων υπολογίζεται από τον παρακάτω σταθμισμένο μέσο όρο: όπου είναι το μέγεθος της ομάδας i, k ο αριθμός των συστάδων, η εντροπία της ομάδας i και n ο συνολικός αριθμός των στοιχείων. 45

46 Τέλος, το αποτέλεσμα ενός αλγορίθμου ομαδοποίησης είναι τόσο καλύτερο, όσο πιο κοντά στο μηδέν (0) είναι η τιμή της εντροπίας. Χαρακτηριστικά, η καλύτερη τιμή της εντροπίας λαμβάνεται όταν κάθε ομάδα αποτελείται από ένα μόνο στοιχείο Μετρική Καθαρότητας (Purity) Η μετρική της καθαρότητας (Purity)[24] λαμβάνει υπόψη το τμήμα κάθε ομάδας που αποτελείται από τα στοιχεία της κλάσης που περιέχει το μεγαλύτερο αριθμό στοιχείων στην ομάδα. Με λίγα λόγια, κάθε ομάδα μπορεί να περιέχει δείγματα από διαφορετικές κλάσεις. Η μετρική καθαρότητας (Purity) δείχνει την αναλογία του μεγέθους της επικρατούσας κλάσης μέσα στην ομάδα προς το μέγεθος της ίδιας της ομάδας. Υψηλή καθαρότητα σημαίνει ότι η ομάδα είναι ένα καθαρό ομοιογενές υποσύνολο της επικρατούσας κλάσης. Η καθαρότητα της ομάδας i δίνεται από τον παρακάτω τύπο: όπου το μέγεθος της ομάδας i και ο αριθμός των στοιχείων της κλάσης j, j = 1..c (όπου c ο αριθμός των κλάσεων) που ανήκουν στην ομάδα i. Η καθαρότητα του αποτελέσματος ενός αλγορίθμου ομαδοποίησης δίνεται από το παρακάτω σταθμισμένο μέσο όρο των αντίστοιχων τιμών για κάθε ομάδα: όπου n το μέγεθος των κλάσεων. 46

47 Τέλος, αξίζει να σημειωθεί πως όσο μεγαλύτερη είναι η τιμή της καθαρότητας, τόσο καλύτερη είναι η ποιότητα του αποτελέσματος ενός αλγορίθμου ομαδοποίησης Μετρική Eυκλείδειας Απόστασης Η Ευκλείδεια Απόσταση είναι η βασική μετρική που χρησιμοποιείται σε γεωμετρικά προβλήματα. Στην ουσία, αντιπροσωπεύει την απόσταση μεταξύ δύο σημείων. Η Ευκλείδεια Απόσταση χρησιμοποιείται συχνά σε προβλήματα ομαδοποίησης, συμπεριλαμβανομένης και της ομαδοποίησης κειμένων. Παρόλα αυτά, θα πρέπει να σημειωθεί ότι δεν αντιπροσωπεύεται κάθε απόσταση με μετρική. Για να πραγματοποιηθεί αυτό, θα πρέπει η μετρούμενη απόσταση να πληρεί τις παρακάτω τέσσερις προϋποθέσεις. Έστω x και y δύο οποιαδήποτε αντικείμενα ενός συνόλου και d(x,y) η απόσταση μεταξύ τους. Γενικά, θα πρέπει να ισχύει: Η απόσταση μεταξύ των δύο σημείων να μην είναι αρνητικός αριθμός. Δηλαδή d(x,y) > 0. Η απόσταση των δύο αντικειμένων είναι μηδενική εάν και μόνον εάν τα δύο αντικείμενα είναι ταυτόσημα. Δηλαδή d(x,y) = 0, εάν και μόνον εάν x = y. Η απόσταση είναι συμμετρική. Δηλαδή η απόσταση από το x στο y είναι ίση με την απόσταση από το y στο x, d(x,y) = d(y,x). Η απόσταση θα πρέπει να ικανοποιεί την τριγωνική ανισότητα. Δηλαδή d(x,y) d(x,z) + d(z,y). Η μέτρηση της απόστασης μεταξύ δύο κειμένων d a και d b από ένα σύνολο κειμένων D = (d 1, d 2,.,d n ) τα οποία αντιπροσωπεύονται από τα διανύσματα όρων και αντίστοιχα δίνεται από τον παρακάτω τύπο: 47

48 Όπου t = 1,.,m το σύνολο των όρων και επειδή χρησιμοποιείται η τιμή TF*IDF ως συντελεστής βαρύτητας προκύπτει ότι και. 48

49 ΚΕΦΑΛΑΙΟ 4: ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ TEXT MINING ΣΕ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ 4.1 Εισαγωγή Το Πανεπιστήμιο Πατρών ενθαρρύνει τη βασική έρευνα με σκοπό την προαγωγή της επιστημονικής γνώσης, την εφαρμοσμένη ή τεχνολογική έρευνα με σκοπό την ανάπτυξη νέων υπηρεσιών και προϊόντων, διαδικασιών και μεθόδων ή τη βελτίωση υπαρχουσών, μέσω συγκεκριμένων εφαρμογών και την παροχή επιστημονικών και τεχνολογικών υπηρεσιών και την εκπόνηση μελετών με σκοπό την υποστήριξη εκπαιδευτικής, τεχνολογικής, βιομηχανικής, οικονομικής, πολιτισμικής και εν γένει ανάπτυξης της χώρας, πάντοτε εντός των πλαισίων του γνωστικού αντικειμένου και των δυνατοτήτων του συμβαλλόμενου τομέα ή ερευνητικής ομάδας. Όλες οι ερευνητικές δραστηριότητες συντονίζονται από την Επιτροπή Ερευνών του Πανεπιστημίου. Επίσης, με απόφαση της Επιτροπής Ερευνών επιτρέπεται η προσωρινή εμπιστευτικότητα στοιχείων με σκοπό την προστασία διπλωμάτων ευρεσιτεχνίας, πρωτότυπων ανακοινώσεων ή την παραγωγή νέων προϊόντων. Φορείς χρηματοδότησης ερευνητικών προγραμμάτων μπορεί να είναι κρατικοί φορείς και δημόσιοι οργανισμοί όπως για παράδειγμα υπουργεία, ιδιωτικοί φορείς, ιδιωτικές επιχειρήσεις, η Ευρωπαϊκή Ένωση και Διεθνείς Οργανισμοί. Στόχος λοιπόν, της συγκεκριμένης μεταπτυχιακής εργασίας είναι η συλλογή των τίτλων των ερευνητικών προγραμμάτων από την Επιτροπή Ερευνών του Πανεπιστημίου Πατρών, προκειμένου να προ-επεξεργασθούν και στη συνέχεια χρησιμοποιώντας ένα λογισμικό Text Mining, το QDA Miner, σε συνδυασμό με ένα λογισμικό ανάλυσης περιεχομένου, το Wordstat, να ομαδοποιηθούν σε ομάδες (clusters) με απώτερο σκοπό την εξαγωγή συμπερασμάτων για το ποιες είναι οι κύριες τάσεις-πεδία της ερευνητικής δραστηριότητας του Πανεπιστημίου Πατρών. 4.2 Συλλογή Ερευνητικών Προγραμμάτων Κάθε ερευνητικό πρόγραμμα που υλοποιείται στο Πανεπιστήμιο Πατρών καταχωρείται από την Επιτροπή Ερευνών σε μία βάση δεδομένων η οποία 49

50 ονομάζεται SAP. Η κάθε καταχώρηση σε αυτή τη βάση δεδομένων, που αντιστοιχεί σε ένα και μοναδικό ερευνητικό πρόγραμμα, περιέχει στοιχεία σχετικά με το πρόγραμμα αυτό. Για παράδειγμα, ορισμένα από αυτά μπορεί να είναι ο τίτλος του ερευνητικού προγράμματος, ο φορέας χρηματοδότησής του, ο κωδικός του, η ημερομηνία έναρξης και η ημερομηνία λήξης του. Μέσα από την προαναφερθείσα βάση δεδομένων συλλέχθηκαν τα ερευνητικά προγράμματα. Από τα στοιχεία των ερευνητικών προγραμμάτων επιλέχθηκαν οι τίτλοι. Εκείνα δηλαδή τα στοιχεία που περιέχουν αδόμητα κείμενα, στα οποία θα εφαρμοσθεί η μέθοδος Text Mining. 4.3 Προ-επεξεργασία Ερευνητικών Προγραμμάτων Η προ-επεξεργασία κειμένων είναι η διαδικασία, η οποία δέχεται ως είσοδο ένα σύνολο κειμένων και εξάγει ένα σύνολο χαρακτηριστικών όρων για τα κείμενα. Συγκεκριμένα, τα βήματα τα οποία υλοποιήθηκαν είναι τα ακόλουθα: Αφαίρεση Δομής Κειμένων Γλωσσική Προ-επεξεργασία (Αφαίρεση Συμβόλων, Case Folding) Αφαίρεση Stopwords Stemming Στη συνέχεια θα αναφερθούμε αναλυτικά σε κάθε ένα από τα παραπάνω βήματα της προ-επεξεργασίας κειμένων των τίτλων των ερευνητικών προγραμμάτων Αφαίρεση Δομής Κειμένων Σε αυτό το βήμα, αφαιρείται η δομή των κειμένων. Τα κείμενα των τίτλων των ερευνητικών προγραμμάτων που πάρθηκαν από την Επιτροπή Ερευνών του 50

51 Πανεπιστημίου Πατρών καταχωρήθηκαν στο λογισμικό επεξεργασίας εγγράφων Microsoft Word. Αυτό σημαίνει, ότι τα κείμενα των τίτλων βρίσκονταν στη μορφή doc. Μέσα από τη δυνατότητα αποθήκευσης σε διαφορετική μορφή, που μας δίνει το συγκεκριμένο λογισμικό τα κείμενα των τίτλων εξήχθησαν σε απλή μορφή txt Γλωσσική Προ-επεξεργασία Αρχικός στόχος κατά την προ-επεξεργασία των εγγράφων αποτελεί η αφαίρεση όλων των περιττών συμβόλων και των σημείων στίξης. Επειδή τα σύμβολα και τα σημεία στίξης δεν προσφέρουν καμία πληροφορία και δεν έχουν καμία σχέση με το εννοιολογικό περιεχόμενο του κειμένου μπορούν να αναγνωριστούν σε αυτό το σημείο και να αφαιρεθούν. Η διαδικασία αφαίρεσης όλων των περιττών συμβόλων και σημείων στίξης πραγματοποιήθηκε μέσα από την επιλογή της «Εύρεσης» και της «Αντικατάστασης» που μας δίνει το λογισμικό επεξεργασίας εγγράφων Microsoft Word. Έτσι λοιπόν, μέσα από τη διαδικασία αυτή βρέθηκαν και αφαιρέθηκαν (αντικαταστάθηκαν με κενό) όλα τα περιττά σύμβολα και σημεία στίξης, όπως για παράδειγμα είναι: _ ( ) + # % -., /! &. Στη συνέχεια, εφαρμόσθηκε το Case Folding, η μετατροπή δηλαδή όλων των χαρακτήρων στην ίδια μορφή (πεζά η κεφαλαία). Μέσω της επιλογής «Αλλαγή πεζών κεφαλαίων» που μας δίνει και πάλι το λογισμικό επεξεργασίας εγγράφων Microsoft Word όλοι οι χαρακτήρες των τίτλων των ερευνητικών προγραμμάτων μετατράπηκαν σε κεφαλαία. Με αυτό τον τρόπο αφαιρέθηκε ο τονισμός των λέξεων Αφαίρεση Stopwords Τα Stopwords είναι γενικά λέξεις που εμφανίζονται πολύ συχνά σε ένα κείμενο, χωρίς όμως να φέρουν ιδιαίτερη πληροφορία σχετικά με το περιεχόμενο ολόκληρου του κειμένου. Συνήθως, η ύπαρξή τους καθορίζεται από συντακτικούς κανόνες και λειτουργούν κυρίως ως σύνδεσμοι προτάσεων και λεκτικών νοημάτων. Η αφαίρεση των Stopwords από τα κείμενα των τίτλων των ερευνητικών προγραμμάτων πραγματοποιήθηκε μέσω του αλγορίθμου Greek Text Similarity. Επισημαίνεται πως ο συγκεκριμένος αλγόριθμος έχει υλοποιηθεί στα πλαίσια του εργαστηρίου Πληροφοριακών Συστημάτων Διοίκησης & Επιχειρηματικής Νοημοσύνης[31]. 51

52 4.3.4 Stemming Το Stemming των λέξεων αποσκοπεί στη σημαντική μείωση του αριθμού των όρων, μέσω των οποίων γίνεται η αναπαράσταση των κειμένων. Η συγκεκριμένη διαδικασία είναι ιδιαίτερα σημαντική κατά τη διαδικασία της ομαδοποίησης, αφού καθιστά τη διαδικασία λιγότερο εξαρτώμενη από τις ιδιαίτερες μορφές των λέξεων, ανάγοντας ουσιαστικά όλες τις ιδιαίτερες μορφές σε μία και δημιουργώντας μία ομάδα συνωνύμων ομόριζων λέξεων. Για παράδειγμα οι λέξεις «συχνότατα», «συχνός», «συχνότητα», «συχνότητες», «συχνά» μπορούν να αναχθούν στην κοινή ρίζα «συχν». Οι αλγόριθμοι που προσπαθούν να επιτύχουν τη μετατροπή μιας λέξης στη γλωσσολογικά ορθή ρίζα της καλούνται πολλές φορές «Lemmatizers» και η διαδικασία «Lemmatization». Ο απλούστερος μετασχηματισμός της διαδικασίας αυτής είναι η μετατροπή πληθυντικού αριθμού στον ενικό και η μετατροπή των παρελθοντικών χρόνων των ρημάτων στο παρόν. Υπάρχουν αρκετοί αλγόριθμοι για Stemming. Ο πρώτος από αυτούς είναι ο αλγόριθμος Lovins Stemmer[12]. Επίσης, δημοφιλής αλγόριθμος για Stemming είναι και ο αλγόριθμος του Porter[30], τον οποίο χρησιμοποιεί και το λογισμικό ανάλυσης περιεχομένου Wordstat. Αξίζει να σημειωθεί όμως, πως οι δύο παραπάνω αλγόριθμοι μετατρέπουν στην ορθολογικά ορθή ρίζα τους μόνο λέξεις της Αγγλικής γλώσσας. Σε ότι αφορά τα δεδομένα της συγκεκριμένης μεταπτυχιακής εργασίας, η διαδικασία Stemming για τα κείμενα των τίτλων των ερευνητικών προγραμμάτων πραγματοποιήθηκε μέσω του αλγορίθμου Greek Text Similarity. Επισημαίνεται, πως οι τίτλοι των ερευνητικών προγραμμάτων ήταν στην Ελληνική γλώσσα. Έτσι λοιπόν, μέσω του εν λόγω αλγορίθμου ο οποίος μετατρέπει στην ορθολογικά ορθή ρίζα τους λέξεις της Ελληνικής γλώσσας, πραγματοποιήθηκε η διαδικασία Stemming για τα κείμενα των τίτλων των συλλεχθέντων ερευνητικών προγραμμάτων. 52

53 4.4 Επεξεργασία Δεδομένων Εισαγωγή Δεδομένων στο QDA Miner Στη συνέχεια, μετά από την προ-επεξεργασία των κειμένων των τίτλων των ερευνητικών προγραμμάτων χρησιμοποιήσαμε ένα λογισμικό Text Mining, το QDA Miner, σε συνδυασμό με ένα λογισμικό ανάλυσης περιεχομένου, το Wordstat. Έτσι λοιπόν, τα προ-επεξεργασμένα κείμενα των τίτλων των ερευνητικών προγραμμάτων εισήχθησαν στο λογισμικό QDA Miner όπου πλέον, το κάθε ένα κείμενο τίτλου χωρίς stopwords και έχοντας πραγματοποιηθεί η αναγωγή όλων των λέξεων στην ορθολογικά ορθή ρίζα τους (διαδικασία stemming) αποτελούσε ένα ξεχωριστό case, όπως φαίνεται στην παρακάτω εικόνα. Εικόνα 9: Εισαγωγή των τίτλων των ερευνητικών προγραμμάτων σε ξεχωριστά cases 53

54 Αξίζει να σημειωθεί, πως πριν την εφαρμογή του αλγορίθμου Greek Text Similarity στα κείμενα των τίτλων των ερευνητικών προγραμμάτων και σαφώς πριν την εισαγωγή αυτών στο QDA Miner, ιδιαίτερη έμφαση δόθηκε στη διόρθωση ορθογραφικών λαθών και στον έλεγχο ύπαρξης κενών διαστημάτων μεταξύ των λέξεων των κειμένων των τίτλων των ερευνητικών προγραμμάτων, γεγονός που σε διαφορετική περίπτωση καθιστούσε δύσκολη και μη αποτελεσματική τη διαδικασία αφαίρεσης των stopwords και τη διαδικασία stemming. Τέλος, το QDA Miner αποτελεί ένα εύχρηστο ποιοτικό πακέτο λογισμικού, το οποίο μπορεί να χρησιμοποιηθεί για την εισαγωγή και την κωδικοποίηση των κειμένων, καθώς επίσης και για το σχολιασμό, την ανάκτηση και την αναθεώρηση των κειμένων. Ουσιαστικά, αποτελεί το πρώτο βήμα πριν προχωρήσουμε στην περαιτέρω επεξεργασία των δεδομένων Επεξεργασία Δεδομένων με το Λογισμικό Wordstat Το συγκεκριμένο λογισμικό ανάλυσης περιεχομένου χρησιμοποιήθηκε για την αναπαράσταση των κειμένων των τίτλων των ερευνητικών προγραμμάτων στο μοντέλο Διανυσματικού Χώρου. Τα κείμενα αντιπροσωπεύτηκαν από το σύνολο των λέξεών τους, αφού πρώτα αφαιρέθηκαν από αυτά τα σημεία στίξης, τα σύμβολα, τα stopwords και αφού εφαρμόσθηκε η διαδικασία stemming, όπως έχει ήδη προαναφερθεί στο στάδιο της προ-επεξεργασίας. Επισημαίνεται, πως το σύνολο των όρων των κειμένων των τίτλων των ερευνητικών προγραμμάτων πριν την αφαίρεση των stopwords ανερχόταν στους είκοσι τρεις χιλιάδες επτακόσιους είκοσι οχτώ (23.728) όρους, όπως φαίνεται στην παρακάτω εικόνα. 54

55 Εικόνα 10: Σύνολο όρων κειμένων τίτλων ερευνητικών προγραμμάτων πριν την αφαίρεση των stopwords Στη συνέχεια, μετά την αφαίρεση των stopwords και τη διαδικασία του stemming με τη χρήση του αλγορίθμου Greek Text Similarity, ο αριθμός των όρων των κειμένων των τίτλων των ερευνητικών προγραμμάτων μειώθηκε σημαντικά στους δέκα έξι χιλιάδες επτακόσιους εννέα (16.709) όρους, όπως φαίνεται στην παρακάτω εικόνα. 55

56 Εικόνα 11: Σύνολο όρων κειμένων τίτλων ερευνητικών προγραμμάτων μετά την αφαίρεση των stopwords Σημειώνεται ότι, μέσω της διαδικασίας stemming αντί να χρησιμοποιήσουμε τις αρχικές λέξεις των κειμένων των τίτλων των ερευνητικών προγραμμάτων, έγινε αναγωγή των λέξεων αυτών στις ρίζες τους. Επομένως, μετά την εισαγωγή των προεπεξεργασμένων κειμένων των τίτλων των ερευνητικών προγραμμάτων στο QDA Miner, όπως προαναφέραμε στην προηγούμενη ενότητα, υπολογίσθηκαν με τη βοήθεια του λογισμικού ανάλυσης περιεχομένου Wordstat οι συχνότητες των «νέων» λέξεων-όρων (λέξεις στις οποίες είχε εφαρμοσθεί η διαδικασία stemming), οι οποίες χρησιμοποιήθηκαν τελικά για τη διανυσματική αναπαράσταση των κειμένων. Όπως φαίνεται και στον πίνακα της παρακάτω εικόνας, με τη βοήθεια του λογισμικού ανάλυσης περιεχομένου Wordstat, εμφανίζονται πλέον τέσσερις χιλιάδες τριακόσιοι 56

57 ογδόντα πέντε (4.385) μοναδικοί όροι, όπου στην πρώτη στήλη του πίνακα φαίνεται η συχνότητα εμφάνισης του κάθε μοναδικού όρου στο σύνολο των cases. Εικόνα 12: Πίνακας μοναδικών όρων Στη συνέχεια, αφαιρώντας τους όρους εκείνους που εμφανίζονται μονάχα μία φορά, η διαφορά στα αποτελέσματα είναι σημαντική. Συγκεκριμένα, οι όροι μειώνονται στους χίλιους εννιακόσιους σαράντα έξι (1946), όπως απεικονίζεται στην παρακάτω εικόνα. 57

58 Εικόνα 13: Περαιτέρω μείωση όρων Επιπλέον, επιλέγοντας να συμπεριλαμβάνονται όροι με συχνότητα εμφάνισης 5 και άνω και αφαιρώντας τους όρους εκείνους (κοινοί και πολύ συχνά εμφανίσιμοι όροι) οι οποίοι παρουσιάζονται σε περισσότερα από 60% των cases, με σκοπό τη μείωση του θορύβου, το σύνολο των όρων όπως φαίνεται και στην παρακάτω εικόνα, μειώνεται εξίσου σημαντικά στους πεντακόσιους εβδομήντα δύο (572). 58

59 Εικόνα 14: Περαιτέρω μείωση όρων Τονίζεται, πως η επιπλέον μείωση του αριθμού των όρων επιφέρει επιδείνωση της κατάστασης, καθώς πλέον αρχίζει η εξάλειψη σημαντικών όρων για τη διαδικασία της ομαδοποίησης, δηλαδή όρων των οποίων το πληροφοριακό περιεχόμενο είναι σημαντικό. 4.5 Ανάλυση Αποτελεσμάτων Αφού οριστικοποιήθηκαν οι τελικοί μοναδικοί όροι, όπως είδαμε στην προηγούμενη ενότητα, οι οποίοι χρησιμοποιήθηκαν στη συνέχεια για την αναπαράσταση των κειμένων των τίτλων των ερευνητικών προγραμμάτων (cases) στο διανυσματικό 59

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ (MBA) ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΑΠΟ ΚΕΙΜΕΝΟ (TEXT MINING) ΣΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΝΟΜΟΘΕΤΙΚΩΝ ΔΙΑΤΑΞΕΩΝ ΝΙΦΟΡΑΣ ΝΙΚΟΛΑΟΣ Α.Μ.: 341

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων Καθηγητής: Δρ. Νίκος Μίτλεττον Η ΣΧΕΣΗ ΤΟΥ ΜΗΤΡΙΚΟΥ ΘΗΛΑΣΜΟΥ ΜΕ ΤΗΝ ΕΜΦΑΝΙΣΗ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 2 ΣΤΗΝ ΠΑΙΔΙΚΗ ΗΛΙΚΙΑ Ονοματεπώνυμο: Ιωσηφίνα

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε Τμήμα Ηλεκτρονικών Μηχανικών Τ.Ε. ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε Πτυχιακή Εργασία Φοιτητής: Γεμενής Κωνσταντίνος ΑΜ: 30931 Επιβλέπων Καθηγητής Κοκκόσης Απόστολος Λέκτορας

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction Information Extraction Μορφή της πληροφορίας Δομημένα δεδομένα Relational Databases (SQL) XML markup Μη-δομημένα δεδομένα

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Μάθηση και γνώση: μια συνεχής και καθοριστική αλληλοεπίδραση Αντώνης Λιοναράκης Στην παρουσίαση που θα ακολουθήσει θα μιλήσουμε

Διαβάστε περισσότερα

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον Κωνσταντίνος Σπυρόπουλος Διευθυντής Ινστιτούτου Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ Δημόκριτος Βελτίωση της Αποτελεσματικότητας Επιχειρήσεων/Οργανισμών,

Διαβάστε περισσότερα

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Μεταπτυχιακό Δίπλωμα Ειδίκευσης Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Δρ. Κακαρόντζας Γεώργιος Επίκουρος Καθηγητής Τμ. Μηχανικών Πληροφορικής Τ.Ε. Μηχανική Λογισμικού για Διαδικτυακές

Διαβάστε περισσότερα

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση Ηλεκτρονικό εμπόριο HE 8 Εξατομίκευση Πληροφοριακός υπερφόρτος (information overload) Αδυναμία διαχείρισης μεγάλου όγκου πληροφοριών και εντοπισμού της χρήσιμης πληροφορίας Η εξατομίκευση στοχεύει στην

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ Σχολή Μηχανικής & Τεχνολογίας Τμήμα Πολιτικών & Μηχανικών Γεωπληροφορικής Μεταπτυχιακή διατριβή ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ 2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ Αθανάσιος Νταραβάνογλου Διπλωματική

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή Διατριβή Η ΣΥΝΕΙΣΦΟΡΑ ΤΟΥ CΗ 4 ΣΤΟ ΦΑΙΝΟΜΕΝΟ

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Τι είναι η ερευνητική εργασία Η ερευνητική εργασία στο σχολείο είναι μια δυναμική διαδικασία, ανοιχτή στην αναζήτηση για την κατανόηση του πραγματικού κόσμου.

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Η ΣΧΕΤΙΖΟΜΕΝΗ ΜΕ ΤΗΝ ΥΓΕΙΑ ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΑΤΟΜΩΝ ΜΕ ΝΕΑΝΙΚΗ ΙΔΙΟΠΑΘΗ ΑΡΘΡΙΤΙΔΑ Όνομα Φοιτήτριας: Μαρία Θωμά Αριθμός φοιτητικής ταυτότητας:2010221455

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Software Production Company

Software Production Company Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Neurosoft A.E. --- ΕΑΙΤΥ ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ» Προϋπολογισµός: 561.240 ιάρκεια: 18 µήνες ΕπιστηµονικόςΥπεύθυνος:

Διαβάστε περισσότερα

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΣΠΟΥ ΑΣΤΗΣ: Γιαννόπουλος Γεώργιος ΕΠΙΒΛΕΠΩΝ: Καθ. Ι. Βασιλείου ΒΟΗΘΟΙ: Α. ηµητρίου, Θ. αλαµάγκας Γενικά Οι µηχανές αναζήτησης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Ηλεκτρονικό Εμπόριο Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

Η Επίδραση των Events στην Απόδοση των Μετοχών

Η Επίδραση των Events στην Απόδοση των Μετοχών Χρηματοοικονομικά και Διοίκηση Μεταπτυχιακή διατριβή Η Επίδραση των Events στην Απόδοση των Μετοχών Άντρεα Φωτίου Λεμεσός, Μάιος 2018 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΔΙΟΙΚΗΣΗΣ

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Σχολή Μηχανικής και Τεχνολογίας. Πτυχιακή εργασία

Σχολή Μηχανικής και Τεχνολογίας. Πτυχιακή εργασία Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία Ευφυής επεξεργασία και ανάλυση δεδομένων μεγάλου όγκου: Συλλογή και επεξεργασία δεδομένων μεγάλης συχνότητας και εύρους σε πραγματικό χρόνο για τον εντοπισμό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. Χρυσάνθη Στυλιανού Λεμεσός 2014 ΤΕΧΝΟΛΟΓΙΚΟ

Διαβάστε περισσότερα

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος + Περιγραφή Μαθήματος Τίτλος Κωδικός Αριθμός του Πληροφοριακά Συστήματα Μαθήματος : Επίπεδο Τύπος του Μαθήματος : ΠΡΟΠΤΥΧΙΑΚΟ - ΥΠΟΧΡΕΩΤΙΚΟ Έτος Σπουδών Εξάμηνο : 5 Ε Αριθμός Ευρωπαϊκών Πιστωτικών Μονάδων

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας 215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας Το Τμήμα ασχολείται με τη διδασκαλία και την έρευνα στην επιστήμη και τεχνολογία των υπολογιστών και τη μελέτη των εφαρμογών τους. Το Τμήμα ιδρύθηκε το 1980 (ως

Διαβάστε περισσότερα

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ονοματεπώνυμο Κεντούλλα Πέτρου Αριθμός Φοιτητικής Ταυτότητας 2008761539 Κύπρος

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.) ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.) 2.1 Κωνσταντίνος Ταραμπάνης Καθηγητής Τμήμα Οργάνωσης και Διοίκησης Επιχειρήσεων Πανεπιστήμιο Μακεδονίας Γρ. 307 2310-891-578 kat@uom.gr ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ

Διαβάστε περισσότερα

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται: Μάθημα 10 Συστήματα Διάχυσης και Διαχείρισης Γνώσης Chapter 10 Knowledge Transfer In The E-world Chapter 13 Knowledge Management Tools and Knowledge Portals Συστήματα Διάχυσης και Διαχείρισης Γνώσης Λογισμικό

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Βάσεις Δεδομένων - Γενικά Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα. Τα περιεχόμενα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων Μέθοδοι και Τεχνικές για τον Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων (SISP) Στρατηγική και Διοίκηση Πληροφοριακών Συστηµάτων Μάθηµα 2 No 1 Δοµή της Παρουσίασης l 1. Εισαγωγή l 2. Μεθοδολογία SISP

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Η ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΕΞΟΥΘΕΝΩΣΗ ΠΟΥ ΒΙΩΝΕΙ ΤΟ ΝΟΣΗΛΕΥΤΙΚΟ ΠΡΟΣΩΠΙΚΟ ΣΤΙΣ ΜΟΝΑΔΕΣ ΕΝΑΤΙΚΗΣ ΘΕΡΑΠΕΙΑΣ Άντρη Αγαθαγγέλου Λεμεσός 2012 i ΤΕΧΝΟΛΟΓΙΚΟ

Διαβάστε περισσότερα

Εισαγωγή στα Πληροφοριακά Συστήματα

Εισαγωγή στα Πληροφοριακά Συστήματα Εισαγωγή στα Πληροφοριακά Συστήματα Ενότητα 3: Η έννοια της ΠΛΗΡΟΦΟΡΙΑΣ - INFORMATION Κωνσταντίνος Ταραμπάνης Τμήμα Οργάνωσης & Διοίκησης Επιχειρήσεων ΕΙΣΑΓΩΓΗ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Κωνσταντίνος Ταραμπάνης

Διαβάστε περισσότερα

Ηλεκτρονικός οδηγός για τους φοιτητές ενός Α.Ε.Ι.

Ηλεκτρονικός οδηγός για τους φοιτητές ενός Α.Ε.Ι. Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Τμήμα Ηλεκτρονικών Μηχανικών Τ.Ε. Ηλεκτρονικός οδηγός για τους φοιτητές ενός Α.Ε.Ι. Πτυχιιακή Εργασίία Φοιτητής: Δημήτριος Παπαοικονόμου ΑΜ: 36712

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Σχεδίαση και Ανάπτυξη Ιστότοπων

Σχεδίαση και Ανάπτυξη Ιστότοπων Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

ΕΤΑΙΡΙΚΗ ΚΟΙΝΩΝΙΚΗ ΕΥΘΥΝΗ ΣΤΗΝ ΝΑΥΤΙΛΙΑΚΗ ΒΙΟΜΗΧΑΜΙΑ

ΕΤΑΙΡΙΚΗ ΚΟΙΝΩΝΙΚΗ ΕΥΘΥΝΗ ΣΤΗΝ ΝΑΥΤΙΛΙΑΚΗ ΒΙΟΜΗΧΑΜΙΑ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ Μεταπτυχιακή διατριβή ΕΤΑΙΡΙΚΗ ΚΟΙΝΩΝΙΚΗ ΕΥΘΥΝΗ ΣΤΗΝ ΝΑΥΤΙΛΙΑΚΗ ΒΙΟΜΗΧΑΜΙΑ Ανδρούλα Γιαπάνη Λεμεσός, Φεβρουάριος 2018 0 i ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών ΕΠΛ362: Τεχνολογία Λογισμικού ΙΙ (μετάφραση στα ελληνικά των διαφανειών του βιβλίου Software Engineering, 9/E, Ian Sommerville, 2011) Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών Οι διαφάνειες αυτές

Διαβάστε περισσότερα

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος Καπιδάκης 1 1 Εργαστήριο Ψηφιακών Βιβλιοθηκών και

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 19/2/213 1 ο ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ Αντικείμενο του Μαθήματος 2 Εφαρμογές και εργαλεία ΓλωσσικήςΤεχνολογίας με στόχο τη βελτίωση της πρωτογενούς

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ Χριστοδούλου Αντρέας Λεμεσός 2014 2 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος 1 Βασίλειος Χρυσικόπουλος Καθηγητής Πληροφορική Δίκτυα Ασφάλεια Πληροφοριών Ερευνητικά Ενδιαφέροντα Ασφάλεια Δίκτυα Η/Υ http://di.ionio.gr/staff-2/faculty-staff/vassilischrissikopoulos/

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. ΚΕΦΑΛΑΙΟ 9 Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966 αρχίζει ο σχεδιασμός του ARPANET, του πρώτου

Διαβάστε περισσότερα

Οπτική αντίληψη. Μετά?..

Οπτική αντίληψη. Μετά?.. Οπτική αντίληψη Πρωτογενής ερεθισµός (φυσικό φαινόµενο) Μεταφορά µηνύµατος στον εγκέφαλο (ψυχολογική αντίδραση) Μετατροπή ερεθίσµατος σε έννοια Μετά?.. ΓΙΑ ΝΑ ΚΑΤΑΝΟΗΣΟΥΜΕ ΤΗΝ ΟΡΑΣΗ ΠΡΕΠΕΙ ΝΑ ΑΝΑΛΟΓΙΣΤΟΥΜΕ

Διαβάστε περισσότερα

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2009-2010 ΑΣΚΗΣΗ Α Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Τα ανεστραμμένα αρχεία αποτελούν μια βασική μορφή ευρετηρίου και μας επιτρέπουν να εντοπίσουμε

Διαβάστε περισσότερα

Επιβλέπων καθηγητής: Δρ Βασίλειος Ραφτόπουλος ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΣΕ ΜΕΤΕΜΜΗΝΟΠΑΥΣΙΑΚΕΣ ΓΥΝΑΙΚΕΣ ΜΕΤΑ ΑΠΟ ΟΣΤΕΟΠΟΡΩΤΙΚΑ ΚΑΤΑΓΜΑΤΑ ΣΠΟΝΔΥΛΙΚΗΣ ΣΤΗΛΗΣ

Επιβλέπων καθηγητής: Δρ Βασίλειος Ραφτόπουλος ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΣΕ ΜΕΤΕΜΜΗΝΟΠΑΥΣΙΑΚΕΣ ΓΥΝΑΙΚΕΣ ΜΕΤΑ ΑΠΟ ΟΣΤΕΟΠΟΡΩΤΙΚΑ ΚΑΤΑΓΜΑΤΑ ΣΠΟΝΔΥΛΙΚΗΣ ΣΤΗΛΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων καθηγητής: Δρ Βασίλειος Ραφτόπουλος ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΣΕ ΜΕΤΕΜΜΗΝΟΠΑΥΣΙΑΚΕΣ ΓΥΝΑΙΚΕΣ ΜΕΤΑ ΑΠΟ ΟΣΤΕΟΠΟΡΩΤΙΚΑ ΚΑΤΑΓΜΑΤΑ ΣΠΟΝΔΥΛΙΚΗΣ ΣΤΗΛΗΣ Από τη

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Βάσεις Δεδομένων Ενότητα 1

Βάσεις Δεδομένων Ενότητα 1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 1: Εισαγωγή στις Ιωάννης Μανωλόπουλος, Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Η ΣΧΕΣΗ ΤΗΣ ΠΑΧΥΣΑΡΚΙΑΣ ΜΕ ΤΟ ΣΑΚΧΑΡΩΔΗ ΔΙΒΗΤΗ ΚΥΗΣΗΣ Χρυστάλλα, Γεωργίου Λεμεσός 2014 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο Βάσεις Δεδομένων Εισαγωγή Ανάλυση Απαιτήσεων Φροντιστήριο 1 ο 16-10-2008 Εισαγωγή - Ορισμοί Βάση Δεδομένων είναι μία συλλογή από σχετιζόμενα αντικείμενα Ένα σύστημα διαχείρισης βάσεων δεδομένων (ΣΔΒΔ)

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή Το λογισμικό της εννοιολογικής χαρτογράυησης Inspiration Η τεχνική της εννοιολογικής χαρτογράφησης αναπτύχθηκε από τον καθηγητή Joseph D. Novak, στο πανεπιστήμιο του Cornell. Βασίστηκε στις θεωρίες του

Διαβάστε περισσότερα