ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Transcript

1 ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ (MBA) ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΑΠΟ ΚΕΙΜΕΝΟ (TEXT MINING) ΣΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΝΟΜΟΘΕΤΙΚΩΝ ΔΙΑΤΑΞΕΩΝ ΝΙΦΟΡΑΣ ΝΙΚΟΛΑΟΣ Α.Μ.: 341 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΒΟΥΤΣΙΝΑΣ ΒΑΣΙΛΕΙΟΣ ΠΑΤΡΑ ΙΟΥΛΙΟΣ 2016

2 2

3 Νιφόρας Νικόλαος Με επιφύλαξη παντός δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραφέα. 3

4 4

5 «τη γλώσσα μου έδωσαν ελληνική, το σπίτι φτωχικό στις αμμουδιές του Ομήρου. Μονάχη έγνοια η γλώσσα μου στις αμμουδιές του Ομήρου» Οδυσσέας Ελύτης Αφιερώνεται στην οικογένεια μου, που βρίσκεται πάντα δίπλα μου 5

6 6

7 ΠΕΡΙΕΧΟΜΕΝΑ ΣΥΝΟΨΗ 11 ΠΕΡΙΛΗΨΗ 12 ABSTRACT 14 SUMMARY 15 ΕΥΧΑΡΙΣΤΙΕΣ 16 ΠΡΩΤΟ ΚΕΦΑΛΑΙΟ - ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΙΚΑ ΣΤΟΙΧΕΙΑ 17 ΔΕΥΤΕΡΟ ΚΕΦΑΛΑΙΟ - ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ ΕΙΣΑΓΩΓΙΚΑ ΣΤΟΙΧΕΙΑ Η ΔΙΑΔΙΚΑΣΙΑ KDD ΣΤΟΧΟΙ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ ΜΕΘΟΔΟΙ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Κατηγοριοποίηση Συσταδοποίηση Κανόνες Συσχέτισης Πρότυπα Ακολουθιών Παλινδρόμηση Ομοιότητα Χρονολογικών Σειρών Περιληπτική Παρουσίαση Πληροφορίας ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ Δέντρα Απόφασης (Decision Trees) Νευρωνικά Δίκτυα (Νeural Νetworks) 29 ΤΡΙΤΟ ΚΕΦΑΛΑΙΟ - ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ ΕΙΣΑΓΩΓΙΚΑ ΣΤΟΙΧΕΙΑ 31 7

8 3.2 ΤΙ ΕΙΝΑΙ ΤΟ TEXT MINING TEXT MINING ΚΑΙ DATA MINING TEXT MINING VS DATA MINING TEXT MINING VS WEB SEARCH TEXT MINING VS INFORMATION RETRIEVAL TEXT MINING VS INFORMATION EXTRACTION ΚΡΙΤΗΡΙΑ TEXT MINING ΒΗΜΑΤΑ TEXT MINING ΣΥΛΛΟΓΗ ΕΓΓΡΑΦΩΝ- ΚΕΙΜΕΝΩΝ ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ ΚΕΙΜΕΝΩΝ ΜΕΘΟΔΟΙ TEXT MINING Εξαγωγή Πληροφοριών (Information Extraction) Κατηγοριοποίηση (Categorization) Ομαδοποίηση (Clustering) Συνόψιση (Summarization) Απεικόνιση Πληροφορίας (Information Visualization) Διασύνδεση Εννοιών (Concept Linkage) Εξαγωγή Οντολογιών (Ontology Extraction) ΕΦΑΡΜΟΓΕΣ 45 ΤΕΤΑΡΤΟ ΚΕΦΑΛΑΙΟ - ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ ΝΟΜΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΙΣΑΓΩΓΙΚΑ ΣΤΟΙΧΕΙΑ Η ΑΠΑΡΧΗ ΤΟΥ TEXT MINING ΣΤΑ ΝΟΜΙΚΑ ΚΕΙΜΕΝΑ ΛΕΠΤΟΜΕΡΕΙΕΣ ΤΟΥ ΤΟΜΕΑ Αναζήτηση σε Νομικά Δεδομένα Text Mining σε Νομικά Κείμενα 49 8

9 4.3.3 Μεθοδολογία ΝΟΜΟΛΟΓΙΑ ΝΟΜΟΘΕΣΙΑ ΣΥΝΑΦΕΙΣ ΜΕΛΕΤΕΣ-ΈΡΕΥΝΕΣ 53 ΠΕΜΠΤΟ ΚΕΦΑΛΑΙΟ - ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ TEXT MINING ΣΕ ΝΟΜΙΚΑ ΚΕΙΜΕΝΑ ΜΕ ΘΕΜΑ «ΑΥΘΑΙΡΕΤΗ ΔΟΜΗΣΗ» ΚΑΙ «ΕΚΒΙΑΣΗ» ΕΙΣΑΓΩΓΙΚΑ ΣΤΟΙΧΕΙΑ ΣΥΛΛΟΓΗ ΚΕΙΜΕΝΩΝ ΝΟΜΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ «ΑΥΘΑΙΡΕΤΗ ΔΟΜΗΣΗ» ΚΑΙ ΤΗΝ «ΕΚΒΙΑΣΗ» ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΩΝ Αφαίρεση Δομής Κειμένων Γλωσσική Προ-επεξεργασία Αφαίρεση Stopwords Stemming ΔΗΜΙΟΥΡΓΙΑ ΛΕΞΙΚΟΥ ΣΥΝΩΝΥΜΩΝ ΌΡΩΝ ΝΟΜΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Εισαγωγή Δεδομένων στο QDA Miner Επεξεργασία Δεδομένων με το Λογισμικό Wordstat ΑΝΑΠΑΡΑΣΤΑΣΗ ΚΑΙ ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ CASES Ομαδοποίηση των Cases στην Περίπτωση μη Χρήσης Λεξικού Ομαδοποίηση των Cases στην Περίπτωση Χρήσης Λεξικού Αναπαράσταση των Cases στις Δύο (2D) και Τρείς (3D) Διαστάσεις στην Περίπτωση μη Χρήσης Λεξικού Αναπαράσταση των Cases στις Δύο (2D) και Τρείς (3D) Διαστάσεις στην Περίπτωση Χρήσης Λεξικού ΤΡΟΠΟΠΟΙΗΣΗ ΠΕΡΙΟΡΙΣΜΩΝ ΣΤΗΝ ΠΕΡΙΠΤΩΣΗ ΧΡΗΣΗΣ ΛΕΞΙΚΟΥ 76 9

10 5.8 ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΠΟ ΕΜΠΕΙΡΟΓΝΩΜΟΝΑ ΜΕΛΛΟΝΤΙΚΗ ΈΡΕΥΝΑ 86 ΒΙΒΛΙΟΓΡΑΦΙΑ ΔΙΑΔΙΚΤΥΑΚΕΣ ΠΗΓΕΣ 87 ΠΑΡΑΡΤΗΜΑ Α 92 10

11 ΣΥΝΟΨΗ Σήμερα το διαδίκτυο αποτελεί πρωταρχική πηγή αναζήτησης και γνώσης. Στον παγκόσμιο ιστό, οι ψηφιακές βιβλιοθήκες και οι βάσεις δεδομένων περιέχουν εκατομμύρια έγγραφα, αριθμός ο οποίος καθημερινά αυξάνεται. Το φαινόμενο αυτό απασχολεί πολλούς ειδικούς καθώς, οι χρήστες αφιερώνουν πολύτιμο χρόνο στην προσπάθεια τους να ανακτήσουν χρήσιμες πληροφορίες μέσα από τις μεγάλες συλλογές κειμένων. Στην κατεύθυνση της επίλυσης του ανωτέρω προβλήματος, αναπτύχθηκε η τεχνική της εξόρυξης γνώσης από κείμενα (Text Mining). Μία από τις σημαντικότερες μεθόδους της εξόρυξης γνώσης από κείμενα είναι η ομαδοποίηση, η οποία έχει ως σκοπό την οργάνωση μεγάλου όγκου κειμένων σε ομάδες (clusters). Αντικείμενο της παρούσας μεταπτυχιακής εργασίας είναι, η επεξεργασία συγκεκριμένου αριθμού νομικών εγγράφων και η δημιουργία εκ του μηδενός ενός λεξικού συνωνύμων με όρους νομικού περιεχομένου. Σκοπός της, η ομαδοποίηση των εγγράφων αυτών με και χωρίς τη χρήση του λεξικού ώστε να αξιολογηθεί η αποτελεσματικότητα του. 11

12 ΠΕΡΙΛΗΨΗ Την σήμερον, σε μια εποχή τεχνολογικής άνθησης, το διαδίκτυο αποτελεί πρωταρχική πηγή αναζήτησης και γνώσης. Στον παγκόσμιο ιστό, οι ψηφιακές βιβλιοθήκες και οι βάσεις δεδομένων αριθμούν στην κατοχή τους εκατομμύρια έγγραφα, αριθμός ο οποίος καθημερινά αυξάνεται. Ως εκ τούτου, έχει δημιουργηθεί τεράστιο πρόβλημα συσσώρευσης μεγάλου όγκου κειμένων και πληροφοριών. Το φαινόμενο αυτό έχει απασχολήσει και απασχολεί πολλούς επιστήμονες και προγραμματιστές καθώς, καθημερινά εκατομμύρια χρήστες ταλαιπωρούνται και αφιερώνουν πολύτιμο χρόνο στην προσπάθεια τους να ανακτήσουν χρήσιμες πληροφορίες μέσα από μεγάλες συλλογές κειμένων. Η δυσκολία έγκειται στην αδυναμία επεξεργασίας όλης αυτής της διαθέσιμης πληροφορίας εξαιτίας, όπως προηγουμένως αναφέρθηκε, του τεράστιου όγκου των κειμενικών δεδομένων. Στην κατεύθυνση της επίλυσης του ανωτέρω προβλήματος, αναπτύχθηκε η τεχνική της εξόρυξης γνώσης από κείμενα (Text Mining), η οποία καλείται να δώσει λύση στην αναζήτηση γνώσης και πληροφορίας μέσα από τις τεράστιες βάσεις κειμενικών δεδομένων που έχουν δημιουργηθεί. Μία από τις σημαντικότερες μεθόδους εξόρυξης γνώσης από κείμενα είναι η ομαδοποίηση, η οποία έχει ως σκοπό την οργάνωση μεγάλου όγκου κειμένων σε ομάδες (clusters) βάση ορισμένων κριτηρίων ομοιότητας, βοηθώντας καθοριστικά στην ανάλυση τους και στην εξαγωγή νέων γνώσεων από αυτά. Αντικείμενο της παρούσας μεταπτυχιακής εργασίας είναι, η επεξεργασία συγκεκριμένου αριθμού νομικών εγγράφων που ανήκουν στην θεματολογία «αυθαίρετη δόμηση» και «εκβίαση» και η δημιουργία εκ του μηδενός ενός λεξικού συνωνύμων με όρους νομικού περιεχομένου. Σκοπός της εργασίας είναι, η ομαδοποίηση των προαναφερθέντων εγγράφων με και χωρίς τη χρήση του λεξικού ώστε να αξιολογηθεί η αποτελεσματικότητα του. Αναφορικά με το σώμα της εργασίας διατυπώνονται τα εξής: Στο πρώτο κεφάλαιο αναφέρονται κάποια εισαγωγικά στοιχεία σχετικά με το Text Mining. Στο δεύτερο κεφάλαιο γίνεται αναφορά στην εξόρυξη γνώσης από δεδομένα (Data Mining) περιγράφοντας τους στόχους, τις μεθόδους και τις τεχνικές που χρησιμοποιεί. Ακολούθως, 12

13 στο τρίτο κεφάλαιο περιγράφεται η εξόρυξη γνώσης από κείμενα (Text Mining), αναφέροντας τους στόχους, τις μεθόδους και τα εργαλεία που χρησιμοποιεί. Στο τέταρτο κεφάλαιο γίνεται η σύνδεση του Text Mining με τον τομέα της Νομικής και τα έγγραφα νομικού περιεχομένου. Τέλος, στο πέμπτο κεφάλαιο παρατίθεται το πρακτικό μέρος της εργασίας, η προ-επεξεργασία των κειμένων, η χρήση του λογισμικού Text Mining QDA Miner, η επεξεργασία των κειμένων, δημιουργία λεξικού συνωνύμων όρων νομικού περιεχομένου, η ανάλυση των επεξεργασμένων κειμένων με το λογισμικό ανάλυσης περιεχομένου Wordstat, η ομαδοποίηση των κειμένων, η εξαγωγή και η ανάλυση των αποτελεσμάτων. Η εν λόγω εργασία κλείνει με τις προτάσεις για μελλοντική έρευνα. 13

14 ABSTRACT Nowadays, internet is the primary search and knowledge source. Digital libraries and databases contain millions of documents, a number that increases day by day. This phenomenon concerns a lot of experts, because a huge amount of people spend their time trying to retrieve useful information through vast text collections. In order to solve the aforementioned problem, experts have developed a new technique known as Text Mining. Besides, one of the most important Text Mining methods, is Clustering through which a vast volume of texts are categorized in groups (clusters). Subject of this thesis is the processing of a specific number of legal documents and the creation from scratch of a synonym dictionary with terms of legal interest. Target of this thesis is the documents clustering, with and without the dictionary s help, in order to assess its effectiveness. 14

15 SUMMARY Nowadays, an era in which technological explosion occurs, internet is the primary search and knowledge source. Digital libraries and databases contain millions of documents, a number that increases day by day. Therefore, a huge problem has been created due to the accumulation of the vast number of existing documents and the huge information volume. This phenomenon has been addressed and employs many scientists and developers as well, because everyday millions of people spend valuable time trying to retrieve useful information through large text collections. This difficulty lies in the impossibility of processing all the available information because, as previously mentioned, there is a huge amount of textual data. One of the most important methods of text knowledge extraction is the Clustering with which a large volume of textual data is organized in groups (clusters). This process is based on certain similarity criteria and it helps decisively in texts analysis in order to draw knowledge from their content. Subject of this thesis is the processing of a specific number of legal documents that belong to the «illegal building contracture» and «extortion» categories. Also, it is the creation from scratch of a synonym dictionary with terms of legal interest. Main target of this thesis is the documents clustering, with and without the dictionary s help, in order to assess its effectiveness. The thesis has the following structure: At the first chapter, it is presented some introductory information about Text Mining. Second chapter, contains information about Data Mining concerning its objectives, methods and techniques. Subsequently, third chapter describes Text Mining, stating its objectives, methods and tools. Fourth chapter makes connection between Text Mining and Law - Legal documents field. Finally, fifth chapter sets out the practical part of the thesis, concerning the texts pre - processing, usage of the QDA Miner Text Mining software for texts processing, creation of the brand-new synonyms dictionary with terms of legal interest, analysis of the aforementioned processed texts with the Wordstat content analysis software, texts clustering, extraction and results analysis. This thesis ends with suggestions for future research. 15

16 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω θερμά τον επιβλέποντα καθηγητή κ. Βασίλειο Βουτσινά, για την αμέριστη συμπαράσταση και υποστήριξη του, κατά την εκπόνηση της μεταπτυχιακής εργασίας. Η πολύτιμη καθοδήγηση του και ο χρόνος που αφιέρωσε συνέβαλαν τα μέγιστα στην ολοκλήρωση της. Επίσης, θα ήθελα να ευχαριστήσω την υποψήφια διδάκτορα κα. Αγγελική Γιαννοπούλου και τον προγραμματιστή εφαρμογών Η/Υ κ. Αριστείδη Καμποθρέκα για τη βοήθεια που προσέφεραν και το χρόνο που αφιέρωσαν ώστε να ολοκληρωθεί η εργασία αυτή. Τέλος, ευχαριστώ θερμά την κα. Χρυσούλα Τσενέ για τη συλλογή, από τη Νομική Βάση Πληροφοριών "ΝΟΜΟΤΕΛΕΙΑ", των νομικών εγγράφων που μελετήθηκαν στην εν λόγω μεταπτυχιακή εργασία. 16

17 ΠΡΩΤΟ ΚΕΦΑΛΑΙΟ - ΕΙΣΑΓΩΓΗ 1.1 Εισαγωγικά Στοιχεία Η εξόρυξη γνώσης από κείμενα (Text Mining), είναι μία πολλά υποσχόμενη και καινοτόμα ιδέα, η οποία εισήλθε στη ζωή του σύγχρονου τεχνολογικού κόσμου την τελευταία δεκαετία. Γνήσια απόγονος της εξόρυξης γνώσης από δεδομένα (Data Mining), χρησιμοποιεί στοιχεία από τεχνικές όπως η μηχανική μάθηση (Machine Learning), η επεξεργασία φυσικής γλώσσας (Natural Language Processing), η ανάκτηση πληροφορίας (Information Retrieval), η εξαγωγή πληροφορίας (Information Extraction) και η διαχείριση γνώσης (Knowledge Management). Το TM, όπως αποκαλείται η εξόρυξη γνώσης από κείμενα, καλείται να δώσει λύση στην αναζήτηση γνώσης και πληροφορίας στις τεράστιες βάσεις κειμενικών δεδομένων που έχουν δημιουργηθεί. Ουσιαστικά, κύριος σκοπός του Text Mining είναι να βοηθήσει τους χρήστες να εξαγάγουν πληροφορίες από μεγάλο όγκο κειμένων. Η τεχνική της εξόρυξης γνώσης από κείμενα δεν περιορίζεται σε αυτό. Δύο από τις σημαντικότερες εργασίες που διεκπεραιώνει επιπλέον είναι, η κατηγοριοποίηση και η ομαδοποίηση των εγγράφων μίας βάσης δεδομένων. Αναγνωρίζει τα κοινά τους χαρακτηριστικά και τα κατατάσσει είτε σε ήδη υπάρχουσες ομάδες είτε σε ομάδες που δημιουργεί εκ του μηδενός ένας αλγόριθμος του TM. Μέχρι και σήμερα, η ανάγκη της ομαδοποίησης των εγγράφων ήταν μεγάλη. Ωστόσο, η εκθετική αύξηση του παγκόσμιου ιστού και των βάσεων δεδομένων κάνει πλέον την ανάγκη αυτή, επιτακτική. Ψηφιακές βιβλιοθήκες τομέων όπως της Ιατρικής, της Νομικής, της Αεροναυπηγικής, κ.α περιέχουν εκατομμύρια έγγραφα, με τον αριθμό αυτό να αυξάνεται εκθετικά μέρα με την ημέρα. Την ανεύρεση πληροφοριών μέσα στα κείμενα τους θα βελτιστοποιήσει η ύπαρξη θεματικών ομάδων. Συνεπώς, ένας μεγάλος αριθμός ερευνητών έχει επικεντρωθεί στην έρευνα και την ανάπτυξη τεχνικών ΤΜ με σκοπό την δημιουργία κατάλληλων εργαλείων ποιοτικής ομαδοποίησης - κατηγοριοποίησης κειμένων. Η ποιότητα της τελικής ομαδοποίησης είναι 17

18 σημαντική γιατί μπορεί να δώσει ενδιαφέρουσες ερμηνείες των κειμένων και νέες πληροφορίες σχετικά με τα χαρακτηριστικά τους. Όσον αφορά το αντικείμενο της παρούσας μεταπτυχιακής εργασίας είναι, η μελέτη και η επεξεργασία συγκεκριμένου αριθμού νομικών εγγράφων που ανήκουν στην θεματολογία «αυθαίρετη δόμηση» και «εκβίαση». Επιπρόσθετα, στο πλαίσιο της εκπόνησης της δημιουργήθηκε εκ του μηδενός ένα λεξικό συνωνύμων έξι χιλιάδων δεκαεννέα (6.019) όρων νομικού περιεχομένου. Σκοπός της εργασίας είναι, η ομαδοποίηση των ανωτέρω εγγράφων με και χωρίς τη χρήση του ανωτέρω λεξικού ώστε να αξιολογηθεί η αποτελεσματικότητα του. 18

19 ΔΕΥΤΕΡΟ ΚΕΦΑΛΑΙΟ - ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ 2.1 Εισαγωγικά Στοιχεία Στις μέρες μας, παρατηρείται ραγδαία αύξηση των δεδομένων που συλλέγονται και αποθηκεύονται σε μεγάλες βάσεις δεδομένων. Αυτό έχει συνέπεια την αδυναμία αποτελεσματικής ανάλυσης του περιεχομένου τους και εξόρυξης χρήσιμης πληροφορίας από αυτά. Έτσι, αναπτύχθηκαν μέθοδοι και εργαλεία που διευκολύνουν και βελτιστοποιούν την εξόρυξη πολύτιμης γνώσης από τα δεδομένα. Οι μέθοδοι και τα εργαλεία αυτά ανήκουν σε έναν ερευνητικό τομέα που είναι γνωστός ως ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases KDD) [1]. Η διαδικασία αυτή ασχολείται με την εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων και αποτελείται από 8 φάσεις, τις οποίες θα εξετάσουμε παρακάτω. Ίσως η σημαντικότερη από τις φάσεις του KDD είναι η εξόρυξη δεδομένων (Data Mining). Το Data Mining αναφέρεται στην εξόρυξη ή την ανακάλυψη νέων πληροφοριών με την μορφή κανόνων ή προτύπων από πηγές δεδομένων. Για να είναι πρακτικά χρήσιμες αυτές οι πληροφορίες πρέπει να έχουν εξαχθεί από μεγάλες βάσεις δεδομένων και αρχεία. Η εξόρυξη δεδομένων χρησιμοποιεί τεχνικές από την μηχανική μάθηση, την στατιστική και τα νευρωνικά δίκτυα. Στην ουσία το Data Mining είναι μία σειρά από τεχνικές που βασίζονται σε ανάπτυξη αλγορίθμων με εφαρμογή σε κλάδους όπως η Οικονομία, η Ιατρική [2], η Εκπαίδευση [3], η Βιοστατιστική, η Νομική, η Μετεωρολογία, η Γεωλογία, κ.α. Ο πιο αντιπροσωπευτικός ορισμός για το DM είναι ο ακόλουθος [4]: «εξόρυξη δεδομένων είναι η ανάλυση, συνήθως τεράστιων συνόλων δεδομένων, έτσι ώστε να βρεθούν μη παρατηρηθείσες σχέσεις και να συνοψιστούν τα δεδομένα με καινοφανείς τρόπους οι οποίοι να είναι κατανοητοί και χρήσιμοι στον κάτοχο των δεδομένων». Η δήλωση των σχέσεων στην οποία αναφέρεται ο ορισμός, συχνά αναφέρεται ως μοντέλο ή πρότυπο. 19

20 2.2 Η Διαδικασία KDD Κατά την επεξεργασία μιας τεράστιας βάσης δεδομένων, είναι πιθανό να ανακαλύψουμε την ύπαρξη «κρυμμένης γνώσης». Δηλαδή, μπορεί να εντοπίσουμε συσχετίσεις, αλληλεξαρτήσεις ή ομαδοποιήσεις μεταξύ των δεδομένων, οι οποίες ενδέχεται να μην είναι άμεσα εμφανείς. Το είδος αυτό της γνώσης θεωρείται ότι δεν είναι εκ των προτέρων διαθέσιμο, αλλά μπορεί να αποδειχθεί πολύ χρήσιμο. Την ανάγκη αυτή έρχεται να καλύψει η εξόρυξη δεδομένων, μέσω της ανάκτησης γνώσης η οποία βασίζεται στην εφαρμογή αλγορίθμων. Το DM, όπως ήδη έχουμε αναφέρει, αποτελεί τον πυρήνα της γενικότερης μεθοδολογίας της ανακάλυψης της γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases KDD). Η KDD είναι μία αυτοματοποιημένη διαδικασία, μέσω της οποίας γίνεται η ανάλυση και μοντελοποίηση τεράστιων αποθηκών δεδομένων. Πρόκειται για μια μεθοδολογία αναγνώρισης έγκυρων και πρωτότυπων προτύπων μέσα από πολύ μεγάλες και περίπλοκες βάσεις δεδομένων, με στόχο τα πρότυπα που θα προκύψουν να είναι χρήσιμα και κατανοητά. Ένας γενικός ορισμός της διαδικασίας KDD που ερμηνεύει με σαφήνεια τον όρο αυτό [5] είναι: «KDD είναι η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα». Η ονομασία αυτή της KDD χρησιμοποιείται από το 1989 (πρώτο συνέδριο KDD). Στόχος της ονομασίας είναι να φανεί ότι η γνώση είναι το τελικό προϊόν μιας ανακάλυψης καθοδηγούμενης από τα δεδομένα [1]. Με βάση τη σχετική βιβλιογραφία, θα διαχωρίσουμε τη διαδικασία KDD σε εννέα βήματα, τα οποία είναι: Η ανάπτυξη και κατανόηση της περιοχής εφαρμογής της και ο καθορισμός των στόχων του τελικού χρήστη. Η επιλογή και δημιουργία ενός κατάλληλου συνόλου δεδομένων. Οι πολλαπλές πηγές δεδομένων μπορούν να συνδυαστούν καθορίζοντας το σύνολο στο οποίο τελικά η διαδικασία εξόρυξης θα εκτελεστεί. 20

21 Η δημιουργία στόχου συνόλου δεδομένων. Επιλογή του συνόλου δεδομένων (δηλαδή μεταβλητές, δείγματα δεδομένων) στο οποίο η διαδικασία εξόρυξης πρόκειται να εκτελεσθεί. Ο καθαρισμός και η προ-επεξεργασία των δεδομένων. Αυτό το βήμα περιλαμβάνει βασικές τις διαδικασίες της διαμόρφωσης, μέτρησης και αφαίρεσης του «θορύβου» και τις στρατηγικές διαχείρισης των ελλειπόντων πεδίων δεδομένων. Ο μετασχηματισμός των δεδομένων. Τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για εξόρυξη. Ο καθορισμός των στόχων και η επιλογή των κατάλληλων αλγορίθμωνμεθόδου εξόρυξης δεδομένων. Σε αυτό το βήμα αποφασίζουμε το στόχο της διαδικασίας KDD και τι τελικά θέλουμε να επιτύχουμε. Επίσης, επιλέγονται οι μέθοδοι που θα χρησιμοποιηθούν. Αυτό περιλαμβάνει την επιλογή του κατάλληλου μοντέλου και παραμέτρων. Η εξόρυξη δεδομένων. Εφαρμόζουμε ευφυείς μεθόδους, ψάχνουμε για ενδιαφέροντα πρότυπα γνώσης. Η αξιολόγηση των προτύπων. Τα εξαγόμενα πρότυπα αξιολογούνται με κάποια μέτρα, προκειμένου να προσδιοριστούν τα πρότυπα τα οποία αντιπροσωπεύουν τη γνώση, δηλαδή τα αληθινά ενδιαφέροντα πρότυπα. Η παρουσίαση της γνώσης. Σε αυτό το βήμα, η εξορυγμένη γνώση απεικονίζεται στο χρήστη μέσω τεχνικών αντιπροσώπευσης γνώσης. Η διαδικασία KDD θεωρείται διαλογική και επαναληπτική, δηλαδή μπορεί κατά την εκτέλεση της να απαιτηθεί επιστροφή σε ένα από τα προηγούμενα βήματα. Για να είναι σαφής η διαφορά μεταξύ διαδικασίας και εργαλείων, αναφέρουμε ότι ο όρος KDD χρησιμοποιείται για την περιγραφή ολόκληρης της διαδικασίας ανακάλυψης γνώσης από ένα σύνολο δεδομένων, ενώ ο όρος ΕΔ αναφέρεται στις τεχνικές που χρησιμοποιούνται για την ανακάλυψη της γνώσης. 21

22 Εικόνα 1: Data Mining: KDD Process 2.3 Στόχοι της Εξόρυξης Γνώσης από Δεδομένα Οι στόχοι της διαδικασίας εξόρυξης γνώσης από δεδομένα είναι σαφείς και καθορισμένοι και συνοψίζονται στα ακόλουθα: Πρόβλεψη. Η εξόρυξη δεδομένων μπορεί να δείξει την συμπεριφορά κάποιων γνωρισμάτων των δεδομένων στο μέλλον. Ταυτοποίηση. Οι μορφές των δεδομένων μπορούν να χρησιμοποιηθούν για να προσδιορισθεί η ύπαρξη ενός προϊόντος, ενός γεγονότος, η μιας δραστηριότητας. Ταξινόμηση. Η εξόρυξη δεδομένων μπορεί να διαμερίσει τα δεδομένα ώστε να μπορούν να προσδιορισθούν διαφορετικές κλάσεις ή κατηγορίες με βάση συνδυασμούς παραμέτρων. 22

23 Βελτιστοποίηση. Ένας ενδεχόμενος στόχος της εξόρυξης δεδομένων μπορεί να είναι η βελτιστοποίηση της χρήσης μέσων όπως ο χρόνος, ο χώρος, το χρήμα, τα υλικά και η μεγιστοποίηση μεταβλητών όπως οι πωλήσεις, τα κέρδη, κ.α. 2.4 Μέθοδοι Εξόρυξης Γνώσης από Δεδομένα Με στόχο την εξόρυξη γνώσης από δεδομένα έχουν αναπτυχθεί αρκετοί μέθοδοι. Οι πιο σημαντικές από αυτές είναι οι εξής: Κατηγοριοποίηση Συσταδοποίηση Κανόνες Συσχέτισης Πρότυπα Ακολουθιών Παλινδρόμηση Ομοιότητα Χρονολογικών σειρών Περιληπτική Παρουσίαση Πληροφορίας Κατηγοριοποίηση Η κατηγοριοποίηση (Classification) αποτελεί μια από τις βασικές τεχνικές εξόρυξης δεδομένων. Η μέθοδος βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου και στην αντιστοίχηση του βάσει αυτών σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν είναι εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης είναι η τοποθέτηση των εγγραφών αυτών στις προκαθορισμένες κατηγορίες. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από τον καθορισμό των κατηγοριών. Σκοπός της είναι η δημιουργία ενός μοντέλου το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιήσει δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί. Στις περισσότερες περιπτώσεις, υπάρχει ένα περιορισμένος αριθμός κατηγοριών και εμείς θα πρέπει να αναθέσουμε επιτυχώς κάθε εγγραφή στην κατάλληλη κατηγορία. 23

24 Εικόνα 2: Data Mining: Classification Function Συσταδοποίηση Η συσταδοποίηση (Clustering) είναι η μέθοδος διαχωρισμού ενός συνόλου δεδομένων σε ένα σύνολο συστάδων (clusters). Αυτό που διαφοροποιεί τη συσταδοποίηση από την κατηγοριοποίηση είναι ότι η συσταδοποίηση δε βασίζεται σε προκαθορισμένες κατηγορίες. Τα δεδομένα οργανώνονται σε συστάδες με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Εικόνα 3: Data Mining: Clustering Function Κανόνες Συσχέτισης Η εξαγωγή κανόνων συσχέτισης (Association Rules) αποτελεί μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Αυτό που καθιστά ιδιαίτερα ενδιαφέρουσα την διαδικασία εξόρυξης κανόνων συσχέτισης είναι ο συνοπτικός τρόπος με 24

25 τον οποίο παρουσιάζονται οι χρήσιμες πληροφορίες, οι οποίες γίνονται εύκολα κατανοητές από τους χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: Α Β, όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα. Χαρακτηριστικό παράδειγμα διαδικασίας εξαγωγής κανόνων συσχετίσεων είναι «το καλάθι της νοικοκυράς». Η τεχνική Market Basket Analysis βασίζεται στην θεωρία ότι αν κάποιος πελάτης αγοράσει κάποιο συγκεκριμένο προϊόν (ή σύνολο προϊόντων), τότε είναι πολύ πιθανό (ή αντίστοιχα ελάχιστα πιθανό) να αγοράσει και ένα άλλο προϊόν (ή σύνολο προϊόντων) [6] [7]. Εικόνα 4: Data Mining: Association Rules Function Market Basket Analysis Πρότυπα Ακολουθιών Η εξόρυξη πρότυπων ακολουθιών (Sequential Patterns) είναι η εξόρυξη των συχνά εμφανιζόμενων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες. Οι περισσότερες μελέτες στα πρότυπα ακολουθιών επικεντρώνονται στα συμβολικά πρότυπα. Ο χρήστης 25

26 εδώ μπορεί να προσδιορίσει τους περιορισμούς στα είδη των προτύπων ακολουθιών που εξάγονται με την παροχή των προσχεδίων προτύπων (template patterns) υπό μορφή σειριακών επεισοδίων, παράλληλων επεισοδίων ή κανονικών εκφράσεων. Εικόνα 5: Data Mining: Sequential Patterns Function Παλινδρόμηση Η παλινδρόμηση (Regression) είναι θέμα το οποίο έχει μελετηθεί πολύ στην στατιστική και στα νευρωνικά δίκτυα. Κύριος σκοπός εδώ είναι η πρόβλεψη της τιμής μιας μεταβλητής μελετώντας τις τιμές που είχε στο παρελθόν. Συνήθως χρησιμοποιούμε ένα μοντέλο για την μεταβλητή. Η παλινδρόμηση καλύπτει ένα μεγάλο τμήμα του τομέα της εξόρυξης δεδομένων που έχει να κάνει με τις προβλέψεις. Η παλινδρόμηση μπορεί να χρησιμοποιηθεί παραδείγματος χάριν, για τον υπολογισμό της πιθανότητας να καταδικαστεί ένας κατηγορούμενος με βάση τα αποτελέσματα της προανακριτικής εξέτασης. 26

27 Εικόνα 6: Data Mining: Regression Function Ομοιότητα Χρονολογικών Σειρών Μια χρονολογική σειρά είναι μια ακολουθία ορισμών κάθε ένας από τους οποίους έχει μία ετικέτα χρόνου (timestamp). Χαρακτηριστικά, υποθέτουμε ότι οι διαδοχικοί αριθμοί χωρίζονται από ένα σταθερό χρονικό διάστημα και το πραγματικό timestamp παραλείπεται. Τα δεδομένα μιας χρονολογικής σειράς είναι πανταχού παρόντα Περιληπτική Παρουσίαση Πληροφορίας Περιλαμβάνει τη διαδικασία ανεύρεσης μιας συμπαγούς περιγραφής για ένα σύνολο δεδομένων. Οι τεχνικές της περιληπτικής παρουσίασης της πληροφορίας εφαρμόζονται συχνά στη διαλογική διερευνητική ανάλυση δεδομένων και στην αυτοματοποιημένη παραγωγή εκθέσεων. 2.5 Τεχνικές Εξόρυξης Γνώσης Για την επιτυχή διεκπεραίωση των διαφόρων εργασιών Data Mining έχουν αναπτυχθεί πολλές τεχνικές. Κάποιες από τις πιο σημαντικές τεχνικές είναι οι ακόλουθες: Τα Δέντρα Απόφασης (Decision Trees) Τα Νευρωνικά Δίκτυα (Neural Networks) 27

28 Οι Bayesian Ταξινομητές Τμηματοποίηση Διαμερισμού (Partitional Clustering) Δέντρα Απόφασης (Decision Trees) Τα δέντρα απόφασης (Decision Trees) έχουν μελετηθεί αρκετά και χρησιμοποιούνται ευρέως στις περιπτώσεις της ταξινόμησης και της πρόβλεψης. Ένα δέντρο απόφασης αντιπροσωπεύει μια σειρά από IF THEN κανόνες ξεκινώντας από τη ρίζα του δέντρου και καταλήγοντας στα φύλλα του. Οι εσωτερικοί κόμβοι ενός δέντρου απόφασης αντιπροσωπεύουν τα γνωρίσματα του προβλήματος, οι ακμές τις δυνατές τιμές των γνωρισμάτων αυτών και τα φύλλα τις πιθανές κλάσεις του προβλήματος. Για να γίνει κατανοητό, ας υποθέσουμε ότι έχουμε ένα σύνολο εγγραφών και μια λίστα χαρακτηριστικών για κάθε μία από αυτές. Ένα δέντρο απόφασης, στο σύνολο των εγγραφών, είναι ένα δέντρο όπου κάθε κόμβος του αντιστοιχεί με το όνομα ενός χαρακτηριστικού Xi, κάθε κλαδί/σύνδεση ονοματίζεται με ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που αποτελεί το όνομα του κόμβου και κάθε φύλλο δηλώνει μια κλάση. Στα δέντρα απόφασης γίνεται χρήση της τεχνικής «διαίρει και βασίλευε» για τη διαίρεση του χώρου αναζήτησης σε υποσύνολα. Ξεκινώντας από τη ρίζα του δέντρου, ο αλγόριθμος της τεχνικής, δημιουργεί υποσύνολα με βάση το βέλτιστο χαρακτηριστικόγνώρισμα. Για καθένα απ αυτά τα επιμέρους υποσύνολα εφαρμόζεται επαναληπτικά η παραπάνω διαδικασία χρησιμοποιώντας τα εναπομείναντα χαρακτηριστικά ως κριτήρια δημιουργίας νέων υποσυνόλων. Η διάσπαση των εγγραφών προχωρά και σταματά όταν όλα τα στιγμιότυπα του υποσυνόλου ανήκουν στην ίδια κλάση ή έχουν εξαντληθεί όλα τα χαρακτηριστικά-γνωρίσματα τους. Έστω για παράδειγμα το κλασσικό πρόβλημα που προσπαθεί να απαντήσει στο ερώτημα «Παίξε ποδόσφαιρο» και το οποίο έχει δύο κλάσεις: «Παίξε» και «Μην παίζεις». Η απάντηση στο πρόβλημα εξαρτάται από τους εξής παράγοντες: τον καιρό (με πιθανές τιμές: ήλιος, βροχή, συννεφιά), την υγρασία (με πιθανές τιμές: υψηλή, κανονική) και τον αέρα (με πιθανές τιμές :δυνατός, αδύνατος). Στην εικόνα 7 φαίνεται το δέντρο απόφασης 28

29 του προβλήματος. Περιέχει 3 εσωτερικούς κόμβους, σε κάθε κόμβο γίνεται έλεγχος ως προς κάποιο από τα γνωρίσματα του προβλήματος, ενώ στα φύλλα του περιέχονται οι κλάσεις του προβλήματος. Εικόνα 7: Δέντρο απόφασης για το πρόβλημα «παίξε ποδόσφαιρο» Τα δέντρα απόφασης χρησιμοποιούνται ευρέως στην επιστήμη και την βιομηχανία και αρκετοί αλγόριθμοι έχουν αναπτυχθεί για το σκοπό αυτό, όπως για παράδειγμα ο ID3. Βασικός λόγος για τον οποίο τα δέντρα απόφασης είναι δημοφιλή είναι η ικανότητα τους να απαντούν με ακρίβεια σε προβλήματα ταξινόμησης και πρόβλεψης, καθώς και η ευκολία με την οποία διατυπώνονται σε φυσική γλώσσα (η οποία είναι κατανοητή για το χρήστη) Νευρωνικά Δίκτυα (Νeural Νetworks) Τα νευρωνικά δίκτυα αποτελούν μια τεχνική η οποία μπορεί να εφαρμοστεί για πρόβλεψη, ταξινόμηση και τμηματοποίηση. Η ικανότητά τους να μαθαίνουν από τα δεδομένα μιμείται την ικανότητα των ανθρώπων να μαθαίνουν από τις εμπειρίες τους. Χρησιμοποιούνται για την εξαγωγή προτύπων και τον προσδιορισμό τάσεων, διαδικασίες 29

30 πολύπλοκες να εκτελεστούν από άνθρωπο ή υπολογιστικές μηχανές. Ένα νευρωνικό δίκτυο το οποίο έχει σχεδιαστεί για ένα πρόβλημα, μπορεί να κάνει έγκυρες προβλέψεις για τα νέα στιγμιότυπα του προβλήματος αυτού. Τα νευρωνικά δίκτυα χρησιμοποιούν ένα σύνολο από στοιχεία επεξεργασίας (κόμβους) ανάλογους με τους νευρώνες στο ανθρώπινο μυαλό. Οι κόμβοι αυτοί διασυνδέονται μεταξύ τους σε ένα δίκτυο που μπορεί να αναγνωρίσει τα πρότυπα, μόλις αυτά παρουσιαστούν μέσα σε ένα σύνολο δεδομένων. Δηλαδή, το δίκτυο μπορεί να μαθαίνει από την εμπειρία του όπως ακριβώς κάνουν και οι άνθρωποι. Συνήθως τα νευρωνικά δίκτυα λειτουργούν με τρόπο που, μια συγκεκριμένη είσοδος οδηγεί σε μια συγκεκριμένη έξοδο. Τα νευρωνικά δίκτυα είναι πολύ ισχυρά εργαλεία, με άκρως ικανοποιητική απόδοση ακόμη και σε μη κλασσικές περιπτώσεις Data Mining προβλημάτων. Επίσης, έχουν πολύ μεγάλη ανοχή σε ελλιπή δεδομένα ή δεδομένα με «θόρυβο». Για το λόγο αυτό χρησιμοποιούνται ευρέως παρά το γεγονός ότι, η ερμηνεία τους είναι δύσκολη και ότι δεν είναι τόσο κατανοητά από τον άνθρωπο όσο για παράδειγμα τα δέντρα απόφασης. Εικόνα 8: Η δομή ενός νευρωνικού δικτύου 30

31 ΤΡΙΤΟ ΚΕΦΑΛΑΙΟ - ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ 3.1 Εισαγωγικά Στοιχεία Ζούμε στην «Εποχή της πληροφορίας». Είναι πολύ γνωστή η ρήση του συγγραφέα και μελλοντολόγου Gohn Naisbitt: «Πνιγόμαστε στις πληροφορίες αλλά διψάμε για γνώση». Καθημερινά, σε δημόσιες και ιδιωτικές υπηρεσίες παράγονται και αποθηκεύονται, σε ογκώδεις βάσεις δεδομένων, εκατομμύρια κειμενικά δεδομένα. Τα δεδομένα αυτά μπορεί να είναι έγγραφα ετερογενών μορφών και μπορεί να απαντηθούν σε διαφορετικές γλώσσες. Έτσι, χρόνος και προσπάθεια δαπανούνται καθημερινά στις αναζητήσεις πληροφοριών στις εν λόγω βάσεις δεδομένων. Αναζητήσεις οι οποίες, λόγω της αδόμητης και διαφορετικής μορφής των δεδομένων, καθίστανται δυσκολότερες και άκρως χρονοβόρες. Ταυτόχρονα, τα δεδομένα που είναι διαθέσιμα αυξάνονται συνεχώς. Ως εκ τούτου, η ανάγκη για αυτοματοποιημένη εξαγωγή χρήσιμης πληροφορίας από τεράστιες βάσεις δεδομένων που περιέχουν κυρίως κείμενα είναι προφανής. Η ανεύρεση γνώσης από κείμενο (Knowledge Discovery in Text) και η εξόρυξη γνώσης από κείμενο (Text Mining) [8] είναι οι πιο αυτοματοποιημένες τεχνικές που στοχεύουν στην ανακάλυψη πληροφοριών υψηλού επιπέδου μέσα από τεράστιες βάσεις αποθηκευμένων κειμένων. Η ανεύρεση γνώσης από κείμενο (KDT) και το Text Mining (ΤΜ) είναι ένας νέος ερευνητικός τομέας, ο οποίος χρησιμοποιεί τεχνικές της εξόρυξης από δεδομένα (Data Mining), την μηχανική μάθηση (Machine Learning), την επεξεργασία της φυσικής γλώσσας (Natural Language Processing), την ανάκτηση πληροφορίας (Information Retrieval), την εξαγωγή πληροφορίας (Information Extraction) και την διαχείριση γνώσης (Knowledge Management). Είναι ένας τομέας με μεγάλες προκλήσεις και ανεξάντλητο πεδίο εφαρμογής. 31

32 3.2 Τι είναι το Text Mining Αυτή την περίοδο το Text Mining είναι αρκετά δημοφιλές. Είναι επίσης γνωστό ως Text Data Mining [9] και ανεύρεση γνώσης σε κείμενο (Knowledge Discovery in Text - KDT). Θα μπορούσαμε να το ορίσουμε ως μια διαδικασία εξαγωγής νέας πληροφορίας από μια συλλογή κειμένων. Οι Karanikas, Theodoulidis [8] ορίζουν το Text Mining ως: «Ένα βήμα στην διαδικασία του KDT που αποτελείται από ιδιαίτερους αλγορίθμους του Data Mining και της επεξεργασίας της φυσικής γλώσσας, που κάτω από μερικούς αποδεκτούς υπολογιστικούς περιορισμούς αποδοτικότητας, παράγουν έναν ιδιαίτερο αριθμό από υποδείγματα μέσα από ένα σύνολο μη δομημένων κειμενικών δεδομένων». Οι Nahm και Mooney [10] περιγράφουν το Text Mining ως: «Την αναζήτηση των patterns σε μη δομημένο κείμενο», ενώ οι Besancon και Rajman [11] το θεωρούν ως «Επέκταση του γνωστού Data Mining σε μη δομημένα κείμενα, η οποία περιλαμβάνει διάφορους στόχους όπως εξαγωγή γνώσης και δημιουργία δομής βασισμένη στην ομοιότητα». Σαν ορισμό του Text Mining θα μπορούσαμε να δώσουμε τον ακόλουθο: «Το Text Mining είναι μια διαδικασία εξαγωγής νέας πληροφορίας μέσω της οποίας ο χρήστης αλληλεπιδρά με μία συλλογή κειμένων χρησιμοποιώντας ένα σύνολο εργαλείων ανάλυσης». Στόχος του ΤΜ είναι να ανακαλυφθούν οι μέχρι τώρα άγνωστες και καλά κρυμμένες πληροφορίες σε κείμενα που είναι αποθηκευμένα σε τεράστιες βάσεις δεδομένων. 3.3 Text Mining και Data Mining Όπως ήδη έχει αναφερθεί, η εξόρυξη γνώσης από δεδομένα (Data Mining) αποτελεί μία φάση της KDD διαδικασίας και ορίζεται ως η διαδικασία της ανακάλυψης κρυµμένων προτύπων και μοντέλων µε αυτόµατο ή ημιαυτόματο τρόπο. Απώτερος στόχος, η περιγραφή των ήδη υπάρχοντων δεδομένων μιας βάσης δεδομένων καθώς επίσης και η πρόβλεψη και εξήγηση νέων δεδομένων. 32

33 Το Data Mining περιλαμβάνει κυρίως τις διαδικασίες και τα μέσα εξαγωγής των προτύπων από το σύνολο των δεδομένων και αφορά αποκλειστικά τα δομημένα δεδομένα. Όμως, τα τελευταία χρόνια το ενδιαφέρον στράφηκε και σε µη δομημένα δεδομένα (π.χ. κείμενα, εικόνες, έγγραφα, web-pages, κα) με αποτέλεσμα να προκύψει η διαδικασία της εξόρυξης γνώσης από κείμενα (Text Mining). Η στροφή αυτή είναι πολύ σημαντική καθώς η πλειοψηφία των δεδομένων στις μέρες μας απαντώνται µε τη μορφή µη δομημένων κειμένων. Για παράδειγμα, ένα αρχείο κειμένου περιέχει ελάχιστα δομημένα στοιχεία όπως ο συγγραφέας, ο τίτλος, η ημερομηνία δημιουργίας του, κ.α. Όμως, περιέχει και μεγάλα τμήματα µη δομημένου κειμένου όπως η περίληψη και τα περιεχόμενα του. Η εξόρυξη γνώσης από κείμενα (Text Mining) αποτελεί μια διεξοδική διεργασία γνώσης, μέσω της οποίας ο χρήστης αλληλεπιδρά με μια συλλογή κειμένων χρησιμοποιώντας ένα σύνολο εργαλείων ανάλυσης [12]. Με ανάλογο τρόπο, όπως και το Data Mining, το Text Mining αποσκοπεί στην εξαγωγή χρήσιμης πληροφορίας από πηγές δεδομένων μέσω της αναγνώρισης και της διερεύνησης ενδιαφέροντων πρωτοτύπων. Ωστόσο, στην περίπτωση του Text Mining οι πηγές δεδομένων είναι οι συλλογές κειμένων και τα ενδιαφέροντα πρότυπα αναζητούνται σε μη δομημένα δεδομένα κειμένων [13]. Το Text Mining παρουσιάζει ομοιότητες με το Data Mining. Κατά κύριο λόγο και οι δύο τύποι εξόρυξης γνώσης βασίζονται σε διεργασίες προεπεξεργασίας των δεδομένων και αλγόριθμους εξεύρεσης πρωτοτύπων. Ωστόσο, η επιφανειακή ομοιότητα μεταξύ των δύο κρύβει πραγματικές διαφορές. 3.4 Text Mining vs Data Mining Η μέθοδος της εξόρυξης γνώσης από δεδομένα (Data Mining), δηλαδή της εύρεσης πολύτιμων προτύπων ανάμεσα στα δεδομένα, αποτελεί μια πολύ καλή λύση για τη συλλογή και αποθήκευση μεγάλου όγκου δεδομένων. Αν και το πεδίο εφαρμογής της είναι διευρυμένο δεν αποτελεί μια αναδυόμενη τεχνολογία. Αντίθετα η εξόρυξη γνώσης από κείμενα (Text Mining) αποτελεί μια νέα μέθοδο στον τομέα της ανεύρεσης γνώσης η οποία είναι προσιτή, καθώς οι πληροφορίες που πρέπει να εξαχθούν αναφέρονται σε κείμενο. 33

34 Η εξόρυξη γνώσης από κείμενα παρουσιάζει μεγάλες ομοιότητες με την κλασική μέθοδο εξόρυξης γνώσης από δεδομένα καθώς και οι δύο σχετίζονται με τη διαχείριση γνώσης. Η βασική όμως διαφορά τους έγκειται στα δεδομένα που χρησιμοποιούνται σε κάθε περίπτωση. Η εξόρυξη γνώσης από δεδομένα βρίσκει εφαρμογή στις βάσεις δεδομένων όπου τα δεδομένα είναι δομημένα και περιγράφονται από μία συγκεκριμένη ενιαία δομή όπου κάθε στιγμιότυπο ενός προβλήματος ορίζεται μέσω ενός συγκεκριμένου και σταθερού συνόλου γνωρισμάτων [14]. Αντιθέτως, στην περίπτωση της εξόρυξης γνώσης από κείμενα, τα δεδομένα είναι ημι-δομημένα ή αδόμητα και δεν μπορούν να περιγραφούν μέσω κάποιου σταθερού συνόλου γνωρισμάτων [15]. Για το λόγο αυτό, η μέθοδος προσπαθεί να φέρει το κείμενο σε κατάλληλη μορφή, για την άμεση εφαρμογή των υπολογιστικών εφαρμογών της. Στη περίπτωση της εξόρυξης γνώσης από κείμενα, λοιπόν, υπάρχουν δύο βασικές προσεγγίσεις όσον αφορά την αναπαράσταση του κειμένου. Στην πρώτη προσέγγιση λαμβάνεται υπόψη η εμφάνιση ενός γνωρίσματος (λέξης) σε ένα κείμενο. Έτσι, όταν παρουσιάζεται κάποιο νέο στιγμιότυπο του προβλήματος αυτό που ελέγχεται είναι η ύπαρξη των γνωρισμάτων (λέξεων) των στιγμιότυπων στις διάφορες κλάσεις του προβλήματος. Η κλάση στην οποία εμφανίζονται οι περισσότερες λέξεις του κειμένου είναι η ζητούμενη κλάση. Στη δεύτερη προσέγγιση για κάθε γνώρισμα κρατάμε τη συχνότητα εμφάνισής του σε ένα κείμενο. Έτσι η κλάση ενός νέου στιγμιότυπου απορρέει από τη συχνότητα εμφάνισης των λέξεων του κειμένου στις διάφορες κλάσεις του προβλήματος Η κλάση στην οποία εμφανίζονται οι περισσότερες και με μεγαλύτερη συχνότητα εμφάνισης λέξεις του κειμένου είναι η ζητούμενη κλάση. 3.5 Text Mining vs Web Search Το Text Mining είναι διαφορετικό από αυτό με το οποίο είμαστε εξοικειωμένοι ως Web Search. Στην αναζήτηση στο διαδίκτυο, ο χρήστης ψάχνει για κάτι που είναι ήδη γνωστό και έχει γραφτεί από κάποιον άλλον. Το πρόβλημα όμως είναι να ξεχωρίσεις το 34

35 υλικό που δεν είναι σχετικό με τις ανάγκες σου και να κρατήσεις τα ουσιώδη προκειμένου να βρεθούν οι σχετικές πληροφορίες που ψάχνεις. 3.6 Text Mining vs Information Retrieval Επίσης, το ΤΜ παρουσιάζει διαφορές και από αυτό που είναι γνωστό ως ανάκτηση της πληροφορίας. Αντιπροσωπεύει την μετεξέλιξη του. Στην ανάκτηση της πληροφορίας γίνεται η εύρεση των κειμένων που περιέχουν ήδη τις απαντήσεις στις ερωτήσεις και όχι εύρεση νέας γνώσης. [9][16] Γενικά στην ανάκτηση πληροφορίας γίνεται μια ερώτηση και στόχος είναι να εξαχθούν όλα τα έγγραφα που είναι πιο κοντά στην ερώτηση. 3.7 Text Mining vs Information Extraction Υπάρχουν προγράμματα μου μπορούν με λογική ακρίβεια, να εξαγάγουν πληροφορίες από κείμενο με κάπως συστηματοποιημένη δομή. Για παράδειγμα τα προγράμματα που διαβάζουν περιλήψεις και εξάγουν ονόματα ανθρώπων, διευθύνσεις, δεξιότητες εργασίας και λοιπά, μπορούν να δώσουν ακρίβεια της τάξης του 80%. Δεν μπορεί όμως αυτό θεωρηθεί Text Mining σε καμία περίπτωση. Μάλλον προέρχεται από μια περιοχή αποκαλούμενη εξαγωγή πληροφοριών. Η εξαγωγή χαρακτηριστικών γνωρισμάτων πληροφορίας δεν μπορεί να ταξινομηθεί ως Text Mining και αυτό διότι δεν περιλαμβάνει την έννοια της «καινούριας» πληροφορίας. Τα χαρακτηριστικά που εξάγονται είναι γνώση που είναι ήδη γνωστή. Βέβαια η εξαγωγή πληροφορίας περιλαμβάνεται άμεσα σε μια διαδικασία Text Mining [16]. 3.8 Κριτήρια Text Mining Ο Sharp [17] στη μελέτη του αναφέρει ότι ένα πραγματικό Text Mining μοντέλο θα πρέπει να πληροί τις κάτωθι προϋποθέσεις: Να είναι λειτουργικό σε τεράστιες συλλογές κειμένων, γραμμένες σε φυσική γλώσσα. 35

36 Να βασίζεται στη χρήση αλγορίθμων. Να εξάγει μονάδες πληροφοριών όπως για παράδειγμα υποδείγματα (patterns). Το σημαντικότερο όλων, να ανακαλύπτει νέα γνώση. 3.9 Βήματα Text Mining βήματα [8]: Η διαδικασία του Text Mining συνοψίζεται ουσιαστικά στα παρακάτω τρία (3) Η συλλογή των εγγράφων που είναι σχετικά με το υπό εξέταση πρόβλημα (Document Collection): Αρχικά θα πρέπει να προσδιοριστεί η πηγή από την οποία θα ανακτήσουμε τα έγγραφα. Εν συνεχεία, γίνεται η τελική επιλογή των εγγράφων και ανακτώνται. Η προ-επεξεργασία των εγγράφων (Pre-processing): Κατά τη φάση αυτή εκτελούνται κάθε είδους διαδικασίες μετασχηματισμού, με σκοπό τα κείμενα που ανακτήσαμε να λάβουν την επιθυμητή μορφή για την επεξεργασία τους. Έπειτα, τα προκύπτοντα έγγραφα υποβάλλονται σε επεξεργασία για να παρέχουν τις χρήσιμες για το χρήστη πληροφορίες. Η εξόρυξη γνώσης (Text Mining Operations): Οι εξαγόμενες πληροφορίες με τη σειρά τους αποτελούν νέα δεδομένα (μεταδεδομένα). Μεταξύ αυτών ανακαλύπτονται σχέσεις και ομοιότητες που μας οδηγούν στα τελικά συμπεράσματα και στην ανεύρεση νέας γνώσης. Εικόνα 9: Τα τρία βήματα της εξόρυξης γνώσης από κείμενο (Text Mining) 36

37 3.10 Συλλογή Εγγράφων- Κειμένων Βασικό στοιχείο του Text Mining αποτελούν οι συλλογές εγγράφων, οι οποίες μπορεί να είναι οποιοδήποτε σύνολο εγγράφων της μορφής κειμένου. Ο αριθμός των κειμένων σε τέτοιες συλλογές μπορεί να κυμαίνεται από μερικές χιλιάδες έως πολλά εκατομμύρια. Οι συλλογές κειμένων μπορούν να είναι είτε στατικές, είτε δυναμικές. Στις στατικές, το αρχικό σύνολο κειμένων παραμένει αμετάβλητο ενώ στις δυναμικές, με την πάροδο του χρόνου εντάσσονται στη συλλογή νέα ή ενημερωμένα κείμενα. Οι εξαιρετικά μεγάλες συλλογές καθώς και οι συλλογές κειμένων με υψηλό ρυθμό αλλαγής κειμένων, θέτουν προκλήσεις και αποτελούν βασικό αντικείμενο των συστημάτων Text Mining. Χαρακτηριστικό παράδειγμα μεγάλης δυναμικής συλλογής κειμένων, την οποία χρησιμοποιούν εκατομμύρια χρήστες ανά τον κόσμο, είναι η PubMed [37]. Αποτελεί διαδικτυακή πηγή η οποία περιλαμβάνει βιβλιογραφικές αναφορές που σχετίζονται με τομείς των βιοϊατρικών επιστημών και των επιστημών υγείας. Αξίζει να σημειωθεί ότι, περιλαμβάνει πάνω από ερευνητικές αναφορές στον τομέα της βιοϊατρικής στις οποίες προστίθενται, κατά προσέγγιση, με νέες αναφορές μηνιαίως. Ως εκ τούτου, για να ξεκινήσει η διαδικασία του Text Mining, o χρήστης θα κληθεί να επιλέξει την επιθυμητή συλλογή κειμένων πάνω στην οποία θα στηριχθεί η εν λόγω διαδικασία καθώς επίσης και το εύρος των κειμένων που θα αποτελέσουν την πηγή των δεδομένων. Η συνέχεια ανήκει στο σύστημα Text Mining, το οποίο έχει τη δυνατότητα, με τη χρήση αλγορίθμων εξόρυξης γνώσης, να αναγνωρίζει πρότυπα μέσα από μεγάλο αριθμό κειμένων φυσικής γλώσσας γρήγορα και αποδοτικά. Ωστόσο, η επίτευξη αυτού προϋποθέτει την ύπαρξη επεξεργασμένων συλλογών κειμένου. Για το λόγο αυτό η σημαντικότερη διαδικασία του Text Mining είναι η φάση της προ-επεξεργασίας των υπό εξέταση κειμένων προκειμένου εν συνεχεία να εφαρμοσθούν επιτυχώς οι αλγόριθμοι εξόρυξης γνώσης. 37

38 3.11 Προ-επεξεργασία Κειμένων Η διαδικασία της προ-επεξεργασίας κειμένων αποτελεί την πιο σημαντική διεργασία ενός συστήματος Text Mining. Σκοπός της διαδικασίας αυτής είναι η βελτιστοποίηση και η αύξηση της αποτελεσματικότητας ανάκτησης της πληροφορίας μέσα από ένα σύνολο κειμενικών δεδομένων, μέσω της μείωσης του λεξιλογίου και συνεπώς του μεγέθους του ευρετηρίου των κειμένων. Αποτέλεσμα της προ-επεξεργασίας κειμένων αποτελεί η εξαγωγή των χαρακτηριστικών όρων κάθε κειμένου, οι οποίοι είναι κατάλληλοι για την αναπαράσταση του περιεχομένου κάθε κειμένου. Η προεπεξεργασία κειμένων αποτελείται από τα παρακάτω στάδια: Αφαίρεση της δομής των κειμένων. Στο στάδιο αυτό, τα κείμενα οποιασδήποτε μορφής (HTML, PDF, κτλ), αναπαριστώνται ως απλό κείμενο (.txt) και στη συνέχεια επεξεργάζονται με σκοπό να απλοποιηθεί η δομή τους. Ουσιαστικά, παύει να υφίσταται η παραγραφοποίηση, η ύπαρξη θεματικών ενοτήτων και κεφαλαίων. Τα κείμενα πλέον αναπαριστούνται από μία ενιαία παράγραφο. Λημματοποίηση (Tokenization). Ένα κείμενο αποτελείται από λήμματα (tokens), τα οποία μπορεί να είναι λέξεις, αριθμοί, σύμβολα ή σημεία στίξης. Επειδή οι αριθμοί, τα σύμβολα και τα σημεία στίξης δεν προσφέρουν καμία πληροφορία και δεν έχουν καμία σχέση με το εννοιολογικό περιεχόμενο του κειμένου μπορούν να αναγνωριστούν σε αυτό το σημείο και να αφαιρεθούν. Με αυτό τον τρόπο παραμένουν μόνο οι λέξεις του κειμένου. Αφαίρεση των Stopwords. Ως stopword θεωρείται ένας όρος ο οποίος από τη μια έχει μεγάλη συχνότητα εμφάνισης μέσα στο κείμενο και από την άλλη δεν σχετίζεται με το περιεχόμενο του κειμένου. Ένας τέτοιος όρος μπορεί να είναι μία πρόθεση, ένα άρθρο, ή ακόμη και ένας σύνδεσμος δύο προτάσεων. Αν οι όροι αυτοί συμπεριληφθούν στο ευρετήριο, λειτουργούν συνήθως ως «θόρυβος» με κίνδυνο τη μείωση της απόδοσης του συστήματος. Επομένως, με την αφαίρεση των stopwords μειώνεται το μέγεθος του ευρετηρίου. Λεξικογραφική Ανάλυση (Pos Tagging). Στη φάση της λεξικογραφικής ανάλυσης αναγνωρίζεται το μέρος του λόγου που αποτελεί κάθε λέξη του κειμένου 38

39 (ουσιαστικό, ρήμα, επίθετο, κτλ). Υπάρχουν αρκετά προγράμματα τα οποία έχουν σχεδιαστεί προκειμένου να υλοποιούν την παραπάνω διαδικασία. Χαρακτηριστικό παράδειγμα αποτελεί το Genia Tagger [47]. Κατά την υλοποίηση της διαδικασίας αυτής γίνεται η επιλογή των όρων. Επισημαίνεται ότι, επιλέγονται κυρίως τα ουσιαστικά διότι φέρουν τη πιο σημαντική πληροφορία των κειμένων. Stemming. Είναι μια κοινή μορφή επεξεργασίας της γλώσσας των κειμένων στα περισσότερα συστήματα ανάκτησης πληροφορίας. Η ιδέα είναι να βελτιωθεί η ανάκληση με τον αυτόματο χειρισμό των καταλήξεων των λέξεων και τη μείωση αυτών στις ρίζες τους. Γίνεται συνήθως με αφαίρεση των οποιοδήποτε συνημμένων επιθεμάτων και των προθεμάτων από τους όρους. Για τη διαδικασία της αποκατάληξης έχουν αναπτυχθεί αρκετοί αλγόριθμοι. Ο αλγόριθμος του Porter [36] να είναι ο δημοφιλέστερος εξ αυτών. Εικόνα 10: Βήματα προεπεξεργασίας κειμένων 3.13 Αναπαράσταση Κειμένων Για να εφαρμοστούν οι τεχνικές εξόρυξης κειμένων θα πρέπει τα κείμενα να αναπαρασταθούν σε μία μορφή που να είναι επεξεργάσιμη. Θα μπορούσαμε να πούμε ότι η πιο γνωστή μέθοδος αναπαράστασης κειμένων είναι η διανυσματική αναπαράσταση. Στην αναπαράσταση αυτή δημιουργείται ένας διανυσματικός χώρος, όπου κάθε κείμενο μπορεί να αναπαρασταθεί ως ένα διάνυσμα. Ο διανυσματικός αυτός χώρος αποτελείται από τόσες διαστάσεις όσοι είναι και οι μοναδικοί όροι των κειμένων. Αυτό προκύπτει από την ιδέα ότι το νόημα κάθε κειμένου μπορεί να εξαχθεί από τους όρους εκείνους που αντικατοπτρίζουν το σημασιολογικό του περιεχόμενο. Έτσι λοιπόν, στην διανυσματική 39

40 αναπαράσταση κάθε κείμενο ως διάνυσμα αναπαρίσταται από ένα σύνολο όρων. Για το λόγο αυτό, προκειμένου να εντοπισθούν οι μοναδικοί όροι που θα αποτυπώσουν το νόημα του κειμένου, οι οποίοι στη συνέχεια θα αποτελέσουν τις διαστάσεις του διανυσματικού χώρου, η προ-επεξεργασία κειμένων προηγείται της αναπαράστασης. Υπάρχουν δύο βασικοί τρόποι που χρησιμοποιούνται για τη διανυσματική αναπαράσταση κειμένων: Boolean Model. Σε ένα Boolean διανυσματικό μοντέλο η κάθε διάσταση του διανυσματικού χώρου μπορεί να πάρει τη τιμή 1 ή τη τιμή 0. Όπως προαναφέραμε κάθε όρος ενός κειμένου αντιστοιχεί σε μία διάσταση. Επομένως, η τιμή 1 σε μία διάσταση σημαίνει ότι ο όρος εκείνος εμφανίζεται στο κείμενο, ενώ η τιμή 0 σημαίνει ότι ο όρος αυτός δεν υπάρχει στο κείμενο. Term Weight Model. Σε ένα Term Weight διανυσματικό μοντέλο σημαντικό ρόλο παίζει η συχνότητα εμφάνισης των όρων στα κείμενα. Αυτό σημαίνει ότι σε κάθε διάσταση του διανυσματικού χώρου αντιστοιχεί μία τιμή, η οποία υποδηλώνει τη συχνότητα εμφάνισης του εκάστοτε όρου στο κείμενο. Μία αρκετά παρόμοια μέθοδος αυτού του τύπου είναι το Term Frequency Inverse Document Frequency Weighting (TF IDF) Μέθοδοι Text Mining Ο κύριος στόχος του Text Mining είναι να βοηθήσει τους χρήστες να εξαγάγουν πληροφορίες από μεγάλους κειμενικούς πόρους. Οι κύριες μέθοδοι του TM που συντείνουν στο στόχο αυτό είναι οι εξής: Εξαγωγή Πληροφοριών (Information Extraction) Κατηγοριοποίηση (Categorization) Ομαδοποίηση (Clustering) Συνόψιση (Summarization) Απεικόνιση Πληροφορίας (Information Visualization) 40

41 Διασύνδεση Εννοιών (Concept Linkage) Εξαγωγή Οντολογιών (Ontology Extraction) Εξαγωγή Πληροφοριών (Information Extraction) Η διαδικασία της κατανόησης του κειμένου ξεκινάει με την εξαγωγή των πληροφοριών του. Το λογισμικό εξαγωγής πληροφοριών αναγνωρίζει φράσεις-κλειδιά και σχέσεις μέσα στο κείμενο. Για παράδειγμα στην παρακάτω φράση «Στο επιστημονικό συνέδριο που διεξήχθη την Δευτέρα στο Μόναχο της Γερμανίας παρευρέθησαν εξέχουσες προσωπικότητες του επιστημονικού και όχι χώρου, μεταξύ αυτών η Καγκελάριος Μ., ο Επίτροπος Α., ο Αστροφυσικός επιστήμονας Δρ. Κ.» το λογισμικό θα πρέπει να αναγνωρίσει ως πρόσωπα την Καγκελάριο Μ., τον Επίτροπο Α. και τον Αστροφυσικό επιστήμονα Δρ. Κ. Επίσης, θα ορίσει ως τόπο συνάντησης το Μόναχο της Γερμανίας και χρόνο συνάντησης την ημέρα Δευτέρα. Στη συνέχεια, το λογισμικό βρίσκει τις σχέσεις μεταξύ των προσώπων, της τοποθεσίας και του χρόνου προσφέροντας στο χρήστη ενδιαφέρουσες πληροφορίες. Το Text Mining χρησιμοποιεί την τεχνολογία εξαγωγής πληροφοριών κατά κόρον καθώς αποδεικνύεται ότι είναι εξαιρετικά αποτελεσματική στην αντιμετώπιση μεγάλου όγκου κειμένων Κατηγοριοποίηση (Categorization) Η κατηγοριοποίηση αναφέρεται στην αναγνώριση των βασικών στοιχείων ενός εγγράφου, τοποθετώντας το κείμενο του σε ένα προκαθορισμένο σύνολο θεμάτων. Αντίθετα με την απλή τεχνική κατηγοριοποίησης ενός εγγράφου που εκτελεί ένας Η/Υ, στην κατηγοριοποίηση του Text Mining μετράται η συχνότητα εμφάνισης των λέξεων η οποία καθορίζει τα κυρίως θέματα που πραγματεύεται το έγγραφο. Η κατηγοριοποίηση συνήθως βασίζεται στην ύπαρξη ενός θησαυρού λέξεων, των οποίων τα θέματα είναι προκαθορισμένα, και οι σχέσεις αναγνωρίζονται εξετάζοντας ευρύτερες ή στενότερες έννοιες, συνώνυμα και σχετικούς όρους Τα εργαλεία κατηγοριοποίησης ουσιαστικά αποτελούν μια μέθοδο αξιολόγησης των εγγράφων. 41

42 Η κατηγοριοποίηση μπορεί να χρησιμοποιηθεί παράλληλα με την παρακολούθηση θεματογραφίας ενός θέματος. Τα έγγραφα που ανακτώνται από την παρακολούθηση μπορούν να αξιολογηθούν με βάση το περιεχόμενο τους έτσι, ώστε να δοθεί μεγαλύτερη σημασία στα έγγραφα που παρουσιάζουν τη μεγαλύτερη συνάφεια. Η κατηγοριοποίηση έχει ποικίλες εφαρμογές. Αρκετές επιχειρήσεις παρέχουν υποστήριξη στους πελάτες τους απαντώντας σε ερωτήσεις πάνω σε διάφορα θέματα μέσω κατηγοριοποίησης εγγράφων ανά θεματική ενότητα. Με αυτό τον τρόπο οι πελάτες μπορούν να βρουν την πληροφορία που αναζητούν αμεσότερα. Χαρακτηριστικό παράδειγμα αποτελεί η ιστοσελίδα ebay [38] Ομαδοποίηση (Clustering) Η ομαδοποίηση είναι η τεχνική που χρησιμοποιείται, για να κατατάξει μαζί παρόμοια έγγραφα. Όμως, διαφέρει από την κατηγοριοποίηση καθώς, τα έγγραφα ομαδοποιούνται εκείνη τη στιγμή και δεν υπάρχει προκαθορισμένη θεματολογία. Πλεονέκτημα της ομαδοποίησης αποτελεί το γεγονός ότι, τα έγγραφα μπορεί να εμφανίζονται σε πολλά επιμέρους θέματα, διασφαλίζοντας ότι ένα χρήσιμο έγγραφο δεν θα παραληφθεί από τα αποτελέσματα της έρευνας. Η τεχνολογία ομαδοποίησης μπορεί να αποβεί ιδιαίτερα χρήσιμη στην οργάνωση των συστημάτων διοίκησης πληροφοριών (MIS), τα οποία είναι δυνατόν να περιέχουν χιλιάδες εγγράφων. Υπολογίζεται ότι, το 80% των πληροφοριών των επιχειρήσεων βρίσκεται σε γραπτή μορφή στα αρχεία τους (ηλεκτρονική αλληλογραφία, έγγραφα, παρουσιάσεις κ.ά.). Εικόνα 11: Γραφική απεικόνιση ομαδοποίησης εγγράφων 42

43 Συνόψιση (Summarization) Η συνόψιση ενός κειμένου αποδεικνύεται εξαιρετικά χρήσιμη στην προσπάθεια κατανόησης της ουσίας του περιεχομένου ενός κειμένου. Μας οδηγεί στο συμπέρασμα εάν αυτό καλύπτει ή όχι τις απαιτήσεις του χρήστη με σκοπό να προχωρήσει σε αναλυτική ανάγνωση του. Το λογισμικό συνόψισης επεξεργάζεται και συνοψίζει ένα μεγάλο έγγραφο σε ελάχιστο χρονικό διάστημα. Το ζητούμενο στη συνόψιση είναι η ελάττωση της έκτασης και της λεπτομέρειας ενός εγγράφου, διατηρώντας όμως τα βασικά του σημεία και το συνολικό νόημα. Ο άνθρωπος έχει τη δυνατότητα να διαβάζει ένα κείμενο στο σύνολο του, να το κατανοεί και έπειτα να συνοψίζει τα βασικά του στοιχεία. Αντίθετα, ο Η/Υ δεν κατέχει αντίστοιχες, με τον άνθρωπο, δεξιότητες. Το γεγονός ότι, οι Η/Υ αν και μπορούν να αναγνωρίσουν πρόσωπα, τοποθεσίες και χρονικές αναφορές, είναι δύσκολο να αναλύσουν και να ερμηνεύσουν σημασιολογικά ένα κείμενο εγείρει μία πρόκληση και καθιστά απαραίτητη την εξέταση εναλλακτικών μεθόδων. Μία από τις ευρύτερα χρησιμοποιούμενες στρατηγικές είναι η εξαγωγή προτάσεων. Για παράδειγμα, θα μπορούσε να γίνεται η εξαγωγή των φράσεων που ακολουθούν λέξεις ή εκφράσεις, όπως «συνοψίζοντας», «εν κατακλείδι» κ.ά., οι οποίες κατά κανόνα χρησιμοποιούνται για την παράθεση των βασικών στοιχείων ενός εγγράφου. Επιπλέον, μπορούν να αναγνωρίσουν επικεφαλίδες και άλλα σημεία υποενοτήτων, ώστε να αναγνωρίσουν τα βασικά στοιχεία του εγγράφου. Το εργαλείο αυτόματης σύνοψης του Microsoft Word είναι ένα τέτοιο παράδειγμα απλού εργαλείου συνόψισης. Η συνόψιση θα μπορούσε κάλλιστα να λειτουργήσει σε συνδυασμό με τα εργαλεία παρακολούθησης θεματογραφίας ή κατηγοριοποίησης, για την δημιουργία περιλήψεων σε έγγραφα που ανακτώνται σε ένα συγκεκριμένο θέμα Απεικόνιση Πληροφορίας (Information Visualization) Η απεικόνιση πληροφοριών οργανώνει μεγάλες πηγές κειμένου και τις ιεραρχεί, προσφέροντας κάτι παραπάνω από μία απλή αναζήτηση, την περιήγηση. Αποτελεί 43

44 χρήσιμο εργαλείο όταν απαιτείται ο περιορισμός ενός μεγάλου όγκου εγγράφων και η αναζήτηση σχετικών θεματικών ενοτήτων. Η τεχνική αυτή, χρησιμοποιείται προκειμένου να δημιουργηθεί μία γραφική αντιπροσώπευση της συλλογής εγγράφων. Αυτή η προσέγγιση υποστηρίζει και υποβοηθάει το χρήστη στον προσδιορισμό των κύριων θεμάτων ή των πιο σημαντικών εννοιών. Ο στόχος είναι, με τη χρήση υπολογιστικών μετασχηματισμών, να μειωθεί η γνωστική προσπάθεια εξέτασης μεγάλων συλλογών από έγγραφα και να βοηθηθεί η ανακάλυψη νέας γνώσης. Μία εφαρμογή απεικόνισης πληροφοριών είναι και το SPIRE (Spatial Paradigm for Information Retrieval and Exploration) [18]. Αντίστοιχη δυνατότητα προσφέρει και το πακέτο λογισμικού QDA Miner WordStat [19] Διασύνδεση Εννοιών (Concept Linkage) Με τα εργαλεία της διασύνδεσης εννοιών συνδέονται σχετικά έγγραφα και αναγνωρίζονται οι κοινές μεταξύ τους έννοιες, βοηθώντας το χρήστη να ανακαλύψει πληροφορίες οι οποίες πιθανόν να μην ήταν δυνατόν να βρεθούν με τη χρήση άλλων μεθόδων. Βασίζεται στην περιήγηση για την εύρεση πληροφοριών και όχι στην αναζήτηση. Η διασύνδεση εννοιών είναι μία από τις ποιο χρήσιμες τεχνικές του Text Mining, με εφαρμογή σε αρκετούς κλάδους των επιστημών. Ιδιαίτερη χρήση γνωρίζει στον τομέα της βιοϊατρικής, όπου η έρευνα είναι εκτεταμένη και είναι αδύνατο για έναν ερευνητή να διαβάσει όλο το υπό εξέταση υλικό κάνοντας ταυτόχρονα τις απαραίτητες συνδέσεις μεταξύ των μερών αυτού. Ένα λογισμικό Text Mining που βασίζεται στην διασύνδεση των εννοιών μπορεί εύκολα να αναγνωρίσει μία σύνδεση μεταξύ των θεμάτων Α και Β και Β και Γ, τα οποία αντιπροσωπεύουν γνωστές συσχετίσεις. Αλλά το λογισμικό μπορεί να ανιχνεύσει και την ύπαρξη ενός ενδεχόμενου δεσμού μεταξύ του Α και του Γ, κάτι το οποίο ένας ερευνητής δεν έχει ανακαλύψει ακόμα, εξαιτίας του μεγάλου όγκου πληροφοριών 44

45 Εξαγωγή Οντολογιών (Ontology Extraction) Η κύρια ώθηση στις οντολογίες δόθηκε από το όραμα του σημασιολογικού ιστού (semantic web), ο οποίος εφευρέθηκε από τον Tim Berners Lee [4]. Στον ιστό αυτό παρέχουν την εννοιολογική υποστήριξη, για να καταστήσουν τη σημασιολογία μίας μηχανής μεταδεδομένων ερμηνεύσιμη [20]. Η οντολογία αποτελεί μία επίσημη ρητή περιγραφή μίας κοινής εννοιολογικής σύλληψης σε ένα τομέα ενδιαφέροντος. Προς το παρόν, η βαθιά κατανόηση της έννοιας του κειμένου είναι ακόμη αδύνατη. Μόλις υλοποιηθεί μία αξιόπιστη μέθοδος εξαγωγής οντολογιών, η μεγάλης κλίμακας ημιαυτόματη δημιουργία οντολογικού περιεχομένου θα καταστεί επίσης δυνατή. Ο χρήστης, ξεκινώντας με μία αρχικά επεξεργασμένη οντολογία, και με τη χρήση τεχνικών Text Mining, συλλέγοντας κείμενα με τις έννοιες που περιγράφονται και εφαρμόζοντας τις μεθόδους εξαγωγής οντολογιών, θα μπορούσε, κατά την διαδικασία αξιολόγησης της αρχικής οντολογίας, να αναγνωρίσει την ύπαρξη συγκρουόμενων προοπτικών στις εννοιολογικές σχέσεις και να δημιουργήσει πρόσθετες σχέσεις στον πληθυσμό της αρχικής οντολογίας, επεκτείνοντας την Εφαρμογές Από τους πιο ενεργούς τομείς στην εφαρμογή του Text Mining είναι η βιοπληροφορική και οι βιο-επιστήμες. [16]. Το καλύτερα γνωστό παράδειγμα, όπως αναφέρει η M.Hearst [21], είναι η εργασία του Dan Swanson για τις υποτιθέμενες αιτίες των σπάνιων ασθενειών με την έρευνα των έμμεσων συνδέσεων στα διαφορετικά υποσύνολα της λογοτεχνίας των βιοεπιστημών. Άλλος τομέας εφαρμογής του TM είναι αυτός της ασφάλειας. Πολλά πακέτα λογισμικού εξόρυξης κειμένου απευθύνονται σε εφαρμογές ασφαλείας, ειδικά στην παρακολούθηση και ανάλυση των online πηγών κειμένου (ειδήσεις στο Διαδίκτυο, Blogs, κ.α) για λόγους εθνικής ασφάλειας [22]. Το ΤΜ τα τελευταία χρόνια βρίσκει εφαρμογή και στο Marketing [23]. Πιο συγκεκριμένα στην αναλυτική διαχείριση των πελατειακών σχέσεων και στη βελτίωση των προγνωστικών μοντέλων που αφορούν τις απώλειες πελατών. 45

46 Ακόμα, την εξόρυξη γνώσης από κείμενα συναντάται σε ακαδημαϊκές εφαρμογές, στην οικονομία την νομική και πολλούς άλλους τομείς της καθημερινότητας μας. 46

47 ΤΕΤΑΡΤΟ ΚΕΦΑΛΑΙΟ - ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ ΝΟΜΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ 4.1 Εισαγωγικά Στοιχεία Όπως ήδη έχουμε αναφέρει σε προηγούμενα Κεφάλαια η εξόρυξη γνώσης από κείμενα αποτελεί μια επέκταση της παραδοσιακής τεχνικής εξόρυξης δεδομένων, η οποία έχει στόχο να χειριστεί αδόμητα δεδομένα κειμένου. Στις μέρες μας, σημαντική ποσότητα δεδομένων αποθηκεύεται σε αδόμητες κειμενικές βάσεις δεδομένων. Αυτό το γεγονός καθιστά την έρευνα στον τομέα της εξόρυξης γνώσης από κείμενα όλο και πιο σημαντική. Όπως επισημαίνει ο Kong [24], η τεράστια ποσότητα των λέξεων και η μεγάλη ποικιλία των κανόνων κατασκευής προτάσεων σε φυσική γλώσσα, σε συνδυασμό με την αβεβαιότητα και την ασάφεια ενός κειμένου καθιστά το TM πρόκληση. Ο Kong [24] αναφέρει επίσης ότι, η μη προσανατολισμένη πτυχή της γλωσσικής ανάλυσης καθιστά πολύ διαφορετικό και πολύπλοκο το TM σε σχέση με τις τεχνικές ανάλυσης δομημένων δεδομένων. Η διαδικασία της νομικής συλλογιστικής και επιχειρηματολογίας βασίζεται σε πληροφορίες που προέρχονται από διάφορα έγγραφα όπως αποφάσεις προηγούμενων υποθέσεων, νομικά βιβλία, ιστοσελίδες νομικού περιεχομένου και ενημερωτικά portals [39]. Το TM βρίσκει εφαρμογή στο τομέα αυτό, παρέχοντας βαθύτερη και «έξυπνη» γνώση από τα διαθέσιμα κειμενικά νομικά δεδομένα. Το Text Clustering ομαδοποιεί έγγραφα με βάση τα περιεχόμενα τους, χωρίς να λάβει κανένα στοιχείο από το χρήστη. Η συγκέντρωση αυτή αποδεικνύεται ιδιαίτερα χρήσιμη στο φιλτράρισμα των άσχετων δεδομένων και ως εκ τούτου στη βελτιστοποίηση της αναζήτησης συγκεκριμένων νομικών μελετών. 47

48 4.2 Η απαρχή του Text Mining στα Νομικά κείμενα Οι δικηγόροι, οι δικαστές και γενικά όλοι οι επαγγελματίες νομικοί του χώρου, μελετούσαν ανέκαθεν νομοθεσίες, νομολογίες και παλαιότερες υποθέσεις με σκοπό να εξάγουν χρήσιμες πληροφορίες οι οποίες θα τους βοηθήσουν στην αντιμετώπιση της δικής τους υπόθεσης. Ωστόσο, οι υποθέσεις αυτές εκφράζονται σε φυσική γλώσσα, αφορούν εξαιρετικά πολύπλοκα θέματα που είναι υπό αμφισβήτηση, συνδέονται με νόμους και νομολογίες που δικαιολογούν την απόφαση και τέλος εμφανίζουν περίπλοκες σχέσεις αλληλεξάρτησης, όπως όταν η απόφαση μιας υπόθεσης ανατρέπει απόφαση προηγούμενης. Ως εκ τούτου, οι επαγγελματίες νομικοί θα πρέπει να υποβάλλονται σε εκτεταμένη εκπαίδευση στην πλοήγηση της βάσης δεδομένων παλαιότερων υποθέσεων, στην ερμηνεία των αποφάσεων, στην εξαγωγή συμπερασμάτων βάση αυτών και την εφαρμογή των εν λόγω συμπερασμάτων με επιτυχία στην τρέχουσα υπόθεσή τους. Η πολυπλοκότητα της διαδικασίας μεγαλώνει εάν αναλογιστούμε ότι, η βάση δεδομένων αποτελείται από ένα τεράστιο αριθμό υποθέσεων και μεγαλώνει εκθετικά χρόνο με το χρόνο. Έτσι, ο τομέας της Νομικής αντιμετώπισε το δύσκολο έργο της ανάκτησης και ερμηνείας πληροφοριών από βάσεις δεδομένων. Ιστορικά, οι επαγγελματίες νομικοί είχαν στη διάθεση τους μια ποικιλία από εργαλεία που τους έδινε τη δυνατότητα να χρησιμοποιήσουν, να διαχειριστούν και να αναζητήσουν πληροφορίες στις βάσεις δεδομένων ενδιαφέροντος τους με σκοπό να εντοπίσουν σχετικές υποθέσεις με τις δικές τους. Επανάσταση όμως στον κλάδο έφερε η εφαρμογή της τεχνικής του Text Mining καθώς βελτιστοποίησε και έκανε πιο αποτελεσματική τη διαδικασία εύρεσης συναφών νομικών κειμένων. 4.3 Λεπτομέρειες του Τομέα Οι λεπτομέρειες του τομέα συνοψίζονται στις κάτωθι υποενότητες. 48

49 4.3.1 Αναζήτηση σε Νομικά Δεδομένα Ένας δικηγόρος πρέπει να εκτελέσει εκτεταμένη έρευνα μεταξύ διάφορων νομικών εγγράφων για κάθε περίπτωση που εξετάζει, ώστε να καταλήξει σε ένα συμπέρασμα. Τα έγγραφα αυτά περιλαμβάνουν αποφάσεις παλαιότερων υποθέσεων, κοινοποιήσεις θέσεων, νομολογίες, άρθρα, κα. Τα εν λόγω κείμενα θα μπορούσαν να υποδιαιρεθούν σε διάφορες κατηγορίες με βάση το δικαστικό σύστημα της κάθε χώρας. Για παράδειγμα έγγραφα που αφορούν υποθέσεις ποινικού, αστικού, εταιρικού και στρατιωτικού δικαίου. Στις μέρες μας, με την διαθεσιμότητα όλων αυτών των νομικών εγγράφων σε ηλεκτρονικές βάσεις δεδομένων, η έρευνα κειμένων νομικού περιεχομένου αποτελεί μια τελείως αυτοματοποιημένη διαδικασία η οποία εκτελείται με τη βοήθεια ηλεκτρονικού υπολογιστή. Πολλές online βάσεις νομικών δεδομένων, όπως η LexisNexis [40] και η Μanupatra [41] παρέχουν πληροφορίες που σχετίζονται με νομικό τομέα. Οι πληροφορίες αυτές είναι άμεσα διαθέσιμες, ανακτώνται από ημι-δομημένα ή αδόμητα έγγραφα και μπορούν να αναζητηθούν κατά κύριο λόγο με τη χρήση μιας λέξης «κλειδί». Με την πρόοδο που επιτελέστηκε τα τελευταία χρόνια στο τομέα της εξόρυξης και ανάκτησης πληροφορίας, η διαδικασία αναζήτησης γίνεται όλο και πιο εύκολη. Όμως, λόγω του όγκου και την εγγενή πολυπλοκότητα των κειμενικών δεδομένων, η εύρεση σχετικών μεταξύ τους εγγράφων, χωρίς κατάλληλο υπόβαθρο γνώσεων εξακολουθεί να είναι ένα δύσκολο έργο Text Mining σε Νομικά Κείμενα Όλοι μας έχουμε την τάση να γράφουμε σε φυσική γλώσσα. Δεδομένου ότι δεν χρειάζεται καμία εκπαίδευση, το ελεύθερο κείμενο είναι ο ευκολότερος τρόπος για την ανάπτυξη νέων εγγράφων. Ως εκ τούτου, τα δεδομένα που δημιουργούνται και τα οποία έχουν τη μορφή μη δομημένων ή ημι-δομημένων κειμένων απαντώνται σε αφθονία. Όμως, με μικρή δόση ειρωνείας θα λέγαμε ότι, αυτή η πιο κοινή μορφή δεδομένων είναι και η πιο πολύπλοκη στην ανάλυση. Η περιπλοκότητα αυτή οφείλεται στην αδόμητη μορφή των κειμένων, στη σημασιολογική υποκειμενικότητα, στην ασάφεια και την ευαισθησία ερμηνείας που εμφανίζουν οι εγγενείς φυσικές γλώσσες. Τα ζητήματα αυτά περιπλέκουν τη διαδικασία της ανακάλυψης γνώσης από κείμενο. 49

50 Κάπου εδώ κάνει την εμφάνιση του το Text Mining το οποίο αποσκοπεί στην ανακάλυψη της γνώσης μέσα από κειμενικά δεδομένα. Πολυάριθμοι αλγόριθμοι και τεχνικές έχουν εφαρμοστεί με σκοπό να βελτιωθεί η διαδικασία της εξόρυξης γνώσης από κειμενικά δεδομένα. Ενώ, βασικές δραστηριότητες του TM όπως η ταξινόμηση και η ομαδοποίηση κειμένων εξακολουθούν να βρίσκουν εφαρμογή στην KDT, οι ερευνητές προτείνουν νέες τεχνικές με σκοπό την βελτιστοποίηση της διαδικασίας [25]. Η διαδικασία της εξόρυξης γνώσης από δεδομένα κειμένου παίρνει εισόδους (inputs) από διάφορους συναφείς τομείς. Η ανάκτηση και εξαγωγή πληροφοριών βρίσκεται στον πυρήνα των δραστηριοτήτων του TM. Ο τρόπος γραφής των υπό εξέταση κειμένων απαιτεί ανάπτυξη τεχνικών επεξεργασίας γλώσσας ώστε, να αντιμετωπιστεί η απουσία δόμησης και η ύπαρξη ασαφειών που υπάρχουν σε αυτά Μεθοδολογία Όπως φαίνεται στο σχήμα, η προτεινόμενη μελέτη διεξάγεται στα εξής βήματα: Συλλογή δεδομένων. Το σύνολο των εγγράφων νομικού περιεχομένου συλλέγονται από νομικές βάσεις δεδομένων. Στην πραγματικότητα θα αποτελούν το αποτέλεσμα της αναζήτησης μιας συγκεκριμένης έννοιας με τη βοήθεια λέξεων «κλειδιών». Για παράδειγμα, για την έννοια εκπαίδευση λέξεις «κλειδιά» μπορούν να αποτελούν όροι όπως σχολείο, καθηγητής, μαθητής, κ.α.. Αυτά τα έγγραφα μπορούν να θεωρηθούν ως η είσοδος ενός συνόλου δεδομένων. Κατασκευή ενός μοντέλου γνώσης χρησιμοποιώντας τεχνικές ομαδοποίησης των δεδομένων. Αυτό το βήμα ακολουθεί τις παραδοσιακές δραστηριότητες εξόρυξης γνώσης από κείμενο: Προεπεξεργασία. Αφορά την απαλοιφή των stopwords, το stemming, κλπ. Ομαδοποίηση. Χρησιμοποιώντας το κατάλληλο λογισμικό και αλγόριθμο τα δεδομένα μας ομαδοποιούνται σε ομάδες, βάσης της μεταξύ τους συνάφειας. Για παράδειγμα στο σύνολο των δεδομένων εισόδου, όπως περιγράφεται στο βήμα 1 (συλλογή δεδομένων), θα μπορούσε να έχει έγγραφα που θα μπορούσαν να 50

51 ομαδοποιηθούν περαιτέρω, εκπαίδευση, πρωτοβάθμια εκπαίδευση κλπ. όπως τριτοβάθμια εκπαίδευση, δευτεροβάθμια Αξιολόγηση του μοντέλου γνώσης. Το αναπτυχθέν μοντέλο θα πρέπει να αξιολογηθεί με βάση τα αποτελέσματα που έδωσε. Εικόνα 12: Μεθοδολογία Text Mining που εφαρμόζεται στα νομικά κείμενα 4.4 Νομολογία Σε χώρες με νομικά συστήματα που χρησιμοποιούν το κοινό δίκαιο, όπως οι Ηνωμένες Πολιτείες, το Ηνωμένο Βασίλειο, η Ελλάδα, η νομολογία διαδραματίζει έναν κρίσιμο ρόλο στη νομική αιτιολόγηση και τη λήψη αποφάσεων. Με τον όρο νομολογία ορίζεται η δια δικαστικών αποφάσεων ερμηνεία και εφαρμογή των νόμων, που συνήθως λαμβάνουν το όνομα του αρμόδιου δικαστηρίου που τις εκδίδει π.χ. νομολογία Αρείου Πάγου, Συμβουλίου Επικρατείας κλπ [42]. Η νομολογία στη χώρα μας, σε αντίθεση με άλλα δίκαια (π.χ. αγγλοσαξονικό), δεν αποτελεί άμεση πηγή δικαίου ούτε συντελεί στη διαμόρφωση δικαίου αλλά μπορεί να θεωρηθεί ως έμμεση πηγή δικαίου. Ο κάθε δικαστής είναι ελεύθερος να κρίνει προκειμένου να δώσει νομική λύση επί των υποβαλλομένων σε αυτόν νομικών διαφορών, έστω και αν άλλο δικαστήριο (ακόμη και ανώτερο) έχει δώσει σε όμοια περίπτωση διαφορετική νομική λύση. Σήμερα, στην πράξη, η νομολογία των ανωτέρων δικαστηρίων δεν παραβλέπεται, έστω και αν οι αποφάσεις τους δεν δεσμεύουν τον κατώτερο δικαστή, ο οποίος κατά 51

52 κανόνα δεν παρεκκλίνει από τη νομολογία των ανωτέρων δικαστηρίων, εκτός και αν συντρέχουν αποδεδειγμένα νεώτερα στοιχεία που είχαν διαφύγει της πρότερης κρίσης. Η πάγια νομολογία συντελεί στην ομοιομορφία της απονομής δικαίου, απαραίτητης στην ασφάλεια των συναλλαγών αλλά και εγγύηση των προσφευγόντων στο δικαστήριο για επίλυση διαφοράς. Η νομολογία (ερμηνεία εφαρμογή νόμων) δεν θα πρέπει να συγχέεται με τη νομοθεσία (σύνολο νόμων). Στον τόπο αυτό καταχωρούνται αποφάσεις ελληνικών και αλλοδαπών δικαστηρίων (πολιτικών, ποινικών, διοικητικών), γνωμοδοτήσεις, καθώς και αποφάσεις-πράξεις δικαιοδοτικών οργάνων κ.λπ. γενικού ή ειδικού ενδιαφέροντος. Ως εκ τούτου, νομολογία είναι το σύνολο των δικαστικών αποφάσεων που βασίζονται στην ερμηνεία του νόμου. Η νομολογία αποτελείται από τη «βάση» η οποία αφορά το περιεχόμενο της υπόθεσης και την «απόφαση» η οποία αναφέρεται στην τελική απόφαση των δικαστών. Λαμβάνοντας υπόψη μια συγκεκριμένη περίπτωση, ένας δικηγόρος αναζητά τη βάση μιας συναφούς υπόθεσης και μελετά τα στοιχεία της εν λόγω νομικής διαμάχης. Κατόπιν αυτού αναλύει την απόφαση της ανωτέρω υπόθεσης και στην εξάγει συμπεράσματα που θα του φανούν χρήσιμα στην δική του περίπτωση. Καταλήγει σε συσχετισμούς, όπως εάν οι προηγούμενες υποθέσεις που βρήκε και μελέτησε σχετίζονται με την τρέχουσα υπόθεση και εάν ναι σε ποια σημεία, καθώς και εάν οι προηγούμενες αποφάσεις είναι πιθανές να επαναληφθούν στη παρούσα υπόθεση. 4.5 Νομοθεσία Νόμοι κατά την έννοια του δικαίου, καλούνται οι θεσμοθετημένοι γραπτοί κανόνες δικαίου που στηρίζονται στο Σύνταγμα μιας χώρας, και ρυθμίζουν υποχρεωτικά τις σχέσεις μεταξύ των πολιτών, καθώς και των πολιτών με το κράτος, και ορίζουν διάφορες ρυθμίσεις για την ομαλή λειτουργία του κράτους. Το σύνολο των νόμων αλλά και η παραγωγή αυτών ονομάζεται νομοθεσία [43]. Οι νόμοι ψηφίζονται από το κοινοβούλιο και η τήρησή τους είναι υποχρεωτική για όλους τους πολίτες και φορείς. Διακρίνονται σε τρεις μεγάλες κατηγορίες: 52

53 Ουσιαστικοί: Είναι εκείνοι που περιέχουν κανόνες δικαίου ανεξάρτητα από την προέλευση αυτών. Τυπικοί: Είναι οι προερχόμενοι εκ των, κατά το Σύνταγμα, αρμοδίων νομοθετικών οργάνων. Αναγκαστικοί ή Προσωρινοί: Είναι εκείνοι που εκδίδονται σε περίπτωση έκτακτης εθνικής ανάγκης από τον αρχηγό της εκτελεστικής εξουσίας. Ακόμα, με τον όρο νομοθεσία ορίζεται και η δημιουργία καινούργιων νόμων από τη νομοθετική εξουσία, δηλαδή από τους βουλευτές. ΝΟΜΟΘΕΣΙΑ ΝΟΜΟΛΟΓΙΑ 4.6 Συναφείς Μελέτες-Έρευνες Κείμενα ή έγγραφα αποτελούν πολύ συχνή και σημαντική πηγή, ημι δομημένων ή αδόμητων, πληροφοριών. Οι Vidhya & Aghila [26] επισημαίνουν τις ομοιότητες και τις διαφορές μεταξύ των τεχνικών που χρησιμοποιούνται ευρέως για την ανάλυση κειμένου. 53

54 Μελετούν το ΤΜ ως προς τις διαδικασίες της ανάκτησης πληροφοριών, επεξεργασίας της φυσικής γλώσσας των κειμένων, της ταξινόμησης και ομαδοποίησης των εγγράφων σε συνδυασμό με τη μελέτη των αλγορίθμων ομαδοποίησης και αναφέρουν τα σχετικά εργαλεία του TM. Η «Νομική πληροφορία» αποτελείται από μια τεράστια συλλογή διάφορων εγγράφων νομικού περιεχομένου. Επίσης, η νομική έρευνα και επιχειρηματολογία είναι δύο σημαντικές διαδικασίες στο νομικό τομέα. Εφαρμογές του DM στον τομέα αυτό χρησιμοποιούνται εδώ και χρόνια. Οι περισσότερες από αυτές έχουν ως στόχο τη βελτίωση της διαδικασίας αναζήτησης νομικών εγγράφων. Ωστόσο, η εφαρμογή της αυτόοργάνωσης και ομαδοποίησης των εγγράφων αυτών, προτάθηκε από τους Merkl Dieter and Schweighofer Erich [27] το Σύντομα κάνει την εμφάνιση του το Text Mining το οποίο θα καλύψει την απαίτηση αυτή. Με την αυξημένη πρόσβαση και τη διαθεσιμότητα των δεδομένων, οι τεχνικές εφαρμογές TM στο νομικό τομέα έχουν αποκτήσει μεγαλύτερη δημοτικότητα στην τελευταία δεκαετία. Συμβάλουν κυρίως για στη βελτιστοποίηση και αποτελεσματικότητα της αναζήτησης κειμένων ενώ ταυτόχρονα δημιουργούν σχέσεις και συσχετισμούς μεταξύ αυτών. Οι Cheng, Jeffrey, Mark, Kenneth and Rachel [28] πρότειναν ένα σύστημα που βασίζεται σε τεχνικές εξαγωγής πληροφορίας για την ανάκτηση πληροφοριών από έγγραφα νομικού περιεχομένου, τα οποία είναι γραμμένα σε διάφορα στυλ γραφής και μορφοποίησης. Οι ερευνητές της IBM [29] έχουν προτείνει το μοντέλο E-discovery, το οποίο αν και βασίζεται στο ΤΜ, χρησιμοποιεί μεθόδους ανάκτησης πληροφορίας και σημασιολογικές-συντακτικές τεχνικές ανάλυσης, για τη βελτίωση της αποτελεσματικότητας της ανακάλυψης γνώσης μέσα από τεράστιες συλλογές εγγράφων νομικού περιεχομένου. Μια νέα προσέγγιση του μετασχηματισμού νομικών εγγράφων σε έγγραφα XML προτάθηκε από τους Sachindra, Deshpande, Prasad M and Thomas [29]. Αν και η τεχνική αυτή εφαρμόζεται σε περιορισμένες χώρες, η προσέγγιση αυτή έχει ως στόχο τη χρήση μη δομημένων κειμένων για την παραγωγή μεταδεδομένων προτύπων, η οποία θα συμβάλει στην αναζήτηση συγκεκριμένου περιεχομένου νομικών κειμένων στο διαδίκτυο και δυνατότητα περαιτέρω επεξεργασία αυτών. 54

55 Την κατάτμηση νομικών εγγράφων για τη βελτίωση της ακρίβειας και μείωσης της πολυπλοκότητας στην αναζήτηση πληροφοριών προτείνουν οι Palmirani & Brighi [31]. Dozier & Jackson [32] προχώρησαν σε μια πολύ ενδιαφέρουσα προσέγγιση για την αυτόματη δημιουργία μιας βάσης δεδομένων, την ExpertWitness από την ανάλυση νομικών κειμένων. Επίσης, οι Roitblat, Kershaw & Oot [33] πραγματεύονται την συγκριτική ανάλυση του ανθρώπου έναντι του υπολογιστή στην εξέταση εγγράφων στο νομικό τομέα και μελετούν τις προκλήσεις που ανοίγονται και τις δυνατότητες που δίνονται για περαιτέρω βελτίωση. Η βιβλιογραφία τονίζει, συνεπώς, την καταλληλότητα των τεχνικών εξόρυξης γνώσης από κείμενα, οι οποίες διευκολύνουν και βοηθούν τους εργαζόμενους του νομικού τομέα στην ανάκτηση πληροφοριών. Είναι επίσης προφανές ότι, η βελτίωση της ακρίβειας και της αποτελεσματικότητας στην αναζήτηση κειμένων και πληροφοριών αποτελεί τεράστια πρόκληση αν κανείς λάβει υπόψη το τεράστιο μέγεθος, την εγγενή πολυπλοκότητα και την απορρητότητα των δεδομένων. Κύρια προϋπόθεση για την εξέλιξη του ΤΜ είναι η αναζήτηση με βάση λέξειςκλειδιά που είναι ευρέως χρησιμοποιούμενες στον τομέα της Νομικής. Με νεότερες τεχνικές TM, οι ερευνητές προσπαθούν να ελαχιστοποιήσουν την εξάρτηση από το χρήστη και καθιστώντας την αναζήτηση νομικών εγγράφων πιο έξυπνη και αυτοματοποιημένη. Προτεινόμενη μελέτη στοχεύει στην ομαδοποίηση των νομικών εγγράφων κειμένου χρησιμοποιώντας διάφορες τεχνικές. Τέτοιες ομάδες θα μπορούσαν να είναι χρήσιμες στο φιλτράρισμα άσχετων, με το υπό εξέταση θέμα, εγγράφων και στην αυτόματη αναγνώριση των υποκατηγοριών μιας έννοιας. 55

56 ΠΕΜΠΤΟ ΚΕΦΑΛΑΙΟ - ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ TEXT MINING ΣΕ ΝΟΜΙΚΑ ΚΕΙΜΕΝΑ ΜΕ ΘΕΜΑ «ΑΥΘΑΙΡΕΤΗ ΔΟΜΗΣΗ» ΚΑΙ «ΕΚΒΙΑΣΗ» 5.1 Εισαγωγικά Στοιχεία Όπως ήδη έχουμε αναφέρει σε προηγούμενα Κεφάλαια η εξόρυξη γνώσης από κείμενα νομικού περιεχομένου αποτελεί μια πρόκληση για τον τομέα της νομικής και ένα πεδίο έρευνας ανοιχτό σε νέες ιδέες και προτάσεις, με σκοπό τη βελτιστοποίηση της διαδικασίας εύρεσης πολύτιμης πληροφορίας. Μία βάση δεδομένων νομικών εγγράφων αποτελείται από εκατομμύρια κείμενα, καθένα από τα οποία αναφέρεται σε μία συγκεκριμένη νομολογία ή νομοθεσία. Στο πλαίσιο εκπόνησης της παρούσας μεταπτυχιακής εργασίας χρησιμοποιήθηκε ένας συγκεκριμένος αριθμός νομικών κειμένων, θεματολογίας σχετικής με την «αυθαίρετη δόμηση» και την «εκβίαση». Αντικείμενο της εν λόγω εργασίας είναι, η επεξεργασία των ανωτέρω νομικών εγγράφων και η δημιουργία εκ του μηδενός ενός λεξικού συνωνύμων με όρους νομικού περιεχομένου. Με τη χρήση του λογισμικού QDA Miner, επιτελέστηκε η ομαδοποίηση των προαναφερθέντων νομικών κειμένων, με τη διαδικασία να εκτελείται εις διπλούν. Την πρώτη φορά, εκτελέστηκε χρησιμοποιώντας το λεξικό συνωνύμων, ενώ τη δεύτερη φορά άνευ της χρησιμοποίησης του. Σκοπός της εργασίας είναι η ομαδοποίηση των εγγράφων που χρησιμοποιήθηκαν στην έρευνα, με και χωρίς τη χρήση του λεξικού συνωνύμων με όρους νομικού περιεχομένου, ώστε να αξιολογηθεί η αποτελεσματικότητα του. 56

57 5.2 Συλλογή Κειμένων Νομικού Περιεχομένου Σχετικά με την «Αυθαίρετη Δόμηση» και την «Εκβίαση» Για την εκπόνηση της εργασίας χρησιμοποιήθηκαν εκατόν δύο (102) νομικά κείμενα, νομοθεσίες και νομολογίες, θεματολογίας σχετικής με την αυθαίρετη δόμηση και την εκβίαση καθώς επίσης και τρία (3) νομικά κείμενα θεματολογίας διαφορετικής με αυτής του υπόλοιπου σώματος. Τα εν λόγω κείμενα αντλήθηκαν νομίμως από τη Νομική Βάση Πληροφοριών «ΝΟΜΟΤΕΛΕΙΑ», κατόπιν σχετικής άδειας για νόμιμη χρήση αυτών. 5.3 Προ-επεξεργασία Κειμένων Η προ-επεξεργασία κειμένων αφορά την αρχική μορφοποίηση του περιεχομένου των κειμένων ώστε αυτά να αποκτήσουν την κατάλληλη δομή και γλωσσική μορφή με σκοπό την δημιουργία προϋποθέσεων για περαιτέρω επεξεργασία και ανάλυση αυτών. Τα βήματα τα οποία υλοποιήθηκαν είναι τα ακόλουθα: Αφαίρεση Δομής Κειμένων Γλωσσική Προ-επεξεργασία (Αφαίρεση Συμβόλων, Case Folding) Αφαίρεση Stopwords Stemming Αφαίρεση Δομής Κειμένων Σε αυτό το βήμα, αφαιρέθηκε η κύρια δομή των κειμένων. Τα εκατόν πέντε (105) κείμενα, κάθε ένα από τα οποία αποτελεί ξεχωριστό case για την εργασία, τροποποιήθηκαν με τέτοιο τρόπο ώστε το καθένα από αυτά να αποτελεί μία ξεχωριστή παράγραφο. Στη συνέχεια, το σύνολο των τροποποιημένων κειμένων, δηλαδή το σύνολο 57

58 των παραγράφων, ενώθηκαν σε ένα ενιαίο κείμενο. Στην τελική τους μορφή αποτελούν ένα κειμενικό αρχείο εκατόν πέντε (105) παραγράφων. Όμως, το κειμενικό αυτό αρχείο που περιέχει το σύνολο των νομικών κειμένων που εξετάστηκαν, είναι της μορφής «.doc». Αυτό σημαίνει ότι, για το άνοιγμα του απαιτείται το πρόγραμμα Microsoft Word. Ωστόσο, μέσω της λειτουργίας του Word «αποθήκευσης ως» τα κείμενα αποθηκεύτηκαν σε διαφορετική μορφή «.txt», ώστε το περιεχόμενο τους να καταστεί εκμεταλλεύσιμο από το λογισμικό QDA Miner το οποίο θα εκτελέσει την ομαδοποίηση των κειμενικών δεδομένων Γλωσσική Προ-επεξεργασία Αρχικός στόχος της προ-επεξεργασίας των εγγράφων αποτελεί η αφαίρεση όλων των περιττών συμβόλων και των σημείων στίξης καθώς αυτά δεν προσφέρουν καμία πληροφορία και δεν έχουν καμία σχέση με το εννοιολογικό περιεχόμενο του κειμένου. Η διαδικασία αφαίρεσης όλων των περιττών συμβόλων και σημείων στίξης, όπως για παράδειγμα: _ ( ) + # % -., /! &, πραγματοποιήθηκε μέσω της επιλογής «Εύρεση» και «Αντικατάσταση» του Microsoft Word. Στη συνέχεια, εφαρμόσθηκε το Case Folding, μετατρέποντας τους πεζούς χαρακτήρες των εγγράφων σε κεφαλαίους, ώστε όλοι να έχουν την ίδια μορφή. Η μετατροπή αυτή εκτελέστηκε μέσω της επιλογής «Αλλαγή πεζών κεφαλαίων» του Microsoft Word. Με αυτό τον τρόπο επετεύχθη και η αφαίρεση του τονισμού των λέξεων Αφαίρεση Stopwords Τα stopwords είναι γενικά λέξεις που εμφανίζονται πολύ συχνά σε ένα κείμενο, χωρίς όμως να φέρουν ιδιαίτερη πληροφορία σχετικά με το περιεχόμενο του κειμένου. Η ύπαρξη τους καθορίζεται από συντακτικούς και εννοιολογικούς κανόνες. Παράδειγμα stopwords αποτελούν οι σύνδεσμοι των προτάσεων. Η αφαίρεση των stopwords από τα κείμενα νομικού περιεχομένου που εξετάστηκαν, πραγματοποιήθηκε μέσω του αλγορίθμου Greek Text Similarity. Ο 58

59 συγκεκριμένος αλγόριθμος έχει δημιουργηθεί και χρησιμοποιείται από το εργαστήριο Πληροφοριακών Συστημάτων Διοίκησης & Επιχειρηματικής Νοημοσύνης Πανεπιστημίου Πατρών [35]. Επισημαίνεται, πως ο αριθμός των όρων, των νομικών κειμένων που τελούν υπό εξέταση, πριν την αφαίρεση των stopwords ανερχόταν στις τετρακόσιες είκοσι επτά χιλιάδες εξήντα ( ) λέξεις ενώ, κατόπιν της αφαίρεσης των stopwords στις διακόσιες είκοσι μία χιλιάδες επτακόσιες τριάντα εννέα ( ) λέξεις, όπως φαίνεται και στις ακόλουθες εικόνες. Η τεράστια αυτή διαφορά στο σύνολο των όρων πριν και μετά την αφαίρεση των stopwords, αποτυπώνει το μέγεθος του «θορύβου» που αποτελούν οι σύνδεσμοι και τα λοιπά εννοιολογικά στοιχεία στο περιεχόμενο των υπό εξέταση νομικών κειμένων. Εικόνα 13: Σύνολο όρων-λέξεων των νομικών κειμένων πριν την αφαίρεση των stopwords 59

60 Εικόνα 14: Σύνολο όρων-λέξεων των νομικών κειμένων κατόπιν της αφαίρεσης των stopwords Stemming Το stemming των λέξεων αποσκοπεί στη μείωση του αριθμού των όρων-λέξεων, μέσω των οποίων γίνεται η αναπαράσταση των κειμένων. Η συγκεκριμένη διαδικασία είναι ιδιαίτερα σημαντική κατά τη διαδικασία της ομαδοποίησης, αφού καθιστά τη διαδικασία λιγότερο εξαρτώμενη από τις ιδιαίτερες μορφές των λέξεων. Ουσιαστικά, κατά τη διαδικασία του stemming, πραγματοποιείται η αναγωγή του συνόλου των λέξεων ενός κειμένου στη ρίζα τους, δημιουργώντας ταυτόχρονα ομάδες ομόριζων λέξεων. Για παράδειγμα οι λέξεις «αγαπάω», «αγάπη», «αγάπησε», «αγαπητικός», «αγαπημένος» μπορούν να αναχθούν στην κοινή τους ρίζα «αγαπ». Μια μορφή μετασχηματισμού λέξεων, stemming, είναι η διαδικασία της μετατροπής του πληθυντικού αριθμού των λέξεων στον ενικό και η μετατροπή των παρελθοντικών χρόνων των ρημάτων στον ενεστώτα. Οι αλγόριθμοι που εκτελούν τη μετατροπή μιας λέξης στη γλωσσολογικά ορθή ρίζα της καλούνται «Lemmatizers» και η διαδικασία «Lemmatization». 60

61 Υπάρχουν αρκετοί αλγόριθμοι για stemming. Ένας από αυτούς είναι ο αλγόριθμος Lovins Stemmer [34]. Ο πλέον όμως, δημοφιλής αλγόριθμος για stemming είναι και ο αλγόριθμος του Porter [36], τον οποίο χρησιμοποιεί και το λογισμικό ανάλυσης περιεχομένου WordStat. Αξίζει να σημειωθεί όμως, πως οι δύο παραπάνω αλγόριθμοι βρίσκουν εφαρμογή σε λέξεις της αγγλικής γλώσσας, ενώ δεν υποστηρίζουν το ελληνικό αλφάβητο. Στην παρούσα πτυχιακή εργασία, τα νομικά κείμενα που μελετήθηκαν ήταν γραμμένα στην ελληνική γλώσσα. Για την εκτέλεση της διαδικασίας stemming σε αυτά χρησιμοποιήθηκε ο αλγόριθμος Greek Text Similarity του εργαστηρίου Πληροφοριακών Συστημάτων Διοίκησης & Επιχειρηματικής Νοημοσύνης Πανεπιστημίου Πατρών [35]. 5.4 Δημιουργία Λεξικού Συνωνύμων Όρων Νομικού Περιεχομένου Την προ-επεξεργασία των δεδομένων διαδέχεται η φάση της επεξεργασίας των δεδομένων. Το λογισμικό που θα χρησιμοποιηθεί στη παρούσα πτυχιακή εργασία για τη διαδικασία του Text Mining είναι το QDA Miner. Με τη βοήθεια του εν λόγω λογισμικού θα πραγματοποιηθεί η ομαδοποίηση των νομικών κειμένων που ήδη έχουν επιλεχθεί και αποτελούν ξεχωριστά cases για την έρευνα. Το λογισμικό QDA Miner με σκοπό τη βέλτιστη ομαδοποίηση χρησιμοποιεί λεξικά συνωνύμων τα οποία αναφέρονται σε διάφορες κατηγορίες, όπως αθλητισμός, εμφάνιση, τέχνες, οικογένεια, οικονομία, ανάλογα με το περιεχόμενο των υπό εξέταση κειμένων. Το ανωτέρω λογισμικό αναγνωρίζει τις συνώνυμες λέξεις των κειμένων και τις αντικαθιστά με έναν κοινό όρο. Ως εκ τούτου, οι κοινές λέξεις μεταξύ των κειμένων πληθαίνουν και κατά συνέπεια η συχνότητα εμφάνισης αυτών. Συνεπώς, η ομαδοποίηση που επιτυγχάνεται είναι αποτελεσματικότερη καθώς με την αντικατάσταση των συνωνύμων οι μοναδικοί εμφανιζόμενοι όροι περιορίζονται και αυξάνεται η συχνότητα εμφάνισης αυτών. Στο σημείο όμως αυτό θα πρέπει να αναφερθεί ότι το QDA Miner δεν αναγνωρίζει και δεν υποστηρίζει τα ελληνικά λεξικά συνωνύμων. Επιπρόσθετα, παρόλο που το Text Mining εφαρμόζεται τα τελευταία χρόνια στον τομέα της Νομικής, δεν έχει δημιουργηθεί ακόμα κάποιο αντιπροσωπευτικό και αξιόπιστο ελληνικό λεξικό συνωνύμων όρων νομικού περιεχομένου. 61

62 Ως εκ τούτου, στο πλαίσιο της παρούσας πτυχιακής εργασίας και στην προσπάθεια για εξεύρεση καλύτερων αποτελεσμάτων, δημιουργήθηκε ένα ελληνικό λεξικό συνωνύμων μεγέθους έξι χιλιάδων δέκα εννέα (6019) όρων νομικού και μη περιεχομένου. Αξίζει να σημειωθεί ότι κατά μέσο όρο αντιστοιχούν τέσσερις (4) συνώνυμες λέξεις για κάθε όρο που δίνεται ως είσοδος. Η δυσκολία δημιουργίας αμιγούς λεξικού συνωνύμων νομικών όρων έγκειται στο γεγονός ότι η πλειονότητα των νομικών όρων που χρησιμοποιούνται στη Νομική είναι μοναδικοί και εξειδικευμένοι καθώς αναφέρονται σε συγκεκριμένα πράγματα και καταστάσεις. Ως λεξικά συνώνυμων όρων είναι θα μπορούσαν να αναφερθούν το Wordnet [44] το οποίο είναι λεξικό συνωνύμων της αγγλικής γλώσσας καθώς επίσης και το Openthesaurus [45] και το Lexigram [46] τα οποία είναι λεξικά συνωνύμων της ελληνικής γλώσσας. Συνοψίζοντας, το λεξικό που αναπτύχθηκε δημιουργήθηκε εκ του μηδενός, αποτελώντας ένα πολύτιμο εργαλείο όχι μόνο στη διαδικασία του Legal Text Mining αλλά και γενικότερα στην τεχνική ανεύρεσης γνώσης από κείμενα. Το λεξικό θα μπορούσε κάλλιστα να αποτελέσει βάση για ένα μελλοντικά περαιτέρω εμπλουτισμένο λεξικό συνώνυμων όρων. Τέλος, αναφέρεται ότι το λεξικό που δημιουργήθηκε, θα αποτελεί από τούδε και στο εξής ένα επιπλέον εργαλείο του εργαστηρίου Πληροφοριακών Συστημάτων Διοίκησης & Επιχειρηματικής Νοημοσύνης Πανεπιστημίου Πατρών [35] με σκοπό την επεξεργασία κειμένων και όχι μόνο. 5.5 Επεξεργασία Δεδομένων Καθώς η προ-επεξεργασία των δεδομένων ολοκληρώθηκε, σειρά έχει η επεξεργασία των δεδομένων. Στόχος της παρούσας εργασίας είναι, η επεξεργασία των δεδομένων να εκτελεστεί δύο φορές. Την πρώτη φορά, στη φάση της προ-επεξεργασίας των κειμένων δεν θα γίνει χρήση του λεξικού συνωνύμων όρων νομικού περιεχομένου. Τα προ-επεξεργασμένα 62

63 κείμενα θα εισαχθούν στο QDA Miner στη μορφή με την οποία προέκυψαν κατόπιν της διαδικασίας της προ-επεξεργασίας που αναφέρθηκε ανωτέρω. Στη συνέχεια αυτά θα αναλυθούν, θέτοντας συγκεκριμένους περιορισμούς από το λογισμικό WordStat. Την δεύτερη φορά όμως, στη φάση της προ-επεξεργασίας των κειμένων θα γίνει χρήση του λεξικού συνωνύμων. Κατόπιν της αφαίρεσης των σημείων στίξης, των συμβόλων, των stopwords και αφού εφαρμοστεί η διαδικασία του stemming, στα κείμενα θα εκτελεστεί ειδική επεξεργασία κατά την οποία θα αντικατασταθούν οι εμφανιζόμενοι κοινοί όροι με τα συνώνυμα τους. Κατά αυτόν τον τρόπο θα μειωθεί ο αριθμός των μοναδικών όρων στα κείμενα και θα αυξηθεί η συχνότητα εμφάνισης σε κάποιους από αυτούς. Στη συνέχεια αυτά θα αναλυθούν, θέτοντας συγκεκριμένους περιορισμούς από το λογισμικό WordStat. Στόχος είναι, η ομαδοποίηση των προαναφερθέντων εγγράφων με και χωρίς τη χρήση του λεξικού ώστε να αξιολογηθεί η αποτελεσματικότητα του. Παρακάτω θα περιγραφούν τα βήματα της διαδικασίας της επεξεργασίας των κειμένων. Για κάθε μία από τις ανωτέρω περιπτώσεις να γίνει ξεχωριστή αναφορά Εισαγωγή Δεδομένων στο QDA Miner Για την επεξεργασία των επιλεγμένων νομικών κειμένων χρησιμοποιήθηκε το λογισμικό Text Mining, QDA Miner σε συνδυασμό με ένα λογισμικό ανάλυσης περιεχομένου, το WordStat. Αρχικά, τα προ-επεξεργασμένα κείμενα, στα οποία είτε έγινε χρήση του λεξικού συνωνύμων είτε όχι, εισήχθησαν στο λογισμικό QDA Miner. Πλέον, το κάθε κείμενο νομικού περιεχομένου έχοντας υποστεί την προαναφερθείσα προ-επεξεργασία αποτελεί ένα ξεχωριστό case, όπως φαίνεται στην παρακάτω εικόνα. 63

64 Εικόνα 15: Εισαγωγή των νομικών κειμένων στο QDA Miner ως ξεχωριστά cases Το QDA Miner αποτελεί ένα εύχρηστο πακέτο λογισμικού, το οποίο μπορεί να χρησιμοποιηθεί για την εισαγωγή, κωδικοποίηση, σχολιασμό και ανάκτηση κειμένων ενδιαφέροντος. Ουσιαστικά, η εισαγωγή των κειμένων στο λογισμικό αυτό αποτελεί το πρώτο βήμα της διαδικασίας επεξεργασίας των δεδομένων Επεξεργασία Δεδομένων με το Λογισμικό Wordstat Το συγκεκριμένο λογισμικό ανάλυσης περιεχομένου χρησιμοποιήθηκε για την αναπαράσταση των υπό εξέταση νομικών κειμένων στο μοντέλο του Διανυσματικού Χώρου. Στην αναπαράσταση αυτή δημιουργείται ένας διανυσματικός χώρος, όπου κάθε κείμενο μπορεί να αναπαρασταθεί ως ένα διάνυσμα. Ο διανυσματικός αυτός χώρος αποτελείται από τόσες διαστάσεις όσοι είναι και οι μοναδικοί όροι των κειμένων. Αυτό προκύπτει από την ιδέα ότι το νόημα κάθε κειμένου μπορεί να εξαχθεί από τους όρους εκείνους που αντικατοπτρίζουν το σημασιολογικό του περιεχόμενο. Έτσι λοιπόν, στην διανυσματική αναπαράσταση κάθε κείμενο ως διάνυσμα αναπαρίσταται από ένα σύνολο όρων. Για το λόγο αυτό, προκειμένου να εντοπισθούν οι μοναδικοί εκείνοι όροι που 64

65 αποτυπώνουν το νόημα του κειμένου, οι οποίοι στη συνέχεια θα αποτελέσουν τις διαστάσεις του διανυσματικού χώρου, η προεπεξεργασία κειμένων προηγείται της αναπαράστασης. Ως εκ τούτου, τα κείμενα αντιπροσωπεύτηκαν από το σύνολο των «νέων» λέξεών - όρων τους, που προέκυψαν στη φάση της προ-επεξεργασίας των κειμένων κατόπιν της αφαίρεσης των σημείων στίξης, των συμβόλων, των stopwords και αφού εφαρμόσθηκε η διαδικασία του stemming. Σημειώνεται ότι, μετά την εισαγωγή των προ-επεξεργασμένων κειμένων στο QDA Miner, υπολογίσθηκαν, με τη βοήθεια του λογισμικού ανάλυσης περιεχομένου Wordstat, οι συχνότητες εμφάνισης των «νέων» λέξεων-όρων στα κείμενα Εμφάνιση Συχνοτήτων στο Wordstat στην Περίπτωση μη Χρήσης Λεξικού Στην πρώτη περίπτωση, στην οποία δεν έχει γίνει χρήση του λεξικού συνωνύμων, στον πίνακα συχνοτήτων εμφανίζονται δέκα χιλιάδες οχτακόσιοι επτά (10.807) μοναδικοί όροι εκ των συνολικά διακοσίων δύο χιλιάδων πεντακοσίων είκοσι τριών ( ) όρων που υπάρχουν στα κείμενα. Στην πρώτη στήλη του παρακάτω πίνακα φαίνεται η συχνότητα εμφάνισης του κάθε μοναδικού όρου στο σύνολο των cases. Εικόνα 16: Πίνακας συχνοτήτων εμφάνισης μοναδικών όρων κειμένων 65

66 Στη συνέχεια, μέσω του πεδίου «Options» τέθηκαν ορισμένοι περιορισμοί αναφορικά με τους όρους που τελικά θα εμφανίζονται στον πίνακα συχνοτήτων. Οι περιορισμοί αυτοί αφορούν πρώτον στη μη εμφάνιση των όρων οι οποίοι βρίσκονται σε περισσότερα από το 60% των cases (αφαιρώντας τους κοινούς και συχνά εμφανίσιμους όρους) και δεύτερον στην εμφάνιση μόνο των όρων με συχνότητα μεγαλύτερη ή ίση του επτά (7). Σκοπός της εφαρμογής των ανωτέρω περιορισμών η μείωση του θορύβου στον πίνακα συχνοτήτων. Εικόνα 17: Πεδίο «Options» και εφαρμογή περιορισμών Με την εφαρμογή των ανωτέρω περιορισμών, οι μοναδικοί όροι που εμφανίζονται στο πίνακα συχνοτήτων περιορίζονται στους τρείς χιλιάδες εκατόν σαράντα (3.543), όπως απεικονίζεται στην παρακάτω εικόνα. 66

67 Εικόνα 18: Πίνακας συχνοτήτων εμφάνισης μοναδικών όρων κειμένων μετά την εφαρμογή περιορισμών Τονίζεται, πως η επιπλέον μείωση του αριθμού των όρων επιφέρει επιδείνωση της κατάστασης, καθώς πλέον αρχίζει η εξάλειψη σημαντικών όρων για τη διαδικασία της ομαδοποίησης, δηλαδή όρων των οποίων το πληροφοριακό περιεχόμενο είναι σημαντικό Εμφάνιση Συχνοτήτων στο Wordstat στην Περίπτωση Χρήσης Λεξικού Στη δεύτερη περίπτωση, στην οποία έχει γίνει χρήση του λεξικού συνωνύμων, στον πίνακα συχνοτήτων εμφανίζονται δέκα χιλιάδες εκατόν σαράντα οχτώ (10.148) μοναδικοί όροι εκ των συνολικά διακοσίων δύο χιλιάδων επτακοσίων ενός ( ) όρων που υπάρχουν στα κείμενα. Στην πρώτη στήλη του παρακάτω πίνακα φαίνεται η συχνότητα εμφάνισης του κάθε μοναδικού όρου στο σύνολο των cases. 67

68 Εικόνα 19: Πίνακας συχνοτήτων εμφάνισης μοναδικών όρων κειμένων Στη συνέχεια, μέσω του πεδίου «Options» τέθηκαν οι ίδιοι περιορισμοί με την περίπτωση της μη χρήσης λεξικού ώστε να εξασφαλιστούν οι ίδιες συνθήκες και στις δύο περιπτώσεις εκτέλεσης της ομαδοποίησης των κειμένων με σκοπό να αποτελέσματα να είναι συγκρίσιμα. Έτσι, οι περιορισμοί αφορούν πρώτον στη μη εμφάνιση των όρων οι οποίοι βρίσκονται σε περισσότερα από το 60% των cases (αφαιρώντας τους κοινούς και συχνά εμφανίσιμους όρους) και δεύτερον στην εμφάνιση μόνο των όρων με συχνότητα μεγαλύτερη ή ίση του επτά (7). Εικόνα 20: Πεδίο «Options» και εφαρμογή περιορισμών 68

69 Με την εφαρμογή των ανωτέρω περιορισμών, οι μοναδικοί όροι που εμφανίζονται στο πίνακα συχνοτήτων περιορίζονται στους δύο χιλιάδες επτακόσιους είκοσι οχτώ (2.728), όπως απεικονίζεται στην παρακάτω εικόνα. Εικόνα 21: Πίνακας συχνοτήτων εμφάνισης μοναδικών όρων κειμένων μετά την εφαρμογή περιορισμών Τονίζεται, πως η μείωση του αριθμού των μοναδικών όρων που παρατηρείται μεταξύ των δύο περιπτώσεων, χρήσης και μη χρήσης λεξικού συνωνύμων, μεταφράζεται με το γεγονός ότι πολλοί μοναδικοί όροι μετά την εφαρμογή της χρήσης του λεξικού αντικαταστάθηκαν από τα συνώνυμα τους και η συχνότητα τους αυξήθηκε. Επίσης, το φαινόμενο αυτό οξύνεται μετά την εφαρμογή των περιορισμών, καθώς οι συχνότητες εμφάνισης ορισμένων όρων αυξήθηκαν ενώ ταυτόχρονα κάποιοι άλλοι όροι αντικαταστάθηκαν από τα συνώνυμα τους. Αυτό πλέον έχει ως αποτέλεσμα, το σύνολο των όρων που η συχνότητα εμφάνισης τους βρίσκεται εντός ή εκτός του φάσματος των περιορισμών να διαφοροποιείται σε σχέση με την περίπτωση της μη χρήσης του λεξικού. 69

70 5.6 Αναπαράσταση και Ομαδοποίηση των Cases Στην προηγούμενη ενότητα περιγράφηκε η διαδικασία οριστικοποίησης του αριθμού των τελικών μοναδικών όρων οι οποίοι χρησιμοποιήθηκαν για την αναπαράσταση των νομικών κειμένων (cases) στο διανυσματικό χώρο. Συνέχεια έχει η αναπαράσταση των cases στις δύο (2D) και τρείς (3D) διαστάσεις και η ομαδοποίηση τους με τη βοήθεια δενδροδιαγράμματος. Η διαδικασία αυτή θα εκτελεστεί, εις διπλούν μία για κάθε περίπτωση όπως περιγράφεται παρακάτω Ομαδοποίηση των Cases στην Περίπτωση μη Χρήσης Λεξικού Για τη δημιουργία των τελικών ομάδων των cases, τόσο στην περίπτωση χρήσης όσο και στην περίπτωση μη χρήσης λεξικού, χρησιμοποιείται η εντολή «Δημιουργία Δενδροδιαγράμματος» του λογισμικού ανάλυσης περιεχομένου Wordstat. Με την επιλογή της προαναφερθείσας εντολής, δημιουργείται το δενδροδιάγραμμα στο οποίο απεικονίζονται όλες οι ομάδες των cases που προέκυψαν αρχικά για την περίπτωση της μη χρήσης λεξικού συνωνύμων. Ο αριθμός των ομάδων είναι είκοσι έξι (26) και η σύνθεση αυτών παρουσιάζεται στο Παράρτημα Α. Οι ομάδες που προκύπτουν ποικίλουν στον αριθμό των cases που περιέχουν. Υπάρχουν ακόμα και cases που συνθέτουν μόνα τους μία ομάδα. Οι ομάδες όμως που αριθμούν παραπάνω από δύο cases, αποτελούνται από υποομάδες οι οποίες προκύπτουν από το βαθμό συνάφειας των στοιχείων τους. Χαρακτηριστικά, αναφέρουμε πως τα cases που ανήκουν σε μία συγκεκριμένη ομάδα αποτυπώνονται στο δενδροδιάγραμμα με διαφορετικό χρώμα σε σχέση με τα cases άλλων ομάδων. Το δενδροδιάγραμμα στο οποίο φαίνονται οι ομάδες και οι υποομάδες που προέκυψαν από την ομαδοποίηση παρουσιάζεται στην παρακάτω εικόνα. 70

71 Εικόνα 22: Δενδροδιάγραμμα απεικόνισης των ομάδων που δημιουργήθηκαν 71

72 5.6.2 Ομαδοποίηση των Cases στην Περίπτωση Χρήσης Λεξικού Με την επιλογή της εντολής «Δημιουργία Δενδροδιαγράμματος» του λογισμικού ανάλυσης περιεχομένου Wordstat, δημιουργείται το δενδροδιάγραμμα στο οποίο απεικονίζονται όλες οι ομάδες των cases που προέκυψαν αυτή τη φορά για την περίπτωση της χρήσης λεξικού. Ο αριθμός των ομάδων και σε αυτή την περίπτωση είναι είκοσι έξι (26) και η σύνθεση αυτών παρουσιάζεται στο Παράρτημα Α. Το δενδροδιάγραμμα στο οποίο φαίνονται οι ομάδες και οι υποομάδες που προέκυψαν από την ομαδοποίηση παρουσιάζεται στην παρακάτω εικόνα. 72 Εικόνα 23: Δενδροδιάγραμμα απεικόνισης των ομάδων που δημιουργήθηκαν

73 5.6.3 Αναπαράσταση των Cases στις Δύο (2D) και Τρείς (3D) Διαστάσεις στην Περίπτωση μη Χρήσης Λεξικού Με την επιλογή της εντολής «2D» του λογισμικού ανάλυσης περιεχομένου Wordstat αναπαριστώνται τα cases στο χώρο των δύο διαστάσεων, όπως φαίνεται στην παρακάτω εικόνα. Εικόνα 24: 2D αναπαράσταση των Cases Παρατηρείται ότι, τα cases που ανήκουν στην ίδια ομάδα γειτνιάζουν, καθώς η απόσταση που έχουν τα cases μεταξύ τους στο χώρο φανερώνει τη μεταξύ τους συνάφεια. Επίσης, με την επιλογή της εντολής «3D» του λογισμικού ανάλυσης περιεχομένου Wordstat αναπαριστώνται τα cases στο χώρο των τριών διαστάσεων, όπως φαίνεται στην παρακάτω εικόνα. 73

74 Εικόνα 25: 3D αναπαράσταση των Cases Και στην περίπτωση αυτή, η απόσταση που έχουν τα cases μεταξύ τους στο χώρο φανερώνει τη μεταξύ τους συνάφεια. Παρατηρείται ότι, τα cases των ομάδων γειτνιάζουν Αναπαράσταση των Cases στις Δύο (2D) και Τρείς (3D) Διαστάσεις στην Περίπτωση Χρήσης Λεξικού Αντίστοιχα με την περίπτωση της μη χρήσης λεξικού, στη περίπτωση χρήσης λεξικού συνωνύμων προκύπτουν οι κάτωθι αναπαραστάσεις των cases στον χώρο των δύο (2D) και των τριών (3D) διαστάσεων. 74

75 Εικόνα 26: 2D αναπαράσταση των Cases Εικόνα 27: 3D αναπαράσταση των Cases 75

76 5.7 Τροποποίηση Περιορισμών στην Περίπτωση Χρήσης Λεξικού Στο πλαίσιο των δοκιμών για την καλύτερη ομαδοποίηση των cases, στο πεδίο «Options» θα τεθούν νέοι περιορισμοί ούτως ώστε οι μοναδικοί όροι που θα εμφανιστούν στον πίνακα συχνοτήτων, περίπτωση χρήσης λεξικού, να ισούνται με αυτούς της περίπτωσης μη χρήσης λεξικού. Ως εκ τούτου, οι νέοι περιορισμοί που εφαρμόστηκαν αφορούν πρώτον στη μη εμφάνιση των όρων οι οποίοι βρίσκονται σε περισσότερα από το 42% των cases (αφαιρώντας τους κοινούς και συχνά εμφανίσιμους όρους) και δεύτερον στην εμφάνιση μόνο των όρων με συχνότητα μεγαλύτερη ή ίση του πέντε (5). Εικόνα 28: Εφαρμογή νέων περιορισμών στο πεδίο «Options» Με την εφαρμογή των ανωτέρω περιορισμών, οι μοναδικοί όροι που εμφανίζονται στο πίνακα συχνοτήτων είναι ίσοι με τρείς χιλιάδες εκατόν πενήντα τέσσερις (3.154), όπως απεικονίζεται στην παρακάτω εικόνα. 76

77 Εικόνα 29: Πίνακας συχνοτήτων εμφάνισης μοναδικών όρων μετά την εφαρμογή των νέων περιορισμών Στη συνέχεια, με την επιλογή της εντολής «Δημιουργία Δενδροδιαγράμματος» του λογισμικού ανάλυσης περιεχομένου Wordstat, δημιουργείται το δενδροδιάγραμμα στο οποίο απεικονίζονται όλες οι ομάδες των cases που προέκυψαν για την περίπτωση της χρήσης λεξικού με την εφαρμογή των νέων περιορισμών. Ο αριθμός των ομάδων και σε αυτή την περίπτωση είναι είκοσι επτά (27) και η σύνθεση αυτών παρουσιάζεται στο Παράρτημα Α. Το δενδροδιάγραμμα στο οποίο φαίνονται οι ομάδες και οι υποομάδες που προέκυψαν από την ομαδοποίηση παρουσιάζεται στην παρακάτω εικόνα. 77

78 78 Εικόνα 30: Δενδροδιάγραμμα απεικόνισης των ομάδων που δημιουργήθηκαν

79 Αντίστοιχα με την περίπτωση της μη χρήσης λεξικού, στη περίπτωση χρήσης λεξικού συνωνύμων προκύπτουν οι κάτωθι αναπαραστάσεις των cases στον χώρο των δύο (2D) και των τριών (3D) διαστάσεων. Εικόνα 31: 2D αναπαράσταση των Cases Εικόνα 32: 3D αναπαράσταση των Cases 79

Δείτε περισσότερα