8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Σχετικά έγγραφα
1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

2. Εισαγωγή Δεδομένων σε Σχεσιακή Βάση Δεδομένων

6. ΓΕΩΓΡΑΦΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

6. ΓΕΩΓΡΑΦΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

5. ΠΟΛΥΔΙΑΣΤΑΤΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

7. ΣΥΣΤΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Κεφάλαιο 5. Δημιουργία φορμών για τη βάση δεδομένων DVDclub

Επεξεργασία πολλαπλών φύλλων εργασίας - Γραφημάτων Excel

Προγραμματισμός ταμειακής ροής για αγορές υλικών

Προγραμματισμός ταμειακής ροής για αγορές υλικών

Διαχείριση Γνώσης Ροές Διαδικασιών

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων...

Πολυδιάστατη Ανάλυση Δεδομένων

Στις παρακάτω οδηγίες αναλύεται η διαδικασία εισαγωγής δεδομένων μέσω του εργαλείου FastImport.

Field Service Management ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

Οδηγίες για την εγκατάσταση του πακέτου Cygwin

ΤΕΙ Ιονίων Νήσων Εργαστηριακές Ασκήσεις στα Γεωγραφικά Συστήματα Πληροφοριών

Σχεδιασμός Βάσεων Δεδομένων

Επίλυση προβλήματος με Access

ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL

1.Puzzle. ΕΠΙΜΕΛΕΙΑ: ΓΕΩΡΓΙΑ ΚΛΩΣΤΡΑΚΗ Σελίδα 1

Αρχικά, μεταβαίνετε στην ομώνυμη επιλογή της Καρτέλας ΦΟΡΕΙΣ. Επιλέγοντας Βιβλιοθήκη Μονάδας εμφανίζεται η παρακάτω εικόνα «Λίστα βιβλίων».

Εκτύπωση Γενικού Ημερολογίου

Βάσεις Δεδομένων 3η εργαστηριακή άσκηση

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ ΠΕΛΑΤΩΝ ELTA Courier. Ιούνιος ELTA Courier Διεύθυνση Πληροφορικής

SPSS Statistical Package for the Social Sciences

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

Πίνακας Διαχείρισης Επαφές Παραγγελίες - Προσφορές Τιμολόγια Αποδείξεις Πληρωμές Παραστατικά Αναφορές Εργασίες Καταγραφή εμπορευμάτων

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης

Βάσεις δεδομένων (Access)

Παρακάτω προτείνεται μια αλληλουχία ενεργειών την οποία ο χρήστης πρέπει να ακολουθήσει για να αξιοποιήσει τις δυνατότητες της εφαρμογής.

Joomla! with K2 - User Guide

Εγχειρίδιο Χρήσης Εφαρμογής Συστήματος Διαχείρισης Λογισμικού

Οδηγίες για προσθήκη Web Frames Tools to the Quick Access Bar σε μεταγενέστερη έκδοση του Word

Συγχώνευση αλληλογραφίας και συγχώνευση μιας πηγής δεδομένων με ένα κύριο έγγραφο όπως ένα γράμμα ή ένα έγγραφο ετικετών

Είσοδος στην εφαρμογή Δημιουργία Εταιρίας Καρτέλα Στοιχεία εταιρίας: Καρτέλα Πρόσθετα στοιχεία: Καρτέλα Τράπεζα:...

Πανεπιστήμιο Πειραιώς Τμήμα : Οργάνωσης και Διοίκησης Επιχειρήσεων

Εγκατάσταση αρχείων βιβλιοθήκης VHOPE και VHOPE

1. ΑΝΟΙΞΤΕ ΤΟΝ ΠΙΝΑΚΑ CUSTOMER ΚΑΙ ΣΤΟ ΜΕΝΟΥ ΕΠΙΛΕΞΤΕ

Αθήνα, Απρίλιος 2018 ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΟΙΚΟΝΟΜΙΚΩΝ

Εγχειρίδιο διαχείρισης χρηστών και λιστών διανομής για τον Υπεύθυνο Φορέα του Δικτύου "Σύζευξις" -1-

Inspiration 7 ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΜΕ ΠΑΡΑΔΕΙΓΜΑ

Σχεδιασμός εκτυπώσεων ERG

«Οδηγίες χρήσης εφαρμογής Ενιαίου Συστήματος Πληρωμών»

Survey 123 User Manual

Οδηγός Εισαγωγή Χρηστών σε LDAP Server με χρήση. LdapAdmin TEMPLATE

Οδηγίες Χρήσης της MySQL

Φυσική Απογραφή & Παραστατικά Αποθήκης

21. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ 4 - ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΜΕ ΤΟ BYOB BYOB. Αλγόριθμος Διαδικασία Παράμετροι

6. ΕΠΙΣΚΟΠΗΣΗ ΤΟΥ ΧΑΡΤΗ

Κάθε ένα κελί θα πρέπει να περιέχει ένα μόνο στοιχείο δεδομένων, για παράδειγμα το όνομα σε ένα κελί, το επίθετο σε άλλο κελί.

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Εισαγωγή στην Επιστήμη της Πληροφορικής Εργαστήριο. Microsoft Excel Μέρος 2

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ GRS-1

Ο ArcCatalog χρησιμοποιείται για την πλοήγηση / διαχείριση χωρικών δεδοµένων.

Ενότητα 14 Γραφικές Παραστάσεις

Εισαγωγή «Singular M.I.S I».

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΟΛΟΚΛΗΡΩΜΕΝΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ (ΟΠΣ) ΓΙΑ ΤΗΝ ΠΡΟΓΡΑΜΜΑΤΙΚΗ ΠΕΡΙΟΔΟ ΣΕΣ

ΒΙΟΣΤΑΤΙΣΤΙΚΗ Πρακτική με SPSS (1)

Υπολογισμός και αποστολή Αναλυτικής Περιοδικής Δήλωσης

Αυτοδύναμη άντληση πληροφοριών Η Σχεσιακή Βάση Δεδομένων

Οδηγίες χρήσης Aspen Plus 7.1

WORDPRESS. Εικόνα 1. Πατώντας στη «Σύνδεση» γράψτε το Username (όνομα χρήστη) και το Password (συνθηματικό) (εικόνα 2) που σας έδωσε ο διαχειριστής

Αφού δώσουμε όνομα χρήση και password μπορούμε να επιλέξουμε ημερομηνία εισόδου στο σύστημα, εταιρία και υποκατάστημα

Pylon Entry. Πόροι. Στη διαδικασία αυτή περιγράφεται η Δημιουργία- Μεταβολή-Διαγραφή Αναζήτηση Πόρων

Ενότητα 21 Pivot Tables

Περιγραφή του βασικού παραθύρου του Cubase SE3. Εικόνα 1

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Με την επιλογή Κατάσταση Αρχείων εμφανίζεται ένας πίνακας με όλα τα Αρχεία της εφαρμογής και τον Αριθμό των Εγγραφών που έχουν εισαχθεί.

Δομές Δεδομένων. Σημειώσεις από το εργαστήριο για τον χειρισμό του προγράμματος Eclipse. 5ο εξάμηνο. v1.0

Αρχιτεκτονικές Δικτύων & Πρωτόκολλα Ι

Εισαγωγή Αρχείων από Εμπορικό Epsilon

Μελίσσια, 16 Ιουνίου Οδηγός Εξαγωγής Συγκεντρωτικών Καταστάσεων ΚΕΠΥΟ από InnovEra

ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΧΡΗΣΤΗ. Ηλεκτρονική Υποβολή Α.Π.Δ.

ΔΗΜΙΟΥΡΓΙΑ ΚΑΤΑΛΟΓΟΥ ΕΤΕΡΟΑΝΑΦΟΡΩΝ

Η. ΠΙΘΑΝΑ ΕΡΩΤΗΜΑΤΑ

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ SOFTONE

Εξαγωγή Οικονοµικών Αναφορών (Ισολογισµός, Αποτελέσµατα Χρήσης, Λογαριασµοί Γενικής Εκµετάλλευσης) στην Εφαρµογή Ms Excel

ΤΕΙ Ιονίων Νήσων Εργαστηριακές Ασκήσεις στα Γεωγραφικά Συστήματα Πληροφοριών

2 η Εργαστηριακή Άσκηση

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΥΠΟΣΥΣΤΗΜΑΤΟΣ ΑΓΡΟΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΕΝΙΣΧΥΣΕΩΝ. Μέτρο 2.2.1

9η Εργαστηριακή Άσκηση: Stored Procedures - Triggers. Αποθηκευμένες Διαδικασίες (Stored Procedures):

Διαχείριση Επαγγελματιών Εταιρίας

Βάσεις Δεδομένων. Εισαγωγή για το Εργαστήριο. Δρ. Τιάκας Ελευθέριος. Τμήμα Πληροφορικής ΑΠΘ

Σχεδιασμός εκτυπώσεων ERG

Διαχείριση Ταξιδιωτικών Πρακτορείων

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Το πρόγραμμα συγχρηματοδοτείται 75% από το Ευρωπαϊκό κοινωνικό ταμείο και 25% από εθνικούς πόρους.

Visual Flowchart Γενικά

Εγγραφή στο Portal για νέους συνδρομητές

Εισαγωγή στην Επιστήμη της Πληροφορικής Εργαστήριο. Microsoft Excel Μέρος 2

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΕΦΑΡΜΟΓΗΣ ICAP DATA

Οδηγίες Χρήσης της MySQL

Προγραμματιστικό Περιβάλλον

Εφαρμογή Ηλεκτρονικής Υποβολής Δηλώσεων Ε9. Οδηγίες Χρήσης

Βάσεις δεδομένων (Access)

Σύντοµο Εγχειρίδιο Χρήσης. του Λογισµικού Στατιστικής Επεξεργασίας. SPSS for Windows v. 8.0

Transcript:

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Στόχος του εργαστηρίου αυτού είναι να δείξει πώς τα εργαστήρια με τα δεδομένα της ICAP μπορούν να υλοποιηθούν χωρίς τη χρήση SQL Server, χρησιμοποιώντας μόνον Excel και Rapid Miner. Το αρχείο excel ICAP00 είναι το αρχείο που μας παραδόθηκε και το οποίο (με κάποιες βασικές τροποποιήσεις για ταχύτερη επεξεργασία) περιλαμβάνει τέσσερα φύλλα εργασίας: 1. Τα αναλυτικά στοιχεία των εταιρειών 2. Κωδικοποιήσεις νομών με το εύρος των ταχυδρομικών κωδικών που καλύπτει κάθε νομός. Για διευκόλυνση στην αναζήτηση η στήλη NPCLOW έχει αντιγραφεί (Cut Insert Cut Cells) στη στήλη Α. Αριστομένης Μακρής 1

3. Κωδικοποιήσεις περιφερειών με το εύρος των ταχυδρομικών κωδικών που καλύπτει κάθε περιφέρεια. Για διευκόλυνση στην αναζήτηση η στήλη NPCLOW έχει αντιγραφεί (Cut Insert Cut Cells) στη στήλη Α. 4. Γενικές Δραστηριότητες. Είναι ένα φύλλο που προστέθηκε εκ των υστέρων για μια γενικότερη ομαδοποίηση των δραστηριοτήτων. Ο τελικός στόχος είναι η δημιουργία ενός πίνακα με όλα τα στοιχεία για περαιτέρω ανάλυση από το Excel για αυτόνομη άντληση πληροφοριών από το χρήστη και πολυδιάστατη ανάλυση. Ο ίδιος πίνακας θα χρησιμοποιηθεί από το Rapid Miner για εξόρυξη δεδομένων. Αριστομένης Μακρής 2

8.1. ΔΗΜΙΟΥΡΓΙΑ ΕΝΟΣ ΠΙΝΑΚΑ ΜΕ ΟΛΑ ΤΑ ΣΤΟΙΧΕΙΑ ΣΤΟ EXCEL Κατ αρχάς θα προσθέσουμε μια νέα στήλη με την περιγραφή του κλάδου της οικονομίας. Προσθέτουμε μια νέα στήλη και την ονομάζουμε ΚΛΑΔΟΣ. Κατόπιν γράφουμε τη συνάρτηση ώστε με βάση τα περιεχόμενα της στήλης 2 να πάρει τιμές η στήλη ΚΛΑΔΟΣ και κατόπιν αντιγράφουμε τη συνάρτηση σε όλες τις λογικές εγγραφές Κατόπιν μετονομάζουμε την επικεφαλίδα στις στήλες D & E, προσθέτουμε μια νέα στήλη F με τίτλο ΓΕΝΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ και υπολογίζουμε το περιεχόμενο με τη συνάρτηση VLOOKUP. Αριστομένης Μακρής 3

Προσθέτουμε δυο νέες στήλες ΠΕΡΙΦΕΡΕΙΑ και ΝΟΜΟΣ. Υπολογίζουμε πρώτα την περιφέρεια με τη συνάρτηση VLOOKUP με βάση τη στήλη ΤΑΧ.ΚΩΔ. Κατόπιν υπολογίζουμε τον νομό με τη συνάρτηση VLOOKUP με βάση τη στήλη ΤΑΧ.ΚΩΔ. Μετονομάζουμε το φύλλο εργασίας σε ICAP Και αποθηκεύουμε σαν ICAP01 Αριστομένης Μακρής 4

8.2. ΠΟΙΟΤΙΚΗ ΑΝΑΒΑΘΜΙΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ RAPID MINER Στόχος του εργαστηρίου αυτού δεν είναι η εις βάθος κατανόηση του Rapid Miner (κάτι που μπορεί να κάνει ο κάθε εκπαιδευόμενος χρησιμοποιώντας το πλούσιο σχετικό υλικό στο διαδίκτυο) αλλά η κατανόηση των βασικών δυνατοτήτων του για αυτοδύναμη επεξεργασία δεδομένων χωρίς την ανάγκη εξειδικευμένων περιβαλλόντων και εργαλείων. Ανοίγουμε το Rapid Miner και επιλέγουμε Continue using Starter για το δωρεάν περιβάλλον Από το Home μπορούμε αν θέλουμε να εξοικειωθούμε με το περιβάλλον να δοκιμάσουμε τα πολύ επεξηγηματικά tutorials για κατανόηση των βασικών λειτουργιών. Επιλέγουμε Design (F8) ώστε να αρχίσουμε. Αριστομένης Μακρής 5

Το βασικό περιβάλλον αποτελείται από τους Operators, τα Repositories, τις Parameters τη βοήθεια και τη Main Process. Θα δημιουργήσουμε δυο περιοχές για το εργαστήριο, μια στα data και μια στις processes. Επιλέγουμε data δεξί κλικ Create Folder και BIBA. Κατόπιν processes data δεξί κλικ Create Folder και BIBA. Έτσι δημιουργήσαμε δυο περιοχές για την αποθήκευση των εργαστηρίων. Αριστομένης Μακρής 6

8.2.1. IMPORT EXCEL Επόμενο βήμα θα εισάγουμε στο περιβάλλον το φύλλο ICAP01 που μόλις δημιουργήσαμε. Επιλέγουμε από τη λίστα Import Excel Sheet. Επιλέγουμε το αρχείο και Next Αφήνουμε το φύλλο ICAP και Next Αριστομένης Μακρής 7

Ξανά Next Γίνεται έλεγχος για σφάλματα (π.χ. δυο στήλες με ίδιο όνομα) και αφού δεν βρέθηκαν λάθη προχωράμε Next. Αριστομένης Μακρής 8

Επιλέγουμε να αποθηκευτεί στη σωστή περιοχή, δίνουμε όνομα και Finish. Μετά από κάποιο χρόνο εισαγωγής τα δεδομένα εισάγονται στο φάκελο BIBA και εμφανίζονται αυτόματα τα περιεχόμενα στο Results (F9). Επιλέγουμε Statistics για να αναλύσουμε τα δεδομένα. Αριστομένης Μακρής 9

Στο στάδιο αυτό δεν θα διερευνήσουμε τα δεδομένα πέραν των Missing Values. Παρατηρούμε ότι έχουμε πρόβλημα στα πεδία ISOLYEAR (έτος ισολογισμού, αλλά το πεδίο δεν μας ενδιαφέρει γιατί όλο το αρχείο αφορά μια χρονιά), EXPFLAG, IMPFLAG και ΧΡΗΜ/ΡΙΟ που θα πρέπει να τα διορθώσουμε. Επιλέγουμε Design (F8). Αριστομένης Μακρής 10

8.2.2. SELECT ATTRIBUTES FILTER EXAMPLES Σύρουμε (drag & drop) το Excel ICAP01 που μόλις εισαγάγαμε στην περιοχή Main Process. Θα αναζητήσουμε τον τελεστή (operator) Select Attributes ώστε να επιλέξουμε μόνο τα πεδία που θέλουμε. Στην αναζήτηση των Operators καταχωρούμε τα αρχικά. Όταν εμφανιστεί ο τελεστής τον σύρουμε στην περιοχή Main Process. Κατόπιν συνδέουμε τα εικονίδια Retrieve ICAP01 και Select Attributes. Αριστομένης Μακρής 11

Επιλέγουμε (κλικ) το εικονίδιο Select Attributes και αλλάζουμε τις παραμέτρους στην περιοχή Parameters. Επιλέγουμε στις παραμέτρους από τη λίστα attribute filter type subset (ώστε να επιλέξουμε εμείς πεδία) και attributes Select Attributes. Από τη λίστα επιλέγουμε τα πεδία που θέλουμε και Apply. Αφού επιλέξαμε πεδία θα φιλτράρουμε τις λογικές εγγραφές ώστε να αγνοηθούν όσες εταιρείες έχουν μηδενικό κύκλο εργασιών. Αναζητούμε τον operator Filter Examples και σύρουμε στην περιοχή Main Process. Κατόπιν συνδέουμε το εικονίδιο Select Attribute με το εικονίδιο Filter Examples. Αριστομένης Μακρής 12

Επιλέγουμε (κλικ) το εικονίδιο Filter Examples και Add Filters στις Παραμέτρους. Σαν φίλτρο επιλέγουμε τις εταιρείες για τις οποίες το πεδίο ΤΖΙΡΟΣ δεν ισούτε με μηδέν (0) και ΟΚ. Αποθηκεύουμε (File Save Process as) στην περιοχή BIBA με το όνομα ICAP_CLEANSING. Αριστομένης Μακρής 13

8.2.3. REPLACE MISSING VALUES Θα αντικαταστήσουμε στα πεδία EXPFLAG, IMPFLAG και ΧΡΗΜ/ΡΙΟ τις κενές τιμές. Στους Operators αναζητούμε τον τελεστή Replace Missing Values. Τον σύρουμε στην περιοχή Main Process και τον συνδέουμε με το Filter Examples. Επιλέγουμε (κλικ) το εικονίδιο Replace Missing Values και από τις παραμέτρους να αλλάξουμε όλες τις κενές τιμές στο πεδίο EXPFLAG σε μηδέν (0). Αριστομένης Μακρής 14

Προσθέτουμε και ένα δεύτερο εικονίδιο Replace Missing Values για το πεδίο IMPFLAG. Προσθέτουμε και ένα τρίτο εικονίδιο Replace Missing Values για το πεδίο ΧΡΗΜ/ΡΙΟ με τιμή «Όχι» εάν είναι κενό.. 8.2.4. REPLACE Θα αντικαταστήσουμε τις τιμές «*» στα πεδία EXPFLAG και IMPFLAG με ένα (1) και στο πεδίο ΧΡΗΜ/ΡΙΟ με «Ναι». Επιλέγουμε και σύρουμε τον τελεστή Replace και τον συνδέουμε στη συνέχεια της ροής. Αριστομένης Μακρής 15

Επιλέγουμε να αντικαταστήσουμε στο πεδίο EXPFLAG σε όλες τις λογικές εγγραφές το «*» με ένα (1). Αριστομένης Μακρής 16

Επιλέγουμε να αντικαταστήσουμε στο πεδίο IMPFLAG σε όλες τις λογικές εγγραφές το «*» με ένα (1). Τέλος επιλέγουμε να αντικαταστήσουμε στο πεδίο ΧΡΗΜ/ΡΙΟ σε όλες τις λογικές εγγραφές το «*» με «Ναι». Αριστομένης Μακρής 17

8.2.5. GENERATE ATTRIBUTES Θα δημιουργήσουμε και δυο νέα υπολογιζόμενα πεδία, τον κύκλο εργασιών (τζίρο) Εισαγωγών και Εξαγωγών. Αναζητούμε τον τελεστή Generate Attributes και τον σύρουμε στη ροή. Στις παραμέτρους επιλέγουμε Edit List και αρχίζουμε την καταχώρηση του πρώτου πεδίου. Επιλέγουμε το εικονίδιο του υπολογισμού. Και καταχωρούμε την συνάρτηση υπολογισμού. Αριστομένης Μακρής 18

Κατά παρόμοιο τρόπο προσθέτουμε νέο πεδίο (Add Entry) και υπολογίζουμε τον κύκλο εργασιών (τζίρο) εξαγωγών. Τέλος επιλέγουμε Apply. Αριστομένης Μακρής 19

8.2.6. CONVERT NOMINAL TO NUMERICAL Επειδή κατά την αντικατάσταση των κενών και των «*» στα πεδία EXPFLAG και IMPFLAG οι αντίστοιχες τιμές μηδέν (0) και ένα (1) δεν είναι αριθμητικές, θα πρέπει να αντικατασταθούν ώστε να γίνουν αριθμητικές. Αναζητούμε τον κατάλληλο τελεστή και τον βρίσκουμε Nominal to Numerical. Σύρουμε στην περιοχή Main Process και από τις παραμέτρους επιλέγουμε subset και από τα πεδία EXPFLAG και IMPFLAG. Προσέχουμε ώστε η μετατροπή να γίνει σε unique integers. Αριστομένης Μακρής 20

8.2.7. WRITE EXCEL Σαν τελευταίο βήμα θα αποθηκεύσουμε το αποτέλεσμα της επεξεργασίας σαν Excel με όνομα ICAP02 για περαιτέρω επεξεργασία. Αποθηκεύουμε ξανά την όλη επεξεργασία. Τέλος εκτελώ την όλη ροή επιλέγοντας το αντίστοιχο εικονίδιο. Αριστομένης Μακρής 21

8.2.7. ΤΟ ΑΠΟΤΕΛΕΣΜΑ Με την ολοκλήρωση της εκτέλεσης το πρόγραμμα πηγαίνει αυτόματα στα αποτελέσματα (Results). Παρατηρώ ότι μπορώ να δω τα δεδομένα και στην αρχή της ροής (ICAP01) αλλά και στο τέλος (που εμφανίζονται αυτόματα). Επιλέγω τα στατιστικά. Αριστομένης Μακρής 22

Παρατηρώ ότι δεν έχω πλέον κενά (Missing Values). Το σύστημα υποστηρίζει και στατιστική και γραφική απεικόνιση (Charts) των αποτελεσμάτων. Αριστομένης Μακρής 23

8.2.8. ΤΟ EXCEL ΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ. Το τελικό βήμα της επεξεργασίας είναι η δημιουργία του αρχείου Excel ICAP02. Αλλάζουμε διαμόρφωση των πεδίων για να μπορούμε να βλέπουμε τους κύκλους εργασιών. Αριστομένης Μακρής 24

8.3. ΑΥΤΟΔΥΝΑΜΗ ΕΠΕΞΕΡΓΑΣΙΑ (QUERIES) ΑΠΟ ΤΟ EXCEL Για να αποφύγουμε την καταχώρηση των δεδομένων σε βάση δεδομένων για τη δημιουργία ερωτημάτων, μπορούμε να χρησιμοποιήσουμε τη δυνατότητα του Excel να ορίζει ότι μια περιοχή ενός φύλλου εργασίας θα συμπεριφέρεται σαν βάση δεδομένων. Επιλέγουμε όλες τις στήλες του φύλλου (Α- Ρ) και Insert Table. Δίνουμε ΟΚ για τη δημιουργία του πίνακα και το αποτέλεσμα είναι όλες οι στήλες να γίνονται φίλτρα, ώστε να μπορούμε να κάνουμε επιλογές (π.χ. επιλέγουμε από τους κλάδους μόνο τις εμπορικές επιχειρήσεις) και να επεξεργαζόμαστε το αποτέλεσμα των επιλογών μας στο Excel. Αριστομένης Μακρής 25

8.4. ΠΟΛΥΔΙΑΣΤΑΤΗ ΑΝΑΛΥΣΗ (PIVOT TABLES) ΑΠΟ ΤΟ EXCEL Ανοίγουμε το αποτέλεσμα της επεξεργασίας ICAP02 και αφού επιλέξουμε τις στήλες (Α- Ρ) Insert Pivot Table. Πλέον έχουμε στη διάθεσή μας όλες τις δυνατότητες της πολυδιάστατης ανάλυσης που ήδη εξετάστηκαν. Αριστομένης Μακρής 26

8.5. ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ (DATA MINING) ΑΠΟ ΤΟ RAPID MINER Θα επανεισάγουμε τα δεδομένα ICAP02 στο Rapid Miner για περαιτέρω ανάλυση, μέσω Import Excel Sheet στα Repositories και το αποθηκεύουμε στο φάκελο BIBA στα data σαν ICAP02. Ανοίγουμε το αρχείο (2 κλικ) για να αναλύσουμε τα δεδομένα. Αναλύουμε τα στατιστικά και παρατηρούμε τα διαγράμματα (Open chart). Μπορούμε έτσι να αναλύσουμε τις διάφορες παραμέτρους μεταξύ τους επάνω στα διαγράμματα. Αριστομένης Μακρής 27

8.5.1.CLUSTERING Θα προσπαθήσουμε να δημιουργήσουμε κάποιες ομαδοποιήσεις από το αρχείο ICAP02 για να μελετήσουμε τις ομάδες και τα χαρακτηριστικά τους. Πρέπει κατ αρχάς να επιλέξουμε πεδία. Κατόπιν θα επιλέξουμε αλγόριθμο ομαδοποίησης. Επιλέγουμε τον αλγόριθμο k-means (fast) και τις παραμέτρους. Η παράμετρος add cluster attribute θα προσθέσει μια στήλη με την ονομασία κάθε cluster. Τέλος επιλέγουμε να αποθηκεύσουμε τα αποτελέσματα στο αρχείο ICAP03. Αριστομένης Μακρής 28

Αποθηκεύουμε την επεξεργασία σαν (save as) ICAP_CLUSTERING και εκτελούμε. Με βάση τις παραμέτρους το σύστημα δημιούργησε 5 ομάδες τις οποίες μπορούμε να αναλύσουμε είτε μέσα στο πακέτο είτε από το excel ICAP03 που δημιουργήθηκε. Ανοίγουμε τα διαγράμματα. Μπορούμε να συγκρίνουμε τα οικονομικά μεγέθη των κλάδων όπως: Αριστομένης Μακρής 29

Μπορούμε επίσης να αναλύσουμε περαιτέρω τα χαρακτηριστικά κάθε ομάδας στα Advanced Charts. Τα αποτελέσματα της διεργασίας (ICAP03) μπορούμε να τα επεξεργαστούμε από το Excel για περαιτέρω ανάλυση. Αριστομένης Μακρής 30

Αν τώρα θελήσουμε να επιλέξουμε κάποια συγκεκριμένη ομάδα, μπορούμε να προσθέσουμε ένα φίλτρο στη ροή. 8.5.2.CORRELATION Τα δεδομένα της προηγούμενης ανάλυσης (ICAP03) μπορούμε να τα εισαγάγουμε στο Rapid Miner ώστε να εξετάσουμε τις συσχετίσεις ανάμεσα στα διάφορα πεδία. Αριστομένης Μακρής 31

Εκτελούμε τη νέα ροή και παρατηρούμε τα αποτελέσματα της ανάλυσης. Παρατηρούμε την υψηλή συσχέτιση ανάμεσα στον τζίρο και την ομάδα (cluster) και τον τζίρο και το προσωπικό. 8.5.3.DECISION TREES Καταχωρούμε την ακόλουθη ροή. Το πρώτο εικονίδιο είναι το αρχείο ICAP02 που δημιουργήσαμε νωρίτερα (drug & drop στην περιοχή Main Process) Στόχος είναι η δημιουργία ενός δένδρου αποφάσεων βάσει του οποίου μπορούμε να προβλέψουμε αν μια επιχείρηση είναι εξαγωγική (EXFLAG) με βάση άλλα κριτήρια. Επιλέγουμε τον τελεστή Select Attributes και μετά επιλέγουμε τα πεδία ανάλυσης και Apply. Αριστομένης Μακρής 32

Επιλέγουμε τον τελεστή (convert) Numerical to Binomial γιατί η μεταβλητή EXPFLAG θα είναι η κατευθυνόμενη μεταβλητή βάσει της οποίας θα γίνει η πρόβλεψη και δεν μπορεί να είναι αριθμός. Επιλέγουμε τον τελεστή Set Role ώστε να ορίσουμε την μεταβλητή στόχευσης EXPFLAG (target role=label). Τέλος επιλέγουμε τον τελεστή Decision Tree, συνδέουμε τους τελεστές όπως στο διάγραμμα και εκτελούμε. Το αποτέλεσμα είναι η δημιουργία ενός δένδρου αποφάσεων στο οποίο απουσιάζει ο Νομός. Άρα τα γεωγραφικά κριτήρια δεν επηρεάζουν αν μια επιχείρηση θα έχει εξαγωγική δραστηριότητα. Αριστομένης Μακρής 33