1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ



Σχετικά έγγραφα
Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

5. ΠΟΛΥΔΙΑΣΤΑΤΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

6. ΓΕΩΓΡΑΦΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

2. Εισαγωγή Δεδομένων σε Σχεσιακή Βάση Δεδομένων

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων...

Μετατροπή Εταιρίας σε Εταιρία ΕΛΠ

6. ΓΕΩΓΡΑΦΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

7. ΣΥΣΤΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

Πανεπιστήμιο Πειραιώς Τμήμα : Οργάνωσης και Διοίκησης Επιχειρήσεων

Κεφάλαιο 5. Δημιουργία φορμών για τη βάση δεδομένων DVDclub

Σχεδιασμός Βάσεων Δεδομένων

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

Διαχείριση Βάσης Δεδομένων (dbadmin)

Κάθε ένα κελί θα πρέπει να περιέχει ένα μόνο στοιχείο δεδομένων, για παράδειγμα το όνομα σε ένα κελί, το επίθετο σε άλλο κελί.

Διαγραφή Επιλέγετε Διαγραφή για να διαγράψετε μία ήδη υπάρχουσα διαδικασία εισαγωγής ASCII

ΔΗΜΙΟΥΡΓΙΑ ΚΑΤΑΛΟΓΟΥ ΕΤΕΡΟΑΝΑΦΟΡΩΝ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

Φυσική Απογραφή & Παραστατικά Αποθήκης

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Βάσεις δεδομένων και Microsoft Access Κεφάλαιο 2: Microsoft Access

Στις παρακάτω οδηγίες αναλύεται η διαδικασία εισαγωγής δεδομένων μέσω του εργαλείου FastImport.

Εργαλεία επιχειρηματικής ευφυΐας στο εμπορικό τμήμα Marketing Τραπεζικού Οργανισμού

Α2. Να γράψετε στο τετράδιο απαντήσεών σας το κατάλληλο τμήμα κώδικα, κάνοντας τις απαραίτητες αλλαγές σύμφωνα με την εκάστοτε εκφώνηση:

Πρότυπα βιβλίων εργασίας και ονόματα κελιών

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΜΑΘΗΤΙΚΩΝ ΑΓΩΝΩΝ (ΕΚΔΟΣΗ 1 ΣΕΠΤΕΜΒΡΙΟΣ 2017) ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ

Διαδικασιακός Προγραμματισμός

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΙΣΧΥΤΙΚΗΣ ΔΙΔΑΣΚΑΛΙΑΣ (ΕΚΔΟΣΗ 2.0 ΣΕΠΤΕΜΒΡΙΟΣ 2016) ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ

ΚΤΙΡΙΑΚΕΣ ΥΠΟΔΟΜΕΣ Α.Ε. Οδηγίες Λειτουργίας Πληροφοριακού Συστήματος ηλεκτρονικής διαχείρισης Αιτημάτων. v1.3 (23/11/2014)

Δημιουργία Πρόχειρων Βιβλίων

Με την επιλογή Κατάσταση Αρχείων εμφανίζεται ένας πίνακας με όλα τα Αρχεία της εφαρμογής και τον Αριθμό των Εγγραφών που έχουν εισαχθεί.

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

ΚΤΙΡΙΑΚΕΣ ΥΠΟΔΟΜΕΣ Α.Ε. Οδηγίες χρήσης Τελικού Χρήστη (Σ.Μ.) του Πληροφοριακού Συστήματος ηλεκτρονικής διαχείρισης Αιτημάτων. v1.

Οδηγίες Χρήσης Εφαρµογής Καταχώρησης Αποδείξεων µε απλά βήµατα

ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ. Εγχειρίδιο Χρήσης Διαχείριση Εφαρμογών για τον διαχειριστή Γραμματεία ΜΟΔΙΠ

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Θερμοδυναμική - Εργαστήριο

Προγραμματισμός ταμειακής ροής για αγορές υλικών

Συγχώνευση αλληλογραφίας και συγχώνευση μιας πηγής δεδομένων με ένα κύριο έγγραφο όπως ένα γράμμα ή ένα έγγραφο ετικετών

Εργαστηριακός Οδηγός. Βάσεις Δεδομένων της Γ' Τάξης ΕΠΑΛ

ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ ΝΕΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΠΑΡΑΓΓΕΛΙΟΛΗΨΙΑΣ. ΣΥΦΑ eοrder

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Σχεδιασμός εκτυπώσεων ERG

Συστήματα ΟΔΕΠ (Ολοκληρωμένης. Διαχείρισης Επιχειρησιακών Πόρων)- ERP (Enterprise Resource Planning)

Δημιουργία ερωτηματολογιου με την πλατφόρμα Limesurvey

Επεξεργασία πολλαπλών φύλλων εργασίας - Γραφημάτων Excel

Εγχειρίδιο διαχείρισης χρηστών και λιστών διανομής για τον Υπεύθυνο Φορέα του Δικτύου "Σύζευξις" -1-

ΑΛΛΑΓΕΣ ΠΟΥ ΕΓΙΝΑΝ ΣΤΗΝ ΕΚΔΟΣΗ

Προγραμματισμός ταμειακής ροής για αγορές υλικών

Σύβακας Σταύρος ΠΕ19,MSc. IT ΣΥΒΑΚΑΣ ΣΤΑΥΡΟΣ ΕΡΩΤΗΜΑΤΑ

CUT Portal ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ ΥΠΟΒΟΛΗ ΑΙΤΗΣΗΣ ΓΙΑ ΠΕΡΙΣΤΑΣΙΑΚΗ ΦΟΙΤΗΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

Τρόπος ενημέρωσης των πινάκων πελατών, αποστολέων εμπορευμάτων. Με διπλό κλικ στο εικονίδιο της επιφάνειας εργασίας, εμφανίζεται η επόμενη εικόνα.

Εγχειρίδιο Χρήστη Φάση 1: Καταχώρηση Ειδικοτήτων

Σχεδίαση Βάσεων Δεδομένων

Ηλεκτρονικοί Υπολογιστές ΙI. Βάσεις Δεδομένων. Ακαδημαϊκό Έτος Εργαστήριο 2. Διαφάνεια 1. Κάπαρης Αναστάσιος

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Survey 123 User Manual

Περιπτώσεις αλλαγής Λογιστικού Σχεδίου.

Υπηρεσία Ηλεκτρονικής Εξουσιοδότησης

Καταχώρηση Αποδείξεων

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Σχεδίαση Βάσεων Δεδομένων

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

1. Ετήσιος προϋπολογισμός

MCSS Medical Center Support Systems. Users Manual Module Financial

Ένα σύνολο αλληλοσχετιζόμενων συστημάτων που συλλέγουν, επεξεργάζονται, αποθηκεύουν και διανέμουν πληροφορίες

I. ΑΛΓΟΡΙΘΜΟΣ II. ΠΡΑΞΕΙΣ - ΣΥΝΑΡΤΗΣΕΙΣ III. ΕΠΑΝΑΛΗΨΕΙΣ. 1. Τα πιο συνηθισμένα σενάρια παραβίασης αλγοριθμικών κριτηρίων είναι:

ΤΕΙ Ηρακλείου. Τμήμα Λογιστικής Πληροφορική I 6 η Εργαστηριακή άσκηση (Excel)

(CUT Portal). ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ - ΥΠΟΒΟΛΗ ΑΙΤΗΣΗΣ ΓΙΑ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

Σ η μ ε ι ώ σ ε ι ς γ ι α τ ο υ π ο λ ο γ ι σ τ ι κ ό φ ύ λ λ ο

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΔΗΜΟΣΙΑΣ ΔΙΟΙΚΗΣΗΣ & ΑΥΤΟΔΙΟΙΚΗΣΗΣ. 3.4 Παραδείγματα χρήσης ψηφιακών υπογραφών

GreekLUG Ελεύθερο Λογισμικό & Λογισμικό Ανοικτού Κώδικα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Epsilon Net PYLON Platform

Σχεδιασμός εκτυπώσεων ERG

Διαχειριστικό σύστημα πακέτων φιλοξενίας

Βάσεις δεδομένων (Access)

Εισαγωγή Αρχείων από Εμπορικό Epsilon

ΤΕΙ Ηρακλείου. Τμήμα Διοίκησης επιχειρήσεων Πληροφορική I

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΜΑΘΗΜΑΤΩΝ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΤΟΙΧΕΙΩΝ ΚΑΙ ΕΠΙΔΟΣΕΩΝ ΦΟΙΤΗΤΩΝ. Σταθάκης Απόστολος Α.Ε.Μ.

Δημιουργία συναλλασσόμενου στην Γενική Λογιστική και αυτόματη σύνδεση του με λογαριασμό Πελάτη ή Προμηθευτή.

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Αριστοµένης Μακρής Εργαστήρια Η/Υ

a. Επιλέγουμε τις γραμμές προς διαγραφή a. Επιλέγουμε τις στήλες προς διαγραφή a. Γράφουμε σε μια στήλη μια σειρά από αριθμούς ή αλφαριθμητικά

Δημιουργώντας τον πίνακα διάστασης

eorder Ηλεκτρονική Παραγγελιοληψία ΣΥ.ΦΑ. Θεσσαλονίκης

Τίτλος Πακέτου Certified Computer Expert-ACTA

ΟΔΗΓΙΕΣ ΓΙΑ ΤΗΝ ΕΝΗΜΕΡΩΣΗ ΤΩΝ ΔΗΜΟΣΙΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΥΠΗΡΕΣΙΩΝ (Δ.Ο.Υ.)

ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΧΡΗΣΤΗ. Ηλεκτρονική Υποβολή Α.Π.Δ.

Αρχικά, μεταβαίνετε στην ομώνυμη επιλογή της Καρτέλας ΦΟΡΕΙΣ. Επιλέγοντας Βιβλιοθήκη Μονάδας εμφανίζεται η παρακάτω εικόνα «Λίστα βιβλίων».

Εγχειρίδιο Χρήσης. για ΟΙΚΟΝΟΜΙΚΟΥΣ ΦΟΡΕΙΣ

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

ενιαίων σχολικών επιτροπών & συμβουλίων σχολικών κοινοτήτων 2011, Στράτος 'stratari' κυριαζίδης

Τα συγκεντρωτικά ερωτήματα αφορούν στην ομαδοποίηση των δεδομένων και στη. χρήση συναρτήσεων ομαδοποίησης κατά την εκτέλεση ενός ερωτήματος προβολής

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

Transcript:

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Τα δεδομένα που θα επεξεργασθούμε στη διάρκεια του εργαστηρίου παραχωρήθηκαν από την εταιρεία ICAP ειδικά για τις ανάγκες του μαθήματος. Τα δεδομένα αυτά αντλήθηκαν από την βάση δεδομένων της ICAP και μας παραδόθηκαν σε μορφή Excel. Τα δεδομένα αυτά αφορούν 62.965 επιχειρήσεις όλων των νομικών μορφών και καλύπτουν την πλειοψηφία των κλάδων και δραστηριοτήτων της ελληνικής οικονομίας στο σύνολο της επικράτειας. Το αρχείο excel icap είναι το αρχείο που μας παραδόθηκε και το οποίο περιλαμβάνει τρία φύλλα εργασίας: 1. Τα αναλυτικά στοιχεία των εταιρειών 2. Κωδικοποιήσεις νομών με το εύρος των ταχυδρομικών κωδικών που καλύπτει κάθε νομός. Αριστομένης Μακρής 1

3. Κωδικοποιήσεις περιφερειών με το εύρος των ταχυδρομικών κωδικών που καλύπτει κάθε περιφέρεια. Ο τελικός στόχος είναι η δημιουργία πινάκων οι οποίοι θα εισαχθούν σε μια σχεσιακή βάση δεδομένων (Microsoft SQL Server 2005) μέσα από μια διαδικασία ETL: (1) Extract (η εξαγωγή των πρωτογενών στοιχείων από τα αρχεία της ICAP) (2) Transform (η μετατροπή αυτών των δεδομένων σε μορφή κατάλληλη για εισαγωγή τους σε μια σχεσιακή βάση δεδομένων) και (3) Load (η εισαγωγή των δεδομένων στην σχεσιακή βάση δεδομένων με τη μορφή πινάκων και η δημιουργία κλειδιών και σχέσεων μεταξύ των πινάκων). Αριστομένης Μακρής 2

Τα δεδομένα μιας σχεσιακής βάσης δεδομένων μπορούν εύκολα να αντληθούν από διάφορα εργαλεία (end-user queries, GIS, Data Mining κ.ά.) και να μετασχηματισθούν για περαιτέρω αξιοποίηση (OLAP multidimensional analysis). Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining Αριστομένης Μακρής 3

1.1. ΔΗΜΙΟΥΡΓΙΑ ΤΩΝ ΠΙΝΑΚΩΝ ΣΤΟ EXCEL Τελικός στόχος είναι η δημιουργία των ακολούθων πινάκων που βρίσκονται στο αρχείο excel icap4: 1. Βασικός πίνακας ICAP 2. Νομικές Μορφές 3. Κλάδοι Οικονομίας 4. Δραστηριότητες 5. Περιφέρειες Αριστομένης Μακρής 4

6. Νομοί 7. Πόλεις Παρατηρούμε τις ονομασίες που έχουν δοθεί στα διάφορα φύλλα εργασίας ώστε να αντληθούν αυτόματα τα ονόματα από τη σχεσιακή βάση δεδομένων. Το Excel δεν είναι το πλέον ενδεδειγμένο περιβάλλον για τον μετασχηματισμό των δεδομένων εφ όσον υπάρχουν εξειδικευμένες τεχνολογίες για το σκοπό αυτό. Θα χρησιμοποιήσουμε όμως το excel γιατί είναι γνωστό σε όλους, δεν απαιτεί εξειδικευμένες γνώσεις (γλώσσες προγραμματισμού SQL) και έχει αρκετές δυνατότητες μετασχηματισμού. 1.1.1. ΔΗΜΙΟΥΡΓΙΑ ΠΙΝΑΚΩΝ ΑΝΑΦΟΡΑΣ (ΑΦΑΙΡΕΣΗ ΕΠΑΝΑΛΗΨΕΩΝ) Παρατηρούμε ότι ο αρχικός πίνακας ICAP δεν είναι κανονικοποιημένος εφ όσον περιλαμβάνει πολλές επαναλήψεις δεδομένων (π.χ. δραστηριότητες, πόλεις, νομικές μορφές) με αποτέλεσμα την πιθανή δημιουργία λαθών (διαφορετικό λεκτικό για την ίδια κατηγορία σε διαφορετικές λογικές εγγραφές) και την επιβάρυνση του πίνακα δεδομένων (ICAP) με άχρηστες επαναλήψεις μεγάλου όγκου δεδομένων (περιγραφές). Αριστομένης Μακρής 5

Θα δείξουμε πώς δημιουργείται ένας πίνακας αναφοράς (στο παράδειγμά μας Δραστηριότητες). Για το σκοπό αυτό ανοίγουμε το αρχείο excel icap, στην μορφή που παραλήφθηκε από την ICAP. Επιλέγουμε τις στήλες Δραστηριότητα και Λεκτικό και τις αντιγράφουμε (copy paste) σε ένα νέο κενό φύλλο εργασίας. Παρατηρούμε ότι το νέο φύλλο εργασίας περιλαμβάνει 62.966 λογικές εγγραφές, όσες και το αρχικό φύλλο. Επιλέγουμε Data Remove Duplicates και εμφανίζεται ένας πίνακας διαλόγου με τις δυο στήλες του φύλλου εργασίας. Επιλέγουμε ΟΚ. Αριστομένης Μακρής 6

Αποτέλεσμα της όλης διαδικασίας είναι η διαγραφή 62.847 επαναλήψεων από το φύλλο εργασίας. Επόμενο βήμα είναι η ταξινόμηση του πίνακα (Data Sort) κατά Δραστηριότητα. Με αποτέλεσμα: Το φύλλο εργασίας εμπλουτίστηκε με αλλαγή επικεφαλίδων και την προσθήκη μιας νέας στήλης (Γενική Δραστηριότητα) εφ όσον πολλές δραστηριότητες είναι ξεχωριστές για τη βιομηχανία και το εμπόριο. Έτσι μπορούμε Αριστομένης Μακρής 7

να δούμε και μια γενική δραστηριότητα (π.χ. κλωστοϋφαντουργία) στο σύνολό της, αλλά και πώς αναλύεται ανά κλάδο της οικονομίας (βιομηχανία εμπόριο). Κατά παρόμοιο τρόπο μπορούν να δημιουργηθούν τα φύλλα εργασίας των Νομικών Μορφών και των Πόλεων. Το φύλλο εργασίας των Κλάδων πρέπει να καταχωρηθεί με το χέρι με βάση την κωδικοποίηση που προκύπτει από την επικεφαλίδα της αντίστοιχης στήλης. Μετά την ολοκλήρωση του βήματος αυτού διαγράφουμε τις στήλες με τα λεκτικά από το φύλλο εργασίας με τα αναλυτικά δεδομένα και αφήνουμε μόνο τους κωδικούς αναφοράς. 1.1.2. ΠΡΟΣΘΗΚΗ ΚΩΔΙΚΩΝ ΑΝΑΦΟΡΑΣ Στην προηγούμενη ενότητα δημιουργήσαμε φύλλα εργασίας (υποψήφιους πίνακες) αναφοράς που περιλαμβάνουν κωδικό και λεκτικό και διαγράψαμε το λεκτικό από το φύλλο εργασίας με τα αναλυτικά δεδομένα. Το αποτέλεσμα είναι κάθε λογική εγγραφή του φύλλου εργασίας με τα αναλυτικά δεδομένα να μπορεί, μέσω του αντίστοιχου κωδικού, να συνδεθεί με το αντίστοιχο λεκτικό στο φύλλο εργασίας αναφοράς. Παρατηρούμε τώρα ότι στο φύλλο εργασίας με τα αναλυτικά δεδομένα δεν υπάρχει στήλη με τους κωδικούς Νομών και Περιφερειών. Η πληροφορία που συνδέει τα τρία αυτά φύλλα εργασίας είναι ο Ταχυδρομικός Κωδικός, ο οποίος υπάρχει μεν σε ανάλυση στο φύλλο εργασίας με τα αναλυτικά δεδομένα, αλλά παρουσιάζεται σαν εύρος τιμών (από έως) στους πίνακες αναφοράς Νομών και Περιφερειών (αντίστοιχες στήλες C και D). Ένας τέτοιος συσχετισμός δεν ενδείκνυται να υπάρχει σε σχεσιακές βάσεις δεδομένων. Για το σκοπό αυτό θα πρέπει να δημιουργηθούν νέες στήλες με τους αντίστοιχους κωδικούς που εμφανίζονται στους πίνακες αναφοράς Νομών και Περιφερειών (αντίστοιχη στήλη Α). Στον πίνακα των νομών αντιγράφουμε τη στήλη με τους Ταχυδρομικούς Κωδικούς από, σε μια νέα στήλη στην αρχή του φύλλου εργασίας (στήλη Α), ταξινομούμε τον πίνακα κατά τη στήλη αυτή και μετονομάζουμε το φύλλο εργασίας σε ΝΟΜΟΙ. Στο φύλλο εργασίας με τα αναλυτικά δεδομένα προσθέτουμε μια νέα στήλη (Κωδ.Νομού) και χρησιμοποιούμε τη συνάρτηση VLOOKUP για να μας επιστρέψει τον κωδικό νομού από το φύλλο εργασίας των Νομών. Αριστομένης Μακρής 8

Η συνάρτηση VLOOKUP παίρνει σαν παραμέτρους (α) την τιμή αναζήτησης (στην συγκεκριμένη περίπτωση το κελί F2 - ταχυδρομικός κωδικός 11741), (β) τον πίνακα αναφοράς (στη συγκεκριμένη περίπτωση στο φύλλο εργασίας ΝΟΜΟΙ την περιοχή τιμών A2:B53 που περιλαμβάνει όλες τις τιμές των νομών) και (γ) την στήλη επιστροφής από την περιοχή τιμών (στη συγκεκριμένη περίπτωση την 2 η στήλη που περιέχει τον Κωδικό Νομού). Η συνάρτηση αναζητεί την τιμή αναζήτησης (11741) στην πρώτη στήλη του πίνακα αναφοράς. Επειδή η τιμή αναζήτησης δεν υπάρχει ακριβώς στον πίνακα αναφοράς η συνάρτηση επιστρέφει την τιμή της πρώτης γραμμής, εφ όσον η τιμή αναζήτησης (11741) είναι μεγαλύτερη της πρώτης γραμμής του πίνακα αναφοράς (10000) και μικρότερη της 2 ης γραμμής του πίνακα αναφοράς (2000). Σαν αποτέλεσμα το κελί G2 παίρνει την τιμή της πρώτης γραμμής του πίνακα αναφοράς (138 = Αττική). Μετά την ολοκλήρωση της συνάρτησης στην πρώτη γραμμή του φύλλου εργασίας με τα αναλυτικά δεδομένα, αντιγράφουμε τη συνάρτηση σε όλες τις υπόλοιπες γραμμές του φύλλου εργασίας (προσοχή στα $ της συνάρτησης ώστε να μην αυξάνονται οι τιμές των γραμμών στον πίνακα αναφοράς και προκύψουν λάθη). Κατά παρόμοιο τρόπο δημιουργούμε και τη νέα στήλη με τον Κωδικό Περιφέρειας. 1.1.3. ΔΗΜΙΟΥΡΓΙΑ ΣΤΗΛΩΝ ΥΠΟΛΟΓΙΣΜΟΥ Μια από τις στήλες του φύλλου εργασίας με τα αναλυτικά δεδομένα είναι ο τζίρος (κύκλος εργασιών). Επίσης υπάρχουν δυο στήλες, με την ένδειξη εξαγωγών και το (δηλωθέν) ποσοστό του κύκλου εργασιών που αφορά εξαγωγές. Αντίστοιχα υπάρχουν παρόμοιες στήλες για τις εισαγωγές. Στο τελικό φύλλο εργασίας θα προσθέσουμε δυο νέες στήλες μια για τον τζίρο των εξαγωγών και μια για τον τζίρο των εισαγωγών (στις εισαγωγές το νούμερο που θα προκύψει δεν θα είναι ακριβές, εφ όσον ο τζίρος περιλαμβάνει και το κέρδος, επομένως το ποσό που θα προκύψει θα είναι υπερτιμημένο κατά το κέρδος). Αριστομένης Μακρής 9

1.1.4. ΑΛΛΑΓΗ ΤΙΜΩΝ ΣΤΗΛΩΝ Παρατηρούμε ότι στις στήλες του φύλλου εργασίας με τα αναλυτικά δεδομένα υπάρχουν ενδείξεις (*) στις στήλες Εξαγωγική, Εισαγωγική και Χρηματιστήριο για να δείξουν ότι μια επιχείρηση έχει εξαγωγική δραστηριότητα, ότι εισάγει και μεταπωλεί εμπορεύματα, ή ότι είναι εισηγμένη στο Χρηματιστήριο. Θα μετατρέψουμε τις ενδείξεις Εξαγωγική και Εισαγωγική σε ένα (ναι) και μηδέν (όχι) και την ένδειξη εισηγμένη στο Χρηματιστήριο σε ναι και όχι. Ξεκινάμε από την ένδειξη Χρηματιστήριο. Επιλέγουμε Home Find & Select Replace. Επιλέγουμε να αλλαχθεί η ένδειξη (*) σε Ναι και παρατηρούμε ότι έγιναν 300 αλλαγές, άρα από τις 62.965 επιχειρήσεις μόνον οι 300 είναι εισηγμένες στο Χρηματιστήριο. 1.1.5. ΟΛΟΚΛΗΡΩΣΗ ΜΕΤΑΣΧΗΜΑΤΙΣΜΩΝ Οι μετασχηματισμοί που έγιναν στα πρωτογενή δεδομένα που μας παραχωρήθηκαν εξυπηρετούν δυο σκοπούς: (α) την κανονικοποίηση των δεδομένων (normalisation) ώστε να είναι κατάλληλα για εισαγωγή τους σε σχεσιακή βάση δεδομένων και (β) την ποιοτική τους αναβάθμιση (data quality) ώστε να μην δημιουργήσουν προβλήματα οι τιμές των δεδομένων (π.χ. *) κατά την επεξεργασία τους αργότερα από τα διάφορα εργαλεία αναζήτησης. Αριστομένης Μακρής 10

Στόχος του εργαστηρίου αυτού δεν είναι η εις βάθος ανάλυση της διαδικασίας αυτής, αλλά η κατανόηση της ανάγκης μετασχηματισμού των δεδομένων (Transformation) πριν αυτά εισαχθούν (Load) σε μια σχεσιακή βάση δεδομένων που θα χρησιμεύσει σαν πηγή πληροφοριών (Data Mart) στη συνέχεια. Η διαδικασία μετασχηματισμού απαιτεί αρκετές ώρες αλλαγών και δοκιμών στα τελικά δεδομένα, στην βάση δεδομένων, ώστε να καλυφθούν οι περισσότερες περιπτώσεις δυσλειτουργιών στην αξιοποίηση των δεδομένων. Το τελικό αρχείο Excel που περιλαμβάνει όλους τους μετασχηματισμούς και θα χρησιμοποιηθεί για την εισαγωγή των δεδομένων στην σχεσιακή βάση δεδομένων, είναι το αρχείο icap4. Αριστομένης Μακρής 11