Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ: Δηζαγσγή. http://delab.csd.auth.gr/~gounaris/courses/dwdm/

Σχετικά έγγραφα
Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ: Δηζαγσγή.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2

Διατείριση Φσσικών Καταστρουών: ACTIVE LANDSLIDE INVENTORY MAPPING AND SUSCEPTIBILITY ZONING

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Ενδεικτικά Θέματα Στατιστικής ΙΙ

Constructors and Destructors in C++

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ. G. Mitsou

ΑΝΤΗΛΙΑΚΑ. Η Μηκή ζθέθηεθε έλαλ ηξόπν, γηα λα ζπγθξίλεη κεξηθά δηαθνξεηηθά αληειηαθά πξντόληα. Απηή θαη ν Νηίλνο ζπλέιεμαλ ηα αθόινπζα πιηθά:

Άσκηση 1 - Μοπυοποίηση Κειμένου

ΑΓΩΜΘΡΘΙΞΘ ΤΩΠΞΘ ΡΘΡ ΛΘΙΠΕΡ ΗΚΘΙΘΕΡ ΛΘΤΑΗΚΘΔΗΡ Τ.

ΛΙΜΝΗ ΤΣΑΝΤ. Σρήκα 1. Σρήκα 2

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis

ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ. Ειζαγωγή ζηη Φωηογραθία. Χριζηάκης Σαζεΐδης EFIAP

Α Ο Κ Η Α Μ Α Ζ Η Η Ρ Η ( S E A R C H )

Η αξρή ζύλδεζεο Client-Server

Η/Υ A ΤΑΞΕΩΣ ΑΕ Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ

Παλαιοσλαβική Γλώσσα. Ενότητα 11: Μορφολογία Τα Ονόματα/Αντωνυμίες. Αλεξάνδρα Ιωαννίδου. Τμήμα Σλαβικών Σπουδών

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο

Επαναληπτική Άσκηση - Δέντρα

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2

ΥΡΙΣΟΤΓΔΝΝΙΑΣΙΚΔ ΚΑΣΑΚΔΤΔ

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

Να ζρεδηάζεηο ηξόπνπο ζύλδεζεο κηαο κπαηαξίαο θαη ελόο ιακπηήξα ώζηε ν ιακπηήξαο λα θσηνβνιεί.

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

A. Αιιάδνληαο ηε θνξά ηνπ ξεύκαηνο πνπ δηαξξέεη ηνλ αγωγό.

Λεκηική έκθραζη, κριηική, οικειόηηηα και ηύπος δεζμού ζηις ζηενές διαπροζωπικές ζτέζεις

ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/2014

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

Γραφεύα Επικοινωνύασ & Ενημϋρωςησ ϋρρεσ, Τψηλϊντου 4 3οσ Όροφοσ ΣΗΛ ΥΑΦ

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Πανελλήνια Έρεσνα «Καηαναλωηής & Ελληνικό Προϊόν»

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH

Οργάνωση και Δομή Παρουσιάσεων

Σημεία Ασύπματηρ Ππόσβασηρ (Hot-Spots)

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

Παιχνίδι γλωζζικής καηανόηζης με ζχήμαηα!

β) (βαζκνί: 2) Έζησ όηη ε ρξνλνινγηθή ζεηξά έρεη κέζε ηηκή 0 θαη είλαη αληηζηξέςηκε. Δίλεηαη ην αθόινπζν απνηέιεζκα από ην EViews γηα ηε :

ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ

3 ΑΠΙΔ ΑΘΖΔΗ ΘΟΚΟΙΟΓΗΑ ΠΟΤ ΑΛΣΗΚΔΣΩΠΗΕΟΛΣΑΗ ΚΔ ΦΤΗΘΖ ΘΑΗ ΚΑΘΖΚΑΣΗΘΑ ΙΤΘΔΗΟΤ

ΔΦΑΡΜΟΜΔΝΑ ΜΑΘΗΜΑΣΙΚΑ ΣΗ ΧΗΜΔΙΑ Ι ΘΔΜΑΣΑ Α επηέκβξηνο Να ππνινγηζηνύλ νη κεξηθέο παξάγσγνη πξώηεο ηάμεο ηεο ζπλάξηεζεο f(x,y) =

Hellas online Προεπιλεγμένες ρσθμίσεις για FritzBox Fon WLAN 7140 (Annex B) FritzBox Fon WLAN Annex B ( )

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ

ACTA A.E. Αριςτο Σέλεια Πιςτοποίηςη. Ανθρώπινου Δυναμικοφ. «ΠΙΣΟΠΟΙΗΗ ΑΝΘΡΩΠΙΝΟΤ ΔΤΝΑΜΙΚΟΤ Εξελίξεισ - Προοπτικέσ»

ΠΔΡΗΓΡΑΦΖ ΛΔΗΣΟΤΡΓΗΚΟΣΖΣΑ ΥΔΓΗΟΤ ΑΡΗΘΜ. 1

ΜΗΧΑΝΟΛΟΓΙΚΟ ΣΧΔΓΙΟ ΙΙ

Σύνθεζη ηαλανηώζεων. Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο:

Αποτύπωση και σσγκριτική ανάλσση της τωρικής κατανομής τοσ αστικού πρασίνοσ 11 Ελληνικών πόλεων

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ

γηα ηνλ Άξε Κσλζηαληηλίδε

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Η. Απζίλνο Αλ. Καζεγεηήο Αζιεηηθή δηνίθεζε. ΟΓΗΓΟ ΠΣΤΥΙΑΚΗ ΔΡΓΑΙΑ ζηελ Αζιεηηθή δηοίθεζε. Θέκα πηστηαθής (κε ηε κνξθή εξωηήκαηνο):...

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

Δξγαιεία Καηαζθεπέο 1 Σάμε Δ Δ.Κ.Φ.Δ. ΥΑΝΗΩΝ ΠΡΩΣΟΒΑΘΜΗΑ ΔΚΠΑΗΓΔΤΖ. ΔΝΟΣΖΣΑ 2 ε : ΤΛΗΚΑ ΩΜΑΣΑ ΔΡΓΑΛΔΗΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Ογθνκεηξηθό δνρείν

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12

Γξαθηθά Τπνινγηζηώλ θαη ε ζπκβνιή ηνπο ζηελ Ιαηξηθή

EL Eνωμένη στην πολυμορυία EL B8-0165/7. Τροπολογία. Salvatore Cicu, Lambert van Nistelrooij εμ νλόκαηνο ηεο Οκάδαο PPE

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη

ΚΔΦ. 2.4 ΡΗΕΔ ΠΡΑΓΜΑΣΗΚΩΝ ΑΡΗΘΜΩΝ

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

ΜΕΛΕΣΗ E.O.K. ΜΕ ΑΙΘΗΣΗΡΑ ΘΕΗ

ΙΣΤΟΡΙΑ ΤΟΥ ΑΡΧΑΙΟΥ ΚΟΣΜΟΥ

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

ΕΜΠΟΡΙΚΑ ΣΙΜΟΛΟΓΙΑ ΣΗ ΧΑΜΗΛΗ ΣΑΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΦΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Μάθημα: Πιθανόηηηες και Σηαηιζηική Διδάζκων: Σ. Γ.

ΣΥΣΤΗΜΑΤΑ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. 1. Να ιπζνύλ ηα ζπζηήκαηα. 1 0,3x 0,1y x 3 3x 4y 2 4x 2y ( x 1) 6( y 1) (i) (ii)

Δπαστηπιότητα 1 - ανάπτςξη, μεταγλώττιση, αποσυαλμάτωση και. εκτέλεση ππογπάμματορ

5 η Δργαζηηριακή Άζκηζη Κσκλώμαηα Γσαδικού Αθροιζηή/Αθαιρέηη

ΕΝΤΟΛΕΣ WINDOWS ΚΑΙ UNIX

Αντισταθμιστική ανάλυση

ΓΔΧΜΔΣΡΙΑ ΓΙΑ ΟΛΤΜΠΙΑΓΔ

ΒΗΜΑ 2. Εηζάγεηε ηνλ Κωδηθό Πξόζβαζεο πνπ ιακβάλεηε κε SMS & δειώλεηε επηζπκεηό Όλνκα Πξόζβαζεο (Username) θαη ην ζαο

ΣΔΙ ΔΡΡΩΝ ΣΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΠΙΚΟΙΝΩΝΙΩΝ ΔΞΔΣΑΗ ΣΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΗ ΠΡΟΣΤΠΩΝ ΝΔΤΡΩΝΙΚΑ ΓΙΚΣΤΑ» ΠΑ. 7 ΔΠΣΔΜΒΡΙΟΤ 2012

Τ ξ ε ύ ο ξ π ς ξ σ ξ ο ί ξ σ _ Ι ε ο α μ ε ι κ ό π

ΧΩΡΙΚΕΣ ΣΧΕΣΕΙΣ ΚΑΙ ΓΕΩΜΕΤΡΙΚΕΣ ΕΝΝΟΙΕΣ

Η επιζκόπηζη ηης έμμιζθης ενηολής ζηην Αλλοδαπή. Καηεξίλα Γαιαλνπνύινπ, Intellectual Property Manager, Microsoft Ειιάο Α.Ε.

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ

ΣΡΑΠΕΖΑ ΘΕΜΑΣΩΝ Α ΛΤΚΕΙΟΤ

Κεθάιαην 20. Ελαχιστοποίηση του κόστους

Η Αξιολόγηζη ηηρ Πεπίλητηρ Κειμένος Παιδαγυγικό Ινζηιηούηο

7. ΚΑΤΑΧΩΡΗΤΕΣ ΕΡΩΤΗΣΕΙΣ ΑΣΚΗΣΕΙΣ. 3. Έλαο θαηαρσξεηήο SISO ησλ 4 bits έρεη: α) Μία είζνδν, β) Δύν εηζόδνπο, γ) Σέζζεξεηο εηζόδνπο.

ΕΞΙΣΩΣΕΙΣ. (iv) (ii) (ii) (ii) 5. Γηα ηηο δηάθνξεο ηηκέο ηνπ ι λα ιπζνύλ νη εμηζώζεηο : x 6 3 9x

Μορθές Κακόβοσλοσ Κώδικα (Malicious Code)

Transcript:

Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ: Δηζαγσγή http://delab.csd.auth.gr/~gounaris/courses/dwdm/

Δπραξηζηίεο Οη δηαθάλεηεο ηνπ καζήκαηνο ζε γεληθέο γξακκέο αθνινπζνύλ ην ζύγγξακκα «Δηζαγσγή ζηελ Δμόξπμε θαη ηηο Απνζήθεο Γεδνκέλσλ» Xξεζηκνπνηήζεθε επηπιένλ πιηθό από ηα βηβιία «Introduction to Data Mining» ησλ Tan, Steinbach, Kumar, θαη «Data Mining: Concepts and Techniques» ησλ Jiawei Han, Micheline Kamber. 2

Ση ζα δνύκε ζήκεξα Κίλεηξν Οξηζκνί Ιζηνξηθά ηνηρεία Λεηηνπξγίεο Πεγέο Γεδνκέλσλ 3

Έλα πξόζθαην απόθνκκα Από ην ηεύρνο Οθησβξίνπ 2012 ηνπ Harvard Business Review 4

ζπλέρεηα 5

Κίλεηξν: «Η αλάγθε είλαη ε κεηέξα ηεο εθεύξεζεο» Το ππόβλημα ηηρ εκπηκηικήρ αύξηζηρ ηων δεδομένων Ύπαξμε εξγαιείσλ γηα ηελ απηόκαηε ζπιινγή πιεξνθνξηώλ σξίκαλζε ησλ ηερλνινγηώλ Βάζεσλ Γεδνκέλσλ Απνηέιεζκα: ηεξάζηηεο πνζόηεηεο δεδνκέλσλ είλαη απνζεθεπκέλα ζε βάζεηο δεδνκέλσλ, απνζήθεο δεδνκέλσλ θαη άιια κέζα απνζήθεπζεο πιεξνθνξίαο. Πνιγόμαζηε από δεδομένα... Αλλά πεινάμε για γνώζη! Σν κέγεζνο ηεο πιεξνθνξίαο μεπεξλά ηηο δπλαηόηεηεο ηεο αλζξώπηλεο θαηαλόεζεο θαη αληίιεςεο. 6

Κίλεηξν (1): Τπνζηήξημε Απνθάζεσλ Απηόκαηε ζπιινγή πνιύ κεγάισλ ζπλόισλ δεδνκέλσλ Πσιήζεηο (bar-code scanners) Παγθόζκηνο Ιζηόο (ε-εκπόξην) Σξάπεδεο σζηέο Απνθάζεηο Αλάγθεο Υξήζηε Καιύηεξεο Τπεξεζίεο Πξνζαξκνγή ζηηο αλάγθεο(crm) Η γλώζε θαη ε ρξήζηκε πιεξνθνξία είλαη κπςμμένη κέζα ζηα δεδνκέλα. 7

Κίλεηξν (2):Δπηζηήκεο Δπηζηεκνληθά δεδνκέλα ζπιιέγνληαη κε ππεξβνιηθά πςεινύο ξπζκνύο (GB-ΣΒ/hour) Γεδνκέλα δνξπθόξσλ (NASA, ESA) Σειεζθόπηα Βηνινγηθά Γεδνκέλσλ (γσλίδηα - κηθξνζπζηνηρίεο) LHC Δπηζηεκνληθέο Πξνζνκνηώζεηο Οη παξαδνζηαθέο ηερληθέο δελ είλαη απνδνηηθέο Η εμόξπμε δεδνκέλσλ βνεζά ζηελ απάληεζε πην ζεκειησδώλ εξσηεκάησλ, π.ρ..: «πνηα είλαη ε ζρέζε κεηαμύ αθξαίσλ θαηξηθώλ θαηλνκέλσλ (θπθιώλσλ) θαη ππεξζέξκαλζεο ηνπ πιαλήηε;» «πνηα γνλίδηα ζπζρεηίδνληαη κε θάπνηα αξξώζηηα;» 8

Η αλάπηπμε ησλ ηερλνινγηώλ ΒΓ 1960s: πιινγή δεδνκέλσλ, δεκηνπξγία βάζεσλ, ηεξαξρηθό δηθηπαθό κνληέιν δεδνκέλσλ. 1970s: ρεζηαθό κνληέιν, πινπνηήζεηο ζρεζηαθώλ ΓΒΓ. 1980s: ρεζηαθά ΓΒΓ, πξνεγκέλα κνληέια (extended-relational, OO, deductive, etc.) θαη ΓΒΓ γηα ζπγθεθξηκέλεο εθαξκνγέο (π.ρ., ρσξηθέο, ρσξνρξνληθέο, επηζηεκνληθέο ΒΓ, θ.ν.θ.) 1990s ζήκεξα: Δξόπςξη Γεδομένων (data mining) και Αποθήκερ Γεδομένων (Data Warehouses), Πνιπκεζηθέο ΒΓ, ΒΓ θαη Παγθόζκηνο Ιζηόο 9

Σί είλαη εμόξπμε δεδνκέλσλ; Δμόξπμε Γεδνκέλσλ: Μέξνο ηεο δηαδηθαζίαο αλαθάιπςεο γλώζεο ζε ΒΓ. Δμαγσγή ελδηαθέξνπζαο (κε-ηεηξηκκέλεο, ππνθξππηόκελεο, άγλσζηεο πξνεγνπκέλσο θαη ελδερνκέλσο ρξήζηκεο), πιεξνθνξίαο ή πξνηύπσλ από δεδνκέλα ζε κεγάιεο ΒΓ. Δλαιιαθηηθέο νλνκαζίεο (νη πεξηζζόηεξεο είλαη άζηνρεο): Αλαθάιπςε γλώζεο ζε ΒΓ (Knowledge discovery in databases - KDD) --επξύηεξε πεξηνρή business intelligence... 10

Σί ΓΔΝ είλαη εμόξπμε δεδνκέλσλ; Πνιιά από ηα απηναπνθαινύκελα ζπζηήκαηα εμόξπμεο δεδνκέλσλ ηεο αγνξάο Σερληθέο (ζπκπεξαζκαηηθή - deductive) επεμεξγαζία εξσηεκάησλ Έκπεηξα ζπζηήκαηα Μηθξά πξνγξάκκαηα κεραληθήο-ζηαηηζηηθήο κάζεζεο ML/statistical programs πκπεξαζκαηηθή απάληεζε εξσηήζεσλ Έλα πξαγκαηηθό ζύζηεκα Δμόξπμεο Γεδνκέλσλ πξέπεη λα είλαη ζε ζέζε λα δηαρεηξίδεηαη ηεξάζηην όγθν δεδνκέλσλ Δκθαζε ζε απνδνηηθόηεηα θαη θιηκάθσζε - επεθηαζηκόηεηα Running time = O(db size) 11

πκβνιή πνιιώλ πεξηνρώλ Βάζεηο Γεδνκέλσλ ηαηηζηηθή Μεραληθή Μάζεζε Δμόξπμε Γεδνκέλσλ Απεηθόληζε Δπηζηήκε ηεο Πιεξνθόξηαο Άιιεο πεξηνρέο 12

Απνζήθεο Γεδνκέλσλ 13

Απνζήθεο Γεδνκέλσλ - OLAP Οη απνζήθεο δεδνκέλσλ είλαη εμεηδηθεπκέλεο ΒΓ πνπ κπνξνύλ λα απνζεθεύνπλ δεδνκέλα από πνιιαπιέο, εηεξνγελείο βάζεηο, νξγαλσκέλεο κε θνηλό ζρήκα θαη δηεπθνιύλνπλ ηε ιήςε απνθάζεσλ. OLAP (On-Line Analytical Processing) είλαη κία ηερληθή αλάιπζεο πνπ εθηειείηαη ζηηο ΑΓ. Δίλαη δηεξεπλεηηθήο θύζεο. Πνιύ ρξήζηκε, αιιά πεξηζζόηεξν θαηάιιειε γηα επαιήζεπζε ππνζέζεσλ. ΤΜΠΛΗΡΩΜΑΣΙΚΗ δηαδηθαζία ηεο εμόξπμεο. Αληίζεηα, ε εμόξπμε δεδνκέλσλ δνπιεύεη κε έλα εκη-απηόκαην ηξόπν Καη ζηνρεύεη ζηελ εύξεζε «θξπθήο» γλώζεο Οη απνζήθεο δεδνκέλσλ απνηεινύλ έλα θαηάιιειν πιαίζην γηα ηελ εθαξκνγή ηερληθώλ εμόξπμεο Δθηεινύλ ηε ζπιινγή, νινθιήξσζε, θαζαξηζκό θαη κεηαζρεκαηηζκό ησλ δεδνκέλσλ 14

Δμόξπμε Γεδνκέλσλ θαη Business Intelligence Πεπιζζόηεπερ δςναηόηηηερ για ςποζηήπιξη αποθάζεων Making Decisions Τελικόρ Χπήζηηρ Data Presentation Visualization Techniques Data Mining Information Discovery Αναλςηήρ Δπισειπήζεων Αναλςηήρ Γεδομένων Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP Γιασειπιζηήρ 15

Δμόξπμε Γεδνκέλσλ: Σν θέληξν ηεο δηαδηθαζίαο αλαθάιπςεο γλώζεο ζε ΒΓ Αποηίμηζη και Αναπαπάζηαζη ΓΝΩΣΗ Δξόπςξη Γεδομένων Σσεηικά Γεδομένα Αποθήκη Γεδομένων Δπιλογή Καθαπιζμόρ Γεδομένων Ολοκλήπωζη Γεδομένων ΒΓ 16

Λεηηνπξγίεο Δμόξπμεο Γεδνκέλσλ Υσξίδνληαη ζε 2 βαζηθέο θαηεγνξίεο Πεξηγξαθηθέο: ραξαθηεξηζκόο ησλ βαζηθώλ ηδηνηήησλ ησλ δεδνκέλσλ ζηε βάζε. Πξνγλσζηηθέο: εθαξκνγή ζπκπεξαζκαηηζκνύ (inference) ζηα ππάξρνληα δεδνκέλα γηα ηελ παξαγσγή πξνβιέςεσλ. Βαζηθέο Λεηηνπξγίεο πνπ ζα αζρνιεζνύκε: Καηεγνξηνπνίεζε (classification) Οκαδνπνίεζε (clustering) Δύξεζε Καλόλσλ πζρέηηζεο (association rules) Γηαηί ρξεηαδόκαζηε πνιιέο δηαθνξεηηθέο ιεηηνπξγίεο; Οη ρξήζηεο ζπρλά δελ έρνπλ εθ ησλ πξνηέξσλ θαζαξή εηθόλα γηα ην πνηα πιεξνθνξία είλαη ελδηαθέξνπζα. Ή ελδηαθέξνληαη γηα δηαθνξεηηθά ηύπνπ πξόηππα κνηίβα (patterns) παξάιιεια. 17

10 Σύνολο 10 Παξάδεηγκα Καηεγνξηνπνίεζεο A/A Επιστρ ουή Ιδιόηηηες Οικογ. κατάσταση Class Εισό δημα Απάτη 1 Ναι Άγαμος 125K Όχι 2 Όχι Έγγαμος 100K Όχι 3 Όχι Άγαμος 70K Όχι Learn Model Επιστρ ΟικΚατ Εισοδ Απάτη Όχι Άγαμος 75K? (OXI) Ναι Έγγαμος 50K? (OXI) Όχι Έγγαμος 150K? (NAI) Ναι Διαζευγμ. 90K? (OXI) Σύνολο ελέγτοσ 4 Ναι Έγγαμος 120K Όχι 5 Όχι Διαζευγμ. 95K Ναι 6 Όχι Έγγαμος 60K Όχι 7 Ναι Διαζευγμ. 220K Όχι Ναι ΟΧΙ Επιζηρ Οχι ΟικΚαη Άγαμος Διαζευγ Έγγαμος 8 Όχι Άγαμος 85K Ναι 9 Όχι Έγγαμος 75K Όχι 10 Όχι Άγαμος 90K Ναι εκμάθηζης Ειζοδ < 80K >= 80K ΟΧΙ ΝΑΙ ΟΧΙ 18

Παξάδεηγκα Δθαξκνγήο Καηεγνξηνπνίεζεο (1) Marketing ηόρεπζε πειαηώλ Γεδνκέλα από πειάηεο 2 θαηεγνξίεο {buyer, non-buyer} Γεδνκέλα: δεκνγξαθηθά εξσηεκαηνιόγηα Γεκηνπξγία Μνληέινπ Σαμηλόκεζε πειαηώλ Targeting No targeting 19

Παξάδεηγκα Δθαξκνγήο Καηεγνξηνπνίεζεο(2) Αζηπονομία (Sky Survey Cataloging) Σαμηλόκεζε νπξαλίσλ ζσκάησλ (αζηέξαο ή γαιαμίαο ζε θάπνηα θάζε) Δμαγσγή Γεδνκέλσλ από Δηθόλα (π.ρ., ρξνηά ρξώκαηνο hue, ηζηνγξάκκαηα, θ.ν.θ.) επηηπρία: κε απηή ηε κέζνδν έρνπλ αλαθαιπθζεί πνιιά quasars! Πρώιμος Ενδιάμεζος Ύζηερος From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 20

Οκαδνπνίεζε Γελ ππάξρεη ην ραξαθηεξηζηηθό θιάζεο θαηεγνξίαο. Γηαρσξηζκόο ζε νκάδεο κε ηνλ θαιύηεξν ηξόπν. Διαρηζηνπνίεζε ησλ απνζηάζεσλ κέζα ζηελ νκάδα Μεγηζηνπνίεζε ησλ απνζηάζεσλ κεηαμύ ησλ νκάδσλ Οκαδνπνίεζε ζηνλ 3-Γ Δπθιίδεην ρώξν 21

Δθαξκνγή Οκαδνπνίεζεο (1) Καηάηκεζε Αγνξάο: Γηαρσξηζκόο πειαηώλ ζε νκάδεο κε δηαθνξεηηθή αληηκεηώπηζε Ποιότητα Γεδνκέλα: γεσγξαθηθά, δεκνγξαθηθά, θιπ. Αμηνιόγεζε θάζε νκάδαο κε ζύγθξηζε κε ηηο ππόινηπεο Τιμή 22

Δθαξκνγή Οκαδνπνίεζεο (2) Οικολογία: Δληνπηζκόο θσιηώλ πνπιηώλ Γεδνκέλα: ρσξηθά Κάζε νκάδα (ζπζηάδα) αμηνινγείηαη αλαθνξηθά κε ραξαθηεξηζηηθά όπσο απόζηαζε από λεξό, θ.ν.θ. 23

Καλόλεο ζπζρέηηζεο - Παξάδεηγκα Δίζνδνο: δεδνκέλα ζπλαιιαγώλ αγνξαζκέλα αληηθείκελα Δύξεζε θαλόλσλ πνπ εθθξάδνπλ ηηο ζπζρεηίζεηο κεηαμύ ηεο ύπαξμεο αληηθεηκέλσλ θαηά ηηο ζπλαιιαγέο A/A Αντικείμενα 1 Ψωμί, Αλεύρι, Γάλα 2 Μπύρα, Ψωμί 3 Μπύρα, Γάλα, Πάνες, Ψωμί 4 Μπύρα, Ψωμί, Πάνες, Γάλα 5 Αλεύρι, Πάνες, Γάλα Κανόνερ: {Αλεύπι} --> {Γάλα} p(γάλα Αλεύπι)=1 {Γάλα} --> {Αλεύπι} p(αλεύπι Γάλα)=0.5 {Μπύπα, Ψωμί} --> {Πάνερ} p(πάνερ Μπύπα, Ψωμί)=0.66 24

Άιιε εθαξκνγή θαλόλσλ ζπζρέηηζεο Βιολογία: δεδνκέλα κηθξνζπζηνηρηώλ Αιιεινπρίεο πεηξακάησλ κε πνιιαπιά γνλίδηα θάζε θνξά. Μεηξήζεηο:< 0 ή > 0 ζε ζρέζε κε 2 βαζηθέο κνξθέο ιεπραηκίαο (ALL, AML) Γνλίδηα πνπ εκθαλίδνληαη ηαπηόρξνλα => αιιειεπίδξαζε {disease} => { gene A gene B gene C } 25

Δπηπιένλ Λεηηνπξγίεο Δμόξπμεο Γεδνκέλσλ Αλάιπζε αθξαίσλ δεδνκέλσλ (Outlier analysis) Αθξαία δεδνκέλα - Outliers: δεδνκέλα πνπ δελ αθνινπζνύλ ηε γεληθή θαηαλνκή θαη δελ ζπκθσλνύλ κε ηε γεληθή ζπκπεξηθνξά ησλ ππνινίπσλ δεδνκέλσλ. Μπνξνύλ λα ζεσξεζνύλ σο ζόξπβνο ή εμαηξέζεηο. ΑΛΛΑ είλαη πνιύ ρξήζηκα ζηνλ εληνπηζκό απαηώλ θαη ζηελ αλάιπζε ζπαλίσλ θαηλνκέλσλ. Αλάιπζε ηάζεσλ θαη εμέιημεο Σάζεηο θαη απνθιίζεηο: αλάιπζε παιηλδξόκεζεο (regression) Αλάιπζε βάζεη νκνηόηεηαο Αλάιπζε πεξηνδηθόηεηαο, Δμόξπμε Αθνινπζηαθώλ Πξνηύπσλ Άιιεο ιεηηνπξγίεο πνπ βαζίδνληαη ζε πξόηππα ή ζηαηηζηηθέο αλαιύζεηο 26

ε ηη δεδνκέλα εθαξκόδεηαη ε εμόξπμε δεδνκέλσλ ρεζηαθέο ΒΓ - ΒΓ ζπλαιιαγώλ Απνζήθεο δεδνκέλσλ Πξνεγκέλεο ΒΓ Αληηθεηκελνζηξαθείο αληηθεηκελνζρεζηαθέο ΒΓ Υσξηθέο ΒΓ Υξνλνζεηξέο θαη ρξνληθά δεδνκέλα Πνιπκεζηθέο ΒΓ θαη ΒΓ θεηκέλνπ Δηεξνγελείο θαη θιεξνλνκεκέλεο ΒΓ Παγθόζκηνο Ιζηόο 27

από ζρεζηαθά ΓΒΓ Σα ζρεζηαθά ΓΒΓ παξέρνπλ ηε δπλαηόηεηα γηα SQL εξσηήκαηα Δπηινγή ραξαθηεξηζηηθώλ, θαζνξηζκόο πεξηνξηζκώλ, θιπ. Γπλαηά εξσηήκαηα: Πνηα αληηθείκελα πσιήζεθαλ ηνλ ηειεπηαίν κήλα; 1 βήκα πην καθξπά: εθαξκνγή ζπλαζξνηζηηθώλ ζπλαξηήζεσλ max, avg, θιπ. (π.ρ., ζπλνιηθέο πσιήζεηο ηνπ έηνπο αλά θαηάζηεκα) Η 1 ε πεξίπησζε είλαη απιή αλάθηεζε δεδνκέλσλ ελώ ε 2 ε είλαη δηεξεπλεηηθή εξώηεζε. Η εμόξπμε δεδνκέλσλ ζε ζρεζηαθά ΓΒΓ πξνρσξά αθόκε πεξηζζόηεξν θαη εληνπίδεη ηάζεηο, πξόηππα, θιπ. Αλάιπζε δεδνκέλσλ πειαηώλ γηα πξόβιεςε πνηνη δελ κπνξνύλ λα αληαπνθξηζνύλ ζηηο νηθνλ. ππνρξεώζεηο Δληνπηζκόο ηζρπξώλ απνθιίζεσλ ζηα δεδνκέλα από ηνλ έλα κήλα ζηνλ άιιν 28

από Απνζήθεο Γεδνκέλσλ Έζησ όηη ζε κία επηρείξεζε ζέινπκε αλάιπζε νηλνκηθώλ κεγεζώλ αλά θνκκάηη ππνθαηάζηεκα -κήλα Γύζθνιν εγρείξεκα Κάζε ππνθαηάζηεκα έρεη ηε δηθή ηνπ ΒΓ πηζαλώο θαη κε δηαθνξεηηθό ζρήκα Η ΑΓ μεπεξλά απηά ηα πξνβιήκαηα Η εμόξπμε ρξεζηκνπνηείηαη ζπκπιεξσκαηηθά κε ηηο ηερληθέο OLAP OLAP: εξγαιεία γηα ζπλνπηηθή πιεξνθνξία (summarization), roll-up, drilldown Η εμόξπμε πξαγκαηνπνηεί πην απηνκαηνπνηεκέλεο αλαιύζεηο Αιιά θαη νη 2 είλαη ρξήζηκεο 29

από ΒΓ ζπλαιιαγώλ Κάζε εγγαθή αληηζηνηρεί ζε κία ζπλαιιαγή TID: CID: item1, item2, όρη 1NF Σππηθά εξσηήκαηα: «Βξεο ηη αγόξαζε ν Υ» «ε πόζεο ζπλαιιαγέο αγνξάζηεθε ην πξντόλ Τ» Απιή αλάθηεζε Με ηελ εμόξπμε δεδνκέλσλ κπνξνύκε λα βξνύκε Πνηα πξντόληα πσινύληαη καδί 30

από πξνεγκέλα ΓΒΓ Object oriented/object relational ΒΓ: Η εμόξπμε παξέρεη εξγαιεία γηα ηελ αλάιπζε πεξίπινθσλ δνκώλ θαη ηεξαξρηώλ Υσξηθέο ΒΓ: Πξόηππα γηα ραξαθηεξηζηηθά ζπηηηώλ θνληά ζε ζπγθεθξηκέλεο πεξηνρέο Δηζνδήκαηα σο ζπλάξηεζε ηεο απόζηαζεο ηεο θαηνηθίαο από ΔΟΓ Υξνλνζεηξέο: Πξόηππα εμέιημεο θαη αιιαγή ηάζεσλ 31

από πξνεγκέλα ΓΒΓ Πνιπκεζηθέο ΒΓ θαη ΒΓ θεηκέλνπ: πζρεηηζκόο ησλ ιέμεσλ θιεηδηώλ, νκαδνπνίεζε θεηκέλνπ (ζπλδπαζκόο κε IR) Δμαγσγή ζηνηρείσλ από πνιπκεζηθά δεδνκέλα, ζπλδπαζκνί βάζεη νκνηόηεηαο Δηεξνγελείο θαη θιεξνλνκεκέλεο ΒΓ: Σα θιεξνλνκεκέλα ζπζηήκαηα έρνπλ εηεξνγελή δεδνκέλα ζε πνιιέο ΒΓ. Οη ηερληθέο απνζήθεπζεο θαη εμόξπμεο παξέρνπλ ιύζεηο ζηελ αληαιιαγή πιεξνθνξίαο παξάγνληαο πςειόηεξνπ επηπέδνπ, πην γεληθεπκέλε πιεξνθνξία 32

από ηνλ Παγθόζκην Ιζηό WWW: Πξνζέιθπζε πνιύ ελδηαθέξνλ => Ξερσξηζηό πεδίν: Web Mining Δμόξπμε πεξηερνκέλνπ (ζπλαθέο κε ηελ εμόξπμε από θείκελν) Δμόξπμε ζπλδέζεσλ (εληνπηζκόο δνκώλ) Δμόξπμε ρξήζεο (εύξεζε πξνηύπσλ επηζθέςεσλ) 33

Μία πξόζθαηε δεκνζθόπεζε ηνπ 2015 Από ην http://www.kdnuggets.com/ 34

ύγθξηζε κε πξνεγνύκελα έηε 35

Αθόκε κία δεκνζθόπεζε 36

Καη κία ηειεπηαία 37

Πεξίιεςε H εμόξπμε δεδνκέλσλ είλαη ε εμαγσγή ελδηαθέξνπζαο (κε-ηεηξηκκέλεο, ππνθξππηόκελεο, άγλσζηεο πξνεγνπκέλσο θαη ελδερνκέλσο ρξήζηκεο), πιεξνθνξίαο ή πξνηύπσλ από δεδνκέλα ζε κεγάιεο ΒΓ. Οη απνζήθεο δεδνκέλσλ είλαη εμεηδηθεπκέλεο ΒΓ πνπ κπνξνύλ λα απνζεθεύνπλ δεδνκέλα από πνιιαπιέο, εηεξνγελείο βάζεηο, νξγαλσκέλεο κε θνηλό ζρήκα θαη δηεπθνιύλνπλ ηε ιήςε απνθάζεσλ. Η απνζήθεπζε θαη ε εμόξπμε είλαη ζπκπιεξσκαηηθέο. Δίλαη θαη νη δύν κέξνο ηεο δηαδηθαζίαο αλαθάιπςεο γλώζεο κέζα από ΒΓ. 38

από ην HBR άξζξν 39

Ση είλαη ηειηθά Big Data;; Μεγέζε: Μηθξνζθνπηθά/Tiny 0s Μηθξά/Small 1000s (ρσξάλε ζηελ θύξηα κλήκε) Μεζαία/Medium 1000000 (ελδερνκέλσο δελ ρσξάλε ζηελ ΚΜ) Μεγάια/Large 1000000000 Σεξάζηηα/Huge 1000000000000 ++ Από ην άξζξν ηνπ G.Graefe New algorithms for join and grouping operations, 2011. 40