Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ: Δηζαγσγή http://delab.csd.auth.gr/~gounaris/courses/dwdm/
Δπραξηζηίεο Οη δηαθάλεηεο ηνπ καζήκαηνο ζε γεληθέο γξακκέο αθνινπζνύλ ην ζύγγξακκα «Δηζαγσγή ζηελ Δμόξπμε θαη ηηο Απνζήθεο Γεδνκέλσλ» Xξεζηκνπνηήζεθε επηπιένλ πιηθό από ηα βηβιία «Introduction to Data Mining» ησλ Tan, Steinbach, Kumar, θαη «Data Mining: Concepts and Techniques» ησλ Jiawei Han, Micheline Kamber. 2
Ση ζα δνύκε ζήκεξα Κίλεηξν Οξηζκνί Ιζηνξηθά ηνηρεία Λεηηνπξγίεο Πεγέο Γεδνκέλσλ 3
Έλα πξόζθαην απόθνκκα Από ην ηεύρνο Οθησβξίνπ 2012 ηνπ Harvard Business Review 4
ζπλέρεηα 5
Κίλεηξν: «Η αλάγθε είλαη ε κεηέξα ηεο εθεύξεζεο» Το ππόβλημα ηηρ εκπηκηικήρ αύξηζηρ ηων δεδομένων Ύπαξμε εξγαιείσλ γηα ηελ απηόκαηε ζπιινγή πιεξνθνξηώλ σξίκαλζε ησλ ηερλνινγηώλ Βάζεσλ Γεδνκέλσλ Απνηέιεζκα: ηεξάζηηεο πνζόηεηεο δεδνκέλσλ είλαη απνζεθεπκέλα ζε βάζεηο δεδνκέλσλ, απνζήθεο δεδνκέλσλ θαη άιια κέζα απνζήθεπζεο πιεξνθνξίαο. Πνιγόμαζηε από δεδομένα... Αλλά πεινάμε για γνώζη! Σν κέγεζνο ηεο πιεξνθνξίαο μεπεξλά ηηο δπλαηόηεηεο ηεο αλζξώπηλεο θαηαλόεζεο θαη αληίιεςεο. 6
Κίλεηξν (1): Τπνζηήξημε Απνθάζεσλ Απηόκαηε ζπιινγή πνιύ κεγάισλ ζπλόισλ δεδνκέλσλ Πσιήζεηο (bar-code scanners) Παγθόζκηνο Ιζηόο (ε-εκπόξην) Σξάπεδεο σζηέο Απνθάζεηο Αλάγθεο Υξήζηε Καιύηεξεο Τπεξεζίεο Πξνζαξκνγή ζηηο αλάγθεο(crm) Η γλώζε θαη ε ρξήζηκε πιεξνθνξία είλαη κπςμμένη κέζα ζηα δεδνκέλα. 7
Κίλεηξν (2):Δπηζηήκεο Δπηζηεκνληθά δεδνκέλα ζπιιέγνληαη κε ππεξβνιηθά πςεινύο ξπζκνύο (GB-ΣΒ/hour) Γεδνκέλα δνξπθόξσλ (NASA, ESA) Σειεζθόπηα Βηνινγηθά Γεδνκέλσλ (γσλίδηα - κηθξνζπζηνηρίεο) LHC Δπηζηεκνληθέο Πξνζνκνηώζεηο Οη παξαδνζηαθέο ηερληθέο δελ είλαη απνδνηηθέο Η εμόξπμε δεδνκέλσλ βνεζά ζηελ απάληεζε πην ζεκειησδώλ εξσηεκάησλ, π.ρ..: «πνηα είλαη ε ζρέζε κεηαμύ αθξαίσλ θαηξηθώλ θαηλνκέλσλ (θπθιώλσλ) θαη ππεξζέξκαλζεο ηνπ πιαλήηε;» «πνηα γνλίδηα ζπζρεηίδνληαη κε θάπνηα αξξώζηηα;» 8
Η αλάπηπμε ησλ ηερλνινγηώλ ΒΓ 1960s: πιινγή δεδνκέλσλ, δεκηνπξγία βάζεσλ, ηεξαξρηθό δηθηπαθό κνληέιν δεδνκέλσλ. 1970s: ρεζηαθό κνληέιν, πινπνηήζεηο ζρεζηαθώλ ΓΒΓ. 1980s: ρεζηαθά ΓΒΓ, πξνεγκέλα κνληέια (extended-relational, OO, deductive, etc.) θαη ΓΒΓ γηα ζπγθεθξηκέλεο εθαξκνγέο (π.ρ., ρσξηθέο, ρσξνρξνληθέο, επηζηεκνληθέο ΒΓ, θ.ν.θ.) 1990s ζήκεξα: Δξόπςξη Γεδομένων (data mining) και Αποθήκερ Γεδομένων (Data Warehouses), Πνιπκεζηθέο ΒΓ, ΒΓ θαη Παγθόζκηνο Ιζηόο 9
Σί είλαη εμόξπμε δεδνκέλσλ; Δμόξπμε Γεδνκέλσλ: Μέξνο ηεο δηαδηθαζίαο αλαθάιπςεο γλώζεο ζε ΒΓ. Δμαγσγή ελδηαθέξνπζαο (κε-ηεηξηκκέλεο, ππνθξππηόκελεο, άγλσζηεο πξνεγνπκέλσο θαη ελδερνκέλσο ρξήζηκεο), πιεξνθνξίαο ή πξνηύπσλ από δεδνκέλα ζε κεγάιεο ΒΓ. Δλαιιαθηηθέο νλνκαζίεο (νη πεξηζζόηεξεο είλαη άζηνρεο): Αλαθάιπςε γλώζεο ζε ΒΓ (Knowledge discovery in databases - KDD) --επξύηεξε πεξηνρή business intelligence... 10
Σί ΓΔΝ είλαη εμόξπμε δεδνκέλσλ; Πνιιά από ηα απηναπνθαινύκελα ζπζηήκαηα εμόξπμεο δεδνκέλσλ ηεο αγνξάο Σερληθέο (ζπκπεξαζκαηηθή - deductive) επεμεξγαζία εξσηεκάησλ Έκπεηξα ζπζηήκαηα Μηθξά πξνγξάκκαηα κεραληθήο-ζηαηηζηηθήο κάζεζεο ML/statistical programs πκπεξαζκαηηθή απάληεζε εξσηήζεσλ Έλα πξαγκαηηθό ζύζηεκα Δμόξπμεο Γεδνκέλσλ πξέπεη λα είλαη ζε ζέζε λα δηαρεηξίδεηαη ηεξάζηην όγθν δεδνκέλσλ Δκθαζε ζε απνδνηηθόηεηα θαη θιηκάθσζε - επεθηαζηκόηεηα Running time = O(db size) 11
πκβνιή πνιιώλ πεξηνρώλ Βάζεηο Γεδνκέλσλ ηαηηζηηθή Μεραληθή Μάζεζε Δμόξπμε Γεδνκέλσλ Απεηθόληζε Δπηζηήκε ηεο Πιεξνθόξηαο Άιιεο πεξηνρέο 12
Απνζήθεο Γεδνκέλσλ 13
Απνζήθεο Γεδνκέλσλ - OLAP Οη απνζήθεο δεδνκέλσλ είλαη εμεηδηθεπκέλεο ΒΓ πνπ κπνξνύλ λα απνζεθεύνπλ δεδνκέλα από πνιιαπιέο, εηεξνγελείο βάζεηο, νξγαλσκέλεο κε θνηλό ζρήκα θαη δηεπθνιύλνπλ ηε ιήςε απνθάζεσλ. OLAP (On-Line Analytical Processing) είλαη κία ηερληθή αλάιπζεο πνπ εθηειείηαη ζηηο ΑΓ. Δίλαη δηεξεπλεηηθήο θύζεο. Πνιύ ρξήζηκε, αιιά πεξηζζόηεξν θαηάιιειε γηα επαιήζεπζε ππνζέζεσλ. ΤΜΠΛΗΡΩΜΑΣΙΚΗ δηαδηθαζία ηεο εμόξπμεο. Αληίζεηα, ε εμόξπμε δεδνκέλσλ δνπιεύεη κε έλα εκη-απηόκαην ηξόπν Καη ζηνρεύεη ζηελ εύξεζε «θξπθήο» γλώζεο Οη απνζήθεο δεδνκέλσλ απνηεινύλ έλα θαηάιιειν πιαίζην γηα ηελ εθαξκνγή ηερληθώλ εμόξπμεο Δθηεινύλ ηε ζπιινγή, νινθιήξσζε, θαζαξηζκό θαη κεηαζρεκαηηζκό ησλ δεδνκέλσλ 14
Δμόξπμε Γεδνκέλσλ θαη Business Intelligence Πεπιζζόηεπερ δςναηόηηηερ για ςποζηήπιξη αποθάζεων Making Decisions Τελικόρ Χπήζηηρ Data Presentation Visualization Techniques Data Mining Information Discovery Αναλςηήρ Δπισειπήζεων Αναλςηήρ Γεδομένων Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP Γιασειπιζηήρ 15
Δμόξπμε Γεδνκέλσλ: Σν θέληξν ηεο δηαδηθαζίαο αλαθάιπςεο γλώζεο ζε ΒΓ Αποηίμηζη και Αναπαπάζηαζη ΓΝΩΣΗ Δξόπςξη Γεδομένων Σσεηικά Γεδομένα Αποθήκη Γεδομένων Δπιλογή Καθαπιζμόρ Γεδομένων Ολοκλήπωζη Γεδομένων ΒΓ 16
Λεηηνπξγίεο Δμόξπμεο Γεδνκέλσλ Υσξίδνληαη ζε 2 βαζηθέο θαηεγνξίεο Πεξηγξαθηθέο: ραξαθηεξηζκόο ησλ βαζηθώλ ηδηνηήησλ ησλ δεδνκέλσλ ζηε βάζε. Πξνγλσζηηθέο: εθαξκνγή ζπκπεξαζκαηηζκνύ (inference) ζηα ππάξρνληα δεδνκέλα γηα ηελ παξαγσγή πξνβιέςεσλ. Βαζηθέο Λεηηνπξγίεο πνπ ζα αζρνιεζνύκε: Καηεγνξηνπνίεζε (classification) Οκαδνπνίεζε (clustering) Δύξεζε Καλόλσλ πζρέηηζεο (association rules) Γηαηί ρξεηαδόκαζηε πνιιέο δηαθνξεηηθέο ιεηηνπξγίεο; Οη ρξήζηεο ζπρλά δελ έρνπλ εθ ησλ πξνηέξσλ θαζαξή εηθόλα γηα ην πνηα πιεξνθνξία είλαη ελδηαθέξνπζα. Ή ελδηαθέξνληαη γηα δηαθνξεηηθά ηύπνπ πξόηππα κνηίβα (patterns) παξάιιεια. 17
10 Σύνολο 10 Παξάδεηγκα Καηεγνξηνπνίεζεο A/A Επιστρ ουή Ιδιόηηηες Οικογ. κατάσταση Class Εισό δημα Απάτη 1 Ναι Άγαμος 125K Όχι 2 Όχι Έγγαμος 100K Όχι 3 Όχι Άγαμος 70K Όχι Learn Model Επιστρ ΟικΚατ Εισοδ Απάτη Όχι Άγαμος 75K? (OXI) Ναι Έγγαμος 50K? (OXI) Όχι Έγγαμος 150K? (NAI) Ναι Διαζευγμ. 90K? (OXI) Σύνολο ελέγτοσ 4 Ναι Έγγαμος 120K Όχι 5 Όχι Διαζευγμ. 95K Ναι 6 Όχι Έγγαμος 60K Όχι 7 Ναι Διαζευγμ. 220K Όχι Ναι ΟΧΙ Επιζηρ Οχι ΟικΚαη Άγαμος Διαζευγ Έγγαμος 8 Όχι Άγαμος 85K Ναι 9 Όχι Έγγαμος 75K Όχι 10 Όχι Άγαμος 90K Ναι εκμάθηζης Ειζοδ < 80K >= 80K ΟΧΙ ΝΑΙ ΟΧΙ 18
Παξάδεηγκα Δθαξκνγήο Καηεγνξηνπνίεζεο (1) Marketing ηόρεπζε πειαηώλ Γεδνκέλα από πειάηεο 2 θαηεγνξίεο {buyer, non-buyer} Γεδνκέλα: δεκνγξαθηθά εξσηεκαηνιόγηα Γεκηνπξγία Μνληέινπ Σαμηλόκεζε πειαηώλ Targeting No targeting 19
Παξάδεηγκα Δθαξκνγήο Καηεγνξηνπνίεζεο(2) Αζηπονομία (Sky Survey Cataloging) Σαμηλόκεζε νπξαλίσλ ζσκάησλ (αζηέξαο ή γαιαμίαο ζε θάπνηα θάζε) Δμαγσγή Γεδνκέλσλ από Δηθόλα (π.ρ., ρξνηά ρξώκαηνο hue, ηζηνγξάκκαηα, θ.ν.θ.) επηηπρία: κε απηή ηε κέζνδν έρνπλ αλαθαιπθζεί πνιιά quasars! Πρώιμος Ενδιάμεζος Ύζηερος From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 20
Οκαδνπνίεζε Γελ ππάξρεη ην ραξαθηεξηζηηθό θιάζεο θαηεγνξίαο. Γηαρσξηζκόο ζε νκάδεο κε ηνλ θαιύηεξν ηξόπν. Διαρηζηνπνίεζε ησλ απνζηάζεσλ κέζα ζηελ νκάδα Μεγηζηνπνίεζε ησλ απνζηάζεσλ κεηαμύ ησλ νκάδσλ Οκαδνπνίεζε ζηνλ 3-Γ Δπθιίδεην ρώξν 21
Δθαξκνγή Οκαδνπνίεζεο (1) Καηάηκεζε Αγνξάο: Γηαρσξηζκόο πειαηώλ ζε νκάδεο κε δηαθνξεηηθή αληηκεηώπηζε Ποιότητα Γεδνκέλα: γεσγξαθηθά, δεκνγξαθηθά, θιπ. Αμηνιόγεζε θάζε νκάδαο κε ζύγθξηζε κε ηηο ππόινηπεο Τιμή 22
Δθαξκνγή Οκαδνπνίεζεο (2) Οικολογία: Δληνπηζκόο θσιηώλ πνπιηώλ Γεδνκέλα: ρσξηθά Κάζε νκάδα (ζπζηάδα) αμηνινγείηαη αλαθνξηθά κε ραξαθηεξηζηηθά όπσο απόζηαζε από λεξό, θ.ν.θ. 23
Καλόλεο ζπζρέηηζεο - Παξάδεηγκα Δίζνδνο: δεδνκέλα ζπλαιιαγώλ αγνξαζκέλα αληηθείκελα Δύξεζε θαλόλσλ πνπ εθθξάδνπλ ηηο ζπζρεηίζεηο κεηαμύ ηεο ύπαξμεο αληηθεηκέλσλ θαηά ηηο ζπλαιιαγέο A/A Αντικείμενα 1 Ψωμί, Αλεύρι, Γάλα 2 Μπύρα, Ψωμί 3 Μπύρα, Γάλα, Πάνες, Ψωμί 4 Μπύρα, Ψωμί, Πάνες, Γάλα 5 Αλεύρι, Πάνες, Γάλα Κανόνερ: {Αλεύπι} --> {Γάλα} p(γάλα Αλεύπι)=1 {Γάλα} --> {Αλεύπι} p(αλεύπι Γάλα)=0.5 {Μπύπα, Ψωμί} --> {Πάνερ} p(πάνερ Μπύπα, Ψωμί)=0.66 24
Άιιε εθαξκνγή θαλόλσλ ζπζρέηηζεο Βιολογία: δεδνκέλα κηθξνζπζηνηρηώλ Αιιεινπρίεο πεηξακάησλ κε πνιιαπιά γνλίδηα θάζε θνξά. Μεηξήζεηο:< 0 ή > 0 ζε ζρέζε κε 2 βαζηθέο κνξθέο ιεπραηκίαο (ALL, AML) Γνλίδηα πνπ εκθαλίδνληαη ηαπηόρξνλα => αιιειεπίδξαζε {disease} => { gene A gene B gene C } 25
Δπηπιένλ Λεηηνπξγίεο Δμόξπμεο Γεδνκέλσλ Αλάιπζε αθξαίσλ δεδνκέλσλ (Outlier analysis) Αθξαία δεδνκέλα - Outliers: δεδνκέλα πνπ δελ αθνινπζνύλ ηε γεληθή θαηαλνκή θαη δελ ζπκθσλνύλ κε ηε γεληθή ζπκπεξηθνξά ησλ ππνινίπσλ δεδνκέλσλ. Μπνξνύλ λα ζεσξεζνύλ σο ζόξπβνο ή εμαηξέζεηο. ΑΛΛΑ είλαη πνιύ ρξήζηκα ζηνλ εληνπηζκό απαηώλ θαη ζηελ αλάιπζε ζπαλίσλ θαηλνκέλσλ. Αλάιπζε ηάζεσλ θαη εμέιημεο Σάζεηο θαη απνθιίζεηο: αλάιπζε παιηλδξόκεζεο (regression) Αλάιπζε βάζεη νκνηόηεηαο Αλάιπζε πεξηνδηθόηεηαο, Δμόξπμε Αθνινπζηαθώλ Πξνηύπσλ Άιιεο ιεηηνπξγίεο πνπ βαζίδνληαη ζε πξόηππα ή ζηαηηζηηθέο αλαιύζεηο 26
ε ηη δεδνκέλα εθαξκόδεηαη ε εμόξπμε δεδνκέλσλ ρεζηαθέο ΒΓ - ΒΓ ζπλαιιαγώλ Απνζήθεο δεδνκέλσλ Πξνεγκέλεο ΒΓ Αληηθεηκελνζηξαθείο αληηθεηκελνζρεζηαθέο ΒΓ Υσξηθέο ΒΓ Υξνλνζεηξέο θαη ρξνληθά δεδνκέλα Πνιπκεζηθέο ΒΓ θαη ΒΓ θεηκέλνπ Δηεξνγελείο θαη θιεξνλνκεκέλεο ΒΓ Παγθόζκηνο Ιζηόο 27
από ζρεζηαθά ΓΒΓ Σα ζρεζηαθά ΓΒΓ παξέρνπλ ηε δπλαηόηεηα γηα SQL εξσηήκαηα Δπηινγή ραξαθηεξηζηηθώλ, θαζνξηζκόο πεξηνξηζκώλ, θιπ. Γπλαηά εξσηήκαηα: Πνηα αληηθείκελα πσιήζεθαλ ηνλ ηειεπηαίν κήλα; 1 βήκα πην καθξπά: εθαξκνγή ζπλαζξνηζηηθώλ ζπλαξηήζεσλ max, avg, θιπ. (π.ρ., ζπλνιηθέο πσιήζεηο ηνπ έηνπο αλά θαηάζηεκα) Η 1 ε πεξίπησζε είλαη απιή αλάθηεζε δεδνκέλσλ ελώ ε 2 ε είλαη δηεξεπλεηηθή εξώηεζε. Η εμόξπμε δεδνκέλσλ ζε ζρεζηαθά ΓΒΓ πξνρσξά αθόκε πεξηζζόηεξν θαη εληνπίδεη ηάζεηο, πξόηππα, θιπ. Αλάιπζε δεδνκέλσλ πειαηώλ γηα πξόβιεςε πνηνη δελ κπνξνύλ λα αληαπνθξηζνύλ ζηηο νηθνλ. ππνρξεώζεηο Δληνπηζκόο ηζρπξώλ απνθιίζεσλ ζηα δεδνκέλα από ηνλ έλα κήλα ζηνλ άιιν 28
από Απνζήθεο Γεδνκέλσλ Έζησ όηη ζε κία επηρείξεζε ζέινπκε αλάιπζε νηλνκηθώλ κεγεζώλ αλά θνκκάηη ππνθαηάζηεκα -κήλα Γύζθνιν εγρείξεκα Κάζε ππνθαηάζηεκα έρεη ηε δηθή ηνπ ΒΓ πηζαλώο θαη κε δηαθνξεηηθό ζρήκα Η ΑΓ μεπεξλά απηά ηα πξνβιήκαηα Η εμόξπμε ρξεζηκνπνηείηαη ζπκπιεξσκαηηθά κε ηηο ηερληθέο OLAP OLAP: εξγαιεία γηα ζπλνπηηθή πιεξνθνξία (summarization), roll-up, drilldown Η εμόξπμε πξαγκαηνπνηεί πην απηνκαηνπνηεκέλεο αλαιύζεηο Αιιά θαη νη 2 είλαη ρξήζηκεο 29
από ΒΓ ζπλαιιαγώλ Κάζε εγγαθή αληηζηνηρεί ζε κία ζπλαιιαγή TID: CID: item1, item2, όρη 1NF Σππηθά εξσηήκαηα: «Βξεο ηη αγόξαζε ν Υ» «ε πόζεο ζπλαιιαγέο αγνξάζηεθε ην πξντόλ Τ» Απιή αλάθηεζε Με ηελ εμόξπμε δεδνκέλσλ κπνξνύκε λα βξνύκε Πνηα πξντόληα πσινύληαη καδί 30
από πξνεγκέλα ΓΒΓ Object oriented/object relational ΒΓ: Η εμόξπμε παξέρεη εξγαιεία γηα ηελ αλάιπζε πεξίπινθσλ δνκώλ θαη ηεξαξρηώλ Υσξηθέο ΒΓ: Πξόηππα γηα ραξαθηεξηζηηθά ζπηηηώλ θνληά ζε ζπγθεθξηκέλεο πεξηνρέο Δηζνδήκαηα σο ζπλάξηεζε ηεο απόζηαζεο ηεο θαηνηθίαο από ΔΟΓ Υξνλνζεηξέο: Πξόηππα εμέιημεο θαη αιιαγή ηάζεσλ 31
από πξνεγκέλα ΓΒΓ Πνιπκεζηθέο ΒΓ θαη ΒΓ θεηκέλνπ: πζρεηηζκόο ησλ ιέμεσλ θιεηδηώλ, νκαδνπνίεζε θεηκέλνπ (ζπλδπαζκόο κε IR) Δμαγσγή ζηνηρείσλ από πνιπκεζηθά δεδνκέλα, ζπλδπαζκνί βάζεη νκνηόηεηαο Δηεξνγελείο θαη θιεξνλνκεκέλεο ΒΓ: Σα θιεξνλνκεκέλα ζπζηήκαηα έρνπλ εηεξνγελή δεδνκέλα ζε πνιιέο ΒΓ. Οη ηερληθέο απνζήθεπζεο θαη εμόξπμεο παξέρνπλ ιύζεηο ζηελ αληαιιαγή πιεξνθνξίαο παξάγνληαο πςειόηεξνπ επηπέδνπ, πην γεληθεπκέλε πιεξνθνξία 32
από ηνλ Παγθόζκην Ιζηό WWW: Πξνζέιθπζε πνιύ ελδηαθέξνλ => Ξερσξηζηό πεδίν: Web Mining Δμόξπμε πεξηερνκέλνπ (ζπλαθέο κε ηελ εμόξπμε από θείκελν) Δμόξπμε ζπλδέζεσλ (εληνπηζκόο δνκώλ) Δμόξπμε ρξήζεο (εύξεζε πξνηύπσλ επηζθέςεσλ) 33
Μία πξόζθαηε δεκνζθόπεζε ηνπ 2015 Από ην http://www.kdnuggets.com/ 34
ύγθξηζε κε πξνεγνύκελα έηε 35
Αθόκε κία δεκνζθόπεζε 36
Καη κία ηειεπηαία 37
Πεξίιεςε H εμόξπμε δεδνκέλσλ είλαη ε εμαγσγή ελδηαθέξνπζαο (κε-ηεηξηκκέλεο, ππνθξππηόκελεο, άγλσζηεο πξνεγνπκέλσο θαη ελδερνκέλσο ρξήζηκεο), πιεξνθνξίαο ή πξνηύπσλ από δεδνκέλα ζε κεγάιεο ΒΓ. Οη απνζήθεο δεδνκέλσλ είλαη εμεηδηθεπκέλεο ΒΓ πνπ κπνξνύλ λα απνζεθεύνπλ δεδνκέλα από πνιιαπιέο, εηεξνγελείο βάζεηο, νξγαλσκέλεο κε θνηλό ζρήκα θαη δηεπθνιύλνπλ ηε ιήςε απνθάζεσλ. Η απνζήθεπζε θαη ε εμόξπμε είλαη ζπκπιεξσκαηηθέο. Δίλαη θαη νη δύν κέξνο ηεο δηαδηθαζίαο αλαθάιπςεο γλώζεο κέζα από ΒΓ. 38
από ην HBR άξζξν 39
Ση είλαη ηειηθά Big Data;; Μεγέζε: Μηθξνζθνπηθά/Tiny 0s Μηθξά/Small 1000s (ρσξάλε ζηελ θύξηα κλήκε) Μεζαία/Medium 1000000 (ελδερνκέλσο δελ ρσξάλε ζηελ ΚΜ) Μεγάια/Large 1000000000 Σεξάζηηα/Huge 1000000000000 ++ Από ην άξζξν ηνπ G.Graefe New algorithms for join and grouping operations, 2011. 40