Διαχείριση και ανάλυση δεδοµένων µεγάλου όγκου: προκλήσεις, µέθοδοι και τεχνικές

Σχετικά έγγραφα
Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Προεπεξεργασία εδοµένων

Ευφυή Συστήματα και Εξόρυξη Δεδομένων. Προεπεξεργασία Δεδομένων

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εξόρυξη Δεδομένων Data Mining

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ευφυής Προγραμματισμός

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Διδάσκοντες: Μαρία Χαλκίδη

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Τεχνικές Εξόρυξης Δεδομένων

Διακριτικές Συναρτήσεις

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Ζητήματα ηήμ με τα δεδομένα

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Business Development, SAP Hellas 01/12/2007

E- Marketing: Το Marketing στη νέα ψηφιακή εποχή. Δημήτρης Καραβασίλης Παναγιώτης Μίλης Θεσσαλονίκη, Ιούνιος 2018

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

Αναλυτικές λειτουργίες ΣΓΠ

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Εισαγωγή στην Επιστήµη Δεδοµένων

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Ηλεκτρονικό Εμπόριο. Ενότητα 1: Εισαγωγικές Έννοιες. Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Στοχαστικά Σήματα και Τηλεπικοινωνιές

Οργάνωση Γεωγραφικών. πληροφοριών

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Η επιστήμη της αστυνομίας σε ψηφιακά περιβάλλοντα. Η περίπτωση του SMF/QlikView

Γραφική κωδικοποίηση Γενίκευση

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΤΙ ΕIΝΑΙ ΠΡΟΒΛΕΨΕΙΣ; Διαδικασία εκτίμησης μελλοντικών καταστάσεων βασιζόμενη συνήθως σε ιστορικά στοιχεία

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Τεχνολογία Λογισµικού Ι Κεφάλαιο 3 Μια αναλυτικότερη προσέγγιση στην δραστηριότητα 3.10

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Προεπεξεργασία Δεδομένων

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Τεχνολογία και Κοινωνία

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Διδάσκουσα: Χάλκου Χαρά,

Ονομάζομαι Βασιλάκος Γιάννης και είμαι Αντιπρόεδρος και Διευθύνων. Σύμβουλος της Κωτσόβολος, εταιρίας του Ομίλου Dixons Carphone με

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Χρήση ψηφιακής τεχνολογίας και βιώσιμα οικονομικά μοντέλα

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

CRM. Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης. Customer Relationship Management

Προτεινόμενες Διπλωματικές Εργασίες 2009

Εµβάθυνση στις έννοιες: Ανάλυση, β) Εξαγωγή Αναφορών (Enterprise Reporting & Online Analytical Processing / OLAP). Παραδείγµατα.

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

DATA QUALITY & ANALYTICS DRIVING BUSINESS GROWTH AT YDROGIOS. Θάνος Αγγελόπουλος

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Μεθοδολογίες Αξιοποίησης Δεδομένων

Η εξέλιξη της «εξυπηρέτησης πελατών» και οι νέες προκλήσεις..

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Μάθημα 3. Θεμέλια Επιχειρηματικής Ευφυΐας: Διαχείριση Βάσεων Δεδομένων και πληροφοριών

Ευφυής Προγραμματισμός

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Στόχοι

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Αναζήτηση Γνώσης σε Βάσεις Δεδομένων

ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΠΙΤΕΛΙΚΗ ΣΥΝΟΨΗ 2. ΕΙΣΑΓΩΓΗ ΣΚΟΠΟΣ ΤΟΥ ΠΑΡΟΝΤΟΣ 3. ΑΝΑΛΥΣΗ ΥΠΑΡΧΟΥΣΑΣ ΚΑΤΑΣΤΑΣΗΣ 3.1 ΔΡΑΣΤΗΡΙΟΤΗΤΕΣ ΚΑΙ ΠΑΡΕΧΟΜΕΝΕΣ ΥΠΗΡΕΣΙΕΣ

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Anytime Η 1η Direct ασφάλιση! Αθήνα, Ιούνιος 2014

ιαχείριση και επεξεργασία χρονοσειρών

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Πληροφοριακά Συστήματα Διοίκησης

Kalman Filter Γιατί ο όρος φίλτρο;

Βάσεις Δεδομένων ΙΙ. Ενότητα 13: Εισαγωγή στην Εξόρυξης Δεδομένων. Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων

Ψηφιακός Μετασχηματισμός & Open Banking:

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

υπηρεσιες προστιθέμενης αξίας Υπηρεσίες προστιθέμενης αξίας

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

ΜΕΛΕΤΗ ΤΕΧΝΙΚΩΝ, ΜΕΘΟΔΟΛΟΓΙΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΣΤΟΝ ΤΟΜΕΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διαχείριση και ανάλυση δεδοµένων µεγάλου όγκου: προκλήσεις, µέθοδοι και τεχνικές 16/4/2019

5V s of Big Data

Big Data Τα µεγάλα δεδοµένα χαρακτηρίζονται από τόσο µεγάλο όγκο, ταχύτητα και ποικιλία που απαιτούνται ειδικές τεχνολογίες και αναλυτικές µεθόδοι για τη µετατροπή τους σε αξία και εξαγωγή του πλούτου της πληροφορίας που έχουν Τα µεγάλα δεδοµένα απαιτούν ένα σύνολο τεχνικών και τεχνολογιών µε νέες µορφές ενοποίησης για να αποκαλύψουν πληροφορία από σύνολα δεδοµένων που είναι ποικίλα, πολύπλοκα και µαζικής κλίµακας Διαχείριση µεγάλων δεδοµένων και ανάλυση (µηχανική µάθηση, εξόρυξη δεδοµένων,...)

Ανακάλυψη γνώσης από δεδοµένα Ορισµός ü «KDD είναι η ντετερµινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόµων, ενδεχοµένως χρήσιµων και εν τέλει κατανοητών προτύπων στα δεδοµένα.» (Frawley, Piatesky-Shaphiro and Matheus, 1991). Δεδοµένα: Οντότητες ή συσχετίσεις του πραγµατικού κόσµου (π.χ., εγγραφές συναλλαγών τραπέζης, supermarket, κλπ) Πρότυπο: Μια έκφραση σε µια γλώσσα που χαρακτηρίζει ένα υποσύνολο των δεδοµένων (π.χ., ένας κανόνας) Εγκυρότητα: Το πρότυπο είναι συνεπές σε νέα δεδοµένα Πιθανή χρησιµότητα: Να µπορεί να χρησιµοποιηθεί για κάποιο σκοπό (π.χ., λήψη αποφάσεων) Τελικά κατανοητό: Κοινώς κατανοητό, ώστε να είναι κοινώς χρήσιµο

Εξαγωγή χρήσιµων προτύπων Συσχετίσεις (π.χ., ψωµί + βούτυρο è γάλα) Ακολουθίες (π.χ., χρονικά δεδοµένα που σχετίζονται µε το χρηµατιστήριο) Κανόνες που διαµοιράζουν τα δεδοµένα (π.χ. πρόβληµα τοποθεσίας µιας νέας επιχείρησης) Ποια πρότυπα έχουν ενδιαφέρον ; Περιεχόµενο πληροφορίας, εµπιστοσύνη και υποστήριξη, απρόσµενο (χρησιµότητα στην λήψη απόφασης)

Μερικές Εφαρµογές Ανάλυση και διαχείριση αγοράς (target marketing, µοντέλα πελατών, παροχή summary reports) Ανάλυση και διαχείριση κινδύνου/ρίσκου (ανάλυση και πρόβλεψη κίνησης µετρητών, ανάλυση χρονοσειρών (trend analysis) Εντοπισµός και διαχείριση οικονοµικού εγκλήµατος/aπάτης (ασφάλεια αυτοκινήτου, ιατρική ασφάλεια)

Νέο επιχειρηµατικό περιβάλλον: Προσαρµογή σε νέο λειτουργικό µοντέλο Αλλαγή της συµπεριφοράς των καταναλωτών Ευρύτερη χρήση του διαδικτύου, άνοδος των smartphones, κινητές συσκευές, ρόλος των κοινωνικών µέσων Αύξηση του Ίντερνετ των πραγµάτων (IoT) Οι ψηφιακές συσκευές και οι αισθητήρες µπορούν να παρέχουν δεδοµένα µέσω του Διαδικτύου (συνδεδεµένες συσκευές, αυτοκίνητα, σπίτια, τηλεµατικές συσκευές, φορητά, drones, 3D εικονική πραγµατικότητα) Ανάλυση Μεγάλων Δεδοµένων (Big Data Analytics) Επανεξέταση της ανάλυσης δεδοµένων (δεδοµένα σε πραγµατικό χρόνο από το διαδίκτυο, από λειτουργίες, κοινωνικά µέσα) Αλλαγή βασικών συστηµάτων µέσω τεχνολογίας Νέοι κανονισµοί Αυστηρότεροι νόµοι περί προστασίας δεδοµένων προσωπικού χαρακτήρα

Big Data στις Επιχειρήσεις UNSTRUCTURED DATA STRUCTURED DATA Data Sources Business Intelligence Analytics Customer Intelligence Execution Call Centers Customer data Life & Health Business Intelligence Warehouse Reporting & Business Objects Advanced Digital Analytics Big Data Analytics Segmentation portals Campaign Creation email Speech-to-Text & Text Analysis Customer Engagement Value (CEV) Risk Assessment Engines Predictive modeling SMS & smart apps Trends Analyses Voice Apps robot advisors

Βig Data Analytics για τη βελτίωση των επιχειρηµατικών διαδικασιών «Μαγνητική τοµογραφία» µιας εταιρείας ή οργανισµού λεπτοµερή εικόνα για το πόσο καλά λειτουργούν οι διαδικασίες της, σηµεία συµφόρησης, αιτίες καθυστερήσεων, περιττές δαπάνες, απώλεια παραγωγικότητας, σχεδίαση καλύτερων διαδικασιών Να γνωρίζει το «πού» και το «γιατί» σε πραγµατικό χρόνο Ανάγκη για παροχή βοήθειας σε εταιρείες για διαχείριση του όγκου συναλλαγών και δραστηριοτήτων που διεξάγονται µέσω πολλών επιχειρηµατικών διαδικασιών Π.χ., Celonis δηµιούργησε ένα οργανωτικό αποτύπωµα αυτόµατα από δεδοµένα διεργασιών 100% διαφάνεια των δεδοµένων Big Data Analytics όχι µόνο διάγνωση αλλά και θεραπεία, καθώς δίνουν συστάσεις για το τι πρέπει να αλλάξει στη διαδικασία èβελτίωση της αποτελεσµατικότητας

Εφαρµογές Μεγάλων Δεδοµένων: Smart everywhere Γεωργία Φροντίδα υγείας Βιοµηχανοποίηση Επιχειρηµατικές λειτουργίες ΜΜΕ και διαφήµιση Λιανικό εµπόριο Κυβέρνηση Επιστήµη Οικονοµία Αθλητισµός Τεχνολογία Μεταφορές IoT

Ανακάλυψη γνώσης από µεγάλα δεδοµένα Αξιολόγηση προτύπων Γνώση Πρότυπα Αποθήκη δεδοµένων Επιλεγµένα δεδοµένα Επιλογή Επεξεργασµένα δεδοµένα Εξόρυξη δεδοµένων Επεξεργασία & Μετασχηµατισµός Ενοποίηση δεδοµένων Βάσεις δεδοµένων Εξόρυξη δεδοµένων: η κεντρική διαδικασία στην ανακάλυψη γνώσης Αρχεία

Βασικά Βήµατα Διαδικασίας Ανακάλυψης Γνώσης Επιλογή (Selection): Συλλογή δεδοµένων από διάφορες ετερογενείς πηγές Προεπεξεργασία (Preprocessing): Εσφαλµένα, προβληµατικά ή ελλειπή δεδοµένα τακτοποιούνται (µπορεί να απαιτήσει το 60% της προσπάθειας!) Μετασχηµατισµός (Transformation): Μετατροπή ετερογενών δεδοµένων σε κοινή τυποποίηση για επεξεργασία Εξόρυξη δεδοµένων (Data mining): Εφαρµογή αλγορίθµων για παραγωγή µοντέλου Ερµηνεία/Αξιολόγηση (Interpretation/Evaluation): Παρουσίαση των αποτελεσµάτων της εξόρυξης δεδοµένων στους χρήστες για αξιολόγηση (χρήση µεθόδων οπτικοποίησης και GUI)

Διεργασίες Ανάλυσης Μεγάλων Δεδοµένων Προβλεπτικού τύπου ή µοντέλου ü Κατηγοριοποίηση (Classification) ü Παλινδρόµηση ή Παρεµβολή (Regression) ü Ανάλυση χρονοσειρών (Time series analysis) ü Πρόβλεψη (Prediction, forecasting) Περιγραφικού τύπου ή µοντέλου ü Συσταδοποίηση (Clustering) ü Σύνοψη (Summarization) ή Γενίκευση (Generalization) ü Εύρεση Κανόνων Συσχέτισης (Association Rules) ü Ανακάλυψη Συσχετίσεων σε Ακολουθίες (Pattern Discovery in Sequences)

Γιατί προ-επεξεργασία δεδοµένων; Τα πραγµατικά δεδοµένα δεν είναι καθαρά Ελλιπή: έλλειψη τιµών των χαρακτηριστικών, έλλειψη ορισµένων χαρακτηριστικών ενδιαφέροντος, ή περιέχουν µόνο συναθροιστικά δεδοµένα Θορυβώδη: περιέχουν σφάλµατα ή ακραίες τιµές (outliers) Ασυνεπή: περιέχουν ασυνέπειες στους κωδικούς ή στα ονόµατα Μη ποιοτικά δεδοµένα, µη ποιοτικά αποτελέσµατα εξόρυξης! Οι ποιοτικές αποφάσεις βασίζονται σε ποιοτικά δεδοµένα Οι αποθήκες δεδοµένων χρειάζονται συνεπή ενοποίηση ποιοτικών δεδοµένων Μια πολύ-επίπεδη µετρική ποιότητας δεδοµένων: Μια αποδεκτή πολυδιάστατη άποψη: ακρίβεια, πληρότητα, συνέπεια, προσβασιµότητα, timeliness, believability, value added, interpretability Διευρυµένες κατηγορίες: intrinsic, contextual, representational, accessibility.

Βασικές εργασίες στην προεπεξεργασία δεδοµένων Καθαρισµός Δεδοµένων Συµπλήρωση ελλιπών τιµών, εξοµάλυνση δεδοµένων που έχουν θόρυβο, αναγνώριση ή αποµάκρυνση ακραιών τιµών (outliers), επίλυση ασυνεπειών Ενοποίηση Δεδοµένων Ενοποίηση πολλαπλών βάσεων δεδοµένων, κύβων δεδοµένων, αρχείων, κ.α. Μετασχηµατισµός Δεδοµένων Κανονικοποίηση (κλιµάκωση σε ένα συγκεκριµένο εύρος) Συνάθροιση (aggregation) Μείωση Δεδοµένων Απόκτηση µειωµένων αναπαραστάσεων σε όγκο αλλά παραγωγή των ίδιων ή παρόµοιων αναλυτικών αποτελεσµάτων Διακριτοποίηση δεδοµένων: µε συγκεκριµένη σηµασία, ειδικά για αριθµητικά δεδοµένα Συνάθροιση δεδοµένων, µείωση διαστατικότητας, συµπίεση δεδοµένων, γενίκευση

Πως χειριζόµαστε τα ελλιπή δεδοµένα? Συµπλήρωση των ελλιπών τιµών Χρήση καθολικής σταθεράς ή της µέσης τιµής του χαρακτηριστικού ή της µέσης τιµής των δειγµάτων της ίδιας κλάσης ή της πιο πιθανής τιµής: βασισµένη στο συµπερασµό µε τεχνικές όπως regression, Bayesian εξίσωση, δένδρα απόφασης, κ.α.

Πως χειριζόµαστε τα δεδοµένα µε θόρυβο; Binning: Ταξινόµηση των δεδοµένα και διαχωρισµός τους σε (ίσουβάθους) bins (δοχεία) Οµαλοποίηση: smooth by bin means, smooth by bin median, smooth by bin boundaries, κτλ. Χρήση και για διακριτοποίηση Συσταδοποίηση Ανίχνευση και αποµάκρυνση των ακραίων τιµών (outliers) Ηµι-αυτοµατοποιηµένη µέθοδος: συνδυάζει τον υπολογιστή µε την ανθρώπινη διαίσθηση Ανίχνευση ύποπτων τιµών και χειρωνακτικός έλεγχος Παλινδρόµηση (Regression) Εξοµάλυνση µε το ταίριασµα των δεδοµένων σε συναρτήσεις παλινδρόµησης

Ενοποίηση Δεδοµένων Δεδοµένα από πολλαπλές πηγές Ενοποίηση Σχήµατος (Schema integration) ενοποίηση µεταδεδοµένων από διαφορετικές πηγές πρόβληµα ταυτοποίησης οντότητας (πολλαπλές πηγές δεδοµένων), π.χ., A.cust-id B.cust-# Ανίχνευση και ανάλυση της σύγκρουσης των τιµών για την ίδια πραγµατική οντότητα, οι τιµές των χαρακτηριστικών από διαφορετικές πηγές διαφέρουν πιθανές αιτίες: διαφορετικές αναπαραστάσεις, διαφορετικές κλίµακες, ή µονάδες µέτρησης Διαχείριση πλεοναζόντων δεδοµένων ανίχνευση µε ανάλυση συσχετίσεων στόχος η µείωση περιττής πληροφορίας και ασυνεπειών

Μετασχηµατισµός Δεδοµένων Εξοµάλυνση: αποµάκρυνση θορύβου από δεδοµένα (binning, συσταδοποίηση, regression) Συνάθροιση: σύνοψη, data cube construction Γενίκευση: ανάβαση ιεραρχίας εννοιών Κανονικοποίηση: κλιµάκωση σε ένα µικρό, περιορισµένο εύρος min-max κανονικοποίηση z-score κανονικοποίηση κανονικοποίηση µε δεκαδική κλίµακα Δηµιουργία γνωρίσµατος/χαρακτηριστικού Νέα χαρακτηριστικά κατασκευάζονται από τα δοσµένα

Μείωση Δεδοµένων Στόχος: Μειωµένη αναπαράσταση του συνόλου δεδοµένων αρκετά µικρότερη σε όγκο αλλά που ωστόσο παράγει τα ίδια (ή περίπου το ίδια) αναλυτικά αποτελέσµατα Στρατηγικές Μείωσης Δεδοµένων: Συνάθροιση Κύβου Δεδοµένων (Data cube aggregation) Μείωση Διαστατικότητας (Dimensionality reduction) Συµπίεση Δεδοµένων (Data compression) µετασχηµατισµοί, ανάλυση βασικών συνιστωσών Μείωση πολυαριθµίας (Numerosity reduction) Παραµετρικές µέθοδοι (π.χ., παλινδρόµιση, log-linear µοντέλα) Μη παραµετρικές µέθοδοι (ιστογράµµατα, συσταδοποίηση, δειγµατοληψία) Διακριτοποίηση και τεχνικές ιεραρχικής γενίκευσης

Αν προσπαθούµε να µετρήσουµε την απόσταση µεταξύ δύο αρχικών χρονοσειρών, µπορεί να έχουµε πολύ απροσδόκητα αποτελέσµατα H ευκλείδεια απόσταση είναι πολύ ευαίσθητη σε κάποιες "στρεβλώσεις" στα δεδοµένα Για τα περισσότερα προβλήµατα αυτές οι στρεβλώσεις δεν έχουν νόηµα, και έτσι µπορούµε και πρέπει να τις αφαιρέσουµε Οι 4 πιο συνηθισµένες στρεβλώσεις : Μετατόπιση Eυθυγράµµιση πλάτους Γραµµική τάση Θόρυβος Παράδειγµα: Χρονοσειρές: Προεπεξεργασία πριν τον υπολογισµό αποστάσεων

Μετασχηµατισµός I: Μετατόπιση (Offset Translation) 3 2.5 3 2.5 D(Q,C) 2 2 1.5 1.5 1 1 0.5 0.5 0 0 50 100 150 200 250 300 0 0 50 100 150 200 250 300 Q = Q - mean(q) C = C - mean(c) D(Q,C) 0 50 100 150 200 250 300 0 50 100 150 200 250 300

Μετασχηµατισµός IΙ: Ευθυγράµµιση πλάτους (Amplitude scaling) 0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000 Q = (Q - mean(q)) / std(q) C = (C - mean(c)) / std(c) D(Q,C)

Μετασχηµατισµός IΙI: Γραµµική Τάση (Linear Trend) 12 5 10 4 8 3 6 2 4 1 2 0 0-1 -2-2 -4 0 20 40 60 80 100 120 140 160 180 200 Ιntuition behind removing linear trend: Fit the best fitting straight line to the time series, then subtract that line from the time series. -3 0 20 40 60 80 100 120 140 160 180 200 Removed linear trend Removed offset translation Removed amplitude scaling

Μετασχηµατισµός IV: Θόρυβος 8 8 6 6 4 4 2 2 0 0-2 -2-4 0 20 40 60 80 100 120 140-4 0 20 40 60 80 100 120 140 The intuition behind removing noise is... Average each datapoint value with its neighbors. Q = smooth(q) C = smooth(c) D(Q,C)

Χρήση της προεπεξεργασίας των δεδοµένων Συσταδοποίηση µε χρήση Ευκλείδιας απόστασης στα αρχικά δεδοµένα Συσταδοποίηση µε χρήση Ευκλείδιας απόστασης µετά την εφαρµογή της προεπεξεργασίας 3 2 9 6 8 5 9 8 7 5 6 4 7 3 4 2 1 1

Προεπεξεργασία των δεδοµένων Οι αρχικές χρονοσειρές µπορεί να έχουν «στρεβλώσεις» που πρέπει να αφαιρέσουµε πριν από την συσταδοποίηση, την ταξινόµηση, κλπ Mερικές φορές οι «στρεβλώσεις» είναι το πιο ενδιαφέρον πράγµα για τα δεδοµένα, τα παραπάνω είναι µόνο ένας γενικός κανόνας Οι υψηλού επιπέδου αναπαραστάσεις χρονοσειρών (DFT, Wavelets κ.λπ.) συχνά µας επιτρέπουν να αντιµετωπίζουµε τις στρεβλώσεις µε κοµψούς τρόπους

Δυναµική παραµόρφωση χρόνου (Dynamic Time Warping) Fixed Time Axis Sequences are aligned one to one. Warped Time Axis Nonlinear alignments are possible.

Διαχείριση Μεγάλων Δεδοµένων

Big Data Analytics

Decision support και δηµιουργία alerts www.frailsafe-project.eu

Υγεία: πρόβλεψη δυσµενών συµβάντων Η ακρίβεια πρόβλεψης adverse events πάνω από 70% χρησιµοποιώντας Multiple Instance Learning συνδιάζοντας µετρήσεις!

Εξατοµικευµένες παρεµβάσεις

Σύνοψη: Μεγάλα δεδοµένα και µηχανική µάθηση Υποβοήθηση στη λήψη αποφάσεων Βελτίωση επιχειρηµατικών διαδικασιών Το ML σε όλες σχεδόν τις πτυχές της επιστήµης Aνάλυση περισσότερων δεδοµένων και κατανόηση/επίλυση δύσκολων προβληµάτων Πλήρης προβολή 360 µοιρών συνέπειες στην οικονοµία; Καλύτερες προβλεψεις; εξατοµικευµένη προσαρµογή; Ποιότητα δεδοµένων: Περισσότερες εταιρείες θα επικεντρώνονται στην επίλυση της πρόκλησης της διατήρησης ακριβέστερων και πληρέστερων δεδοµένων ώστε η τεχνολογία των Μεγάλων Δεδοµένων να οδηγήσει τις αλλαγές

Ευχαριστώ!