Εισαγωγή στην Επιστήµη Δεδοµένων Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Οι διαλέξεις χρησιµοποιούν το βιβλίο Data Science for Business των Foster Provost καιtom Fawcett, 2013. Οι διαφάνειες και οι εικόνες χρησιµοποιούνται µε την άδεια των συγγραφέων.
Δεδοµένα. n 1,200,000,000,000,000,000,000 bytes δεδοµένων n Facebook - 1,150 εκατ. χρήστες n Gmail 425 εκατ. χρήστες n Skype 300 εκατ. χρήστες n Tweeter 500 εκατ. χρήστες (200 εκατ. ενεργοί) n WhatsApp 300+ εκατ. χρήστες n Youtube 1,000 εκατ. χρήστες (4 δισ. καθηµερινές θεάσεις) n Instagram - 150 εκατ. χρήστες Sources: http://expandedramblings.com/index.php/resource-how-many-people-use-the-top-social-media/ September 15, 2013
Δεδοµένα. n Waze 50 εκατ. χρήστες n Amazon 209 εκατ. χρήστες n Ebay - 120 εκατ. χρήστες n Paypal - 132 εκατ. χρήστες n Google searches ~12 δισ. (µηνιαία, US µόνο) Sources: http://expandedramblings.com/index.php/resource-how-many-people-use-the-top-social-media/ September 15, 2013
Χρήσεις.
Caesars Entertainment Corporation n Βασισµένο στο Harvard Business Review Paper του Gary Loveman
Caesars Entertainment Corporation n Περισσότερα από 50 Καζίνο και ξενοδοχεία n Κέρδη για το 2011 ~ $9 δισ. n Πολύ ανταγωνιστική αγορά n Μεγάλες επενδύσεις και άµεση απόδοση. n Πως µπορεί η Caesars Entertainment να διαφοροποιηθεί από τους ανταγωνιστές;
Caesars Entertainment Corporation n Όπως και οι ανταγωνιστές, η Caesars έχει πρόγραµµα επιβράβευσης πελατών (και κάρτα πελάτη). n Οι πελάτες ανταµείβονται µε τυπικά δώρα (όπως δωρεάν διαµονή). n Το πρόγραµµα δεν ήταν πολύ πετυχηµένο αλλά µάζεψε πολλά δεδοµένα
Caesars Entertainment Corporation n Σε αντίθεση µε τους ανταγωνιστές της, τα κέρδη της (87%) προήλθαν από τα καζίνο. n «Σηµαντική αύξηση απόδοσης» αν οι πελάτες ξοδεύουν περισσότερα στο Caesars. n Loyalty στρατηγική βασισµένη στην υπάρχουσα ανάπτυξη. n Πως θα µπορούσαν τα δεδοµένα να υποστηρίξουν αυτή τη στρατηγική;
Caesars Entertainment Corporation n 26% των παικτών δίνουν το 82% των κερδών n Αλλά όχι αυτοί που θα περίµεναµε: n Μεσήλικες εργάτες κατά την επιστροφή τους προς το σπίτι n Δεν µένουν στα ξενοδοχεία n Ανταποκρίνονται περισσότερο σε δώρα $ 60 σε µάρκες παρά σε «δωρεάν διαµονή, 2 δείπνα, και 30$ σε µάρκες».
Caesars Entertainment Corporation n Κατανοώντας τους µακροχρόνιους πελάτες, η εταιρεία διαπίστωσε ότι µπορεί να διαφοροποιήσει την υπηρεσία καζίνο παρέχοντας τις best υπηρεσίες στους πελάτες. n Χρησιµοποίησαν τα δεδοµένα των πελατών για να προβλέψουν τις µελλοντικές αποδόσεις.
Caesars Entertainment Corporation Αύξηση της αξίας των πελατών n Ελέγχοντας αλλαγές στα µοτίβα επισκέψεων n Μετρώντας την ανταπόκριση σε διάφορες προσφορές n Εντοπίζοντας ποιοι πελάτες χρησιµοποιούσαν ποιες slot machines και στη συνέχεια άλλαζαν την τοποθέτηση τους.
Caesars Entertainment Corporation Let the neighbors lure tourists with knights on horseback, fiery volcanoes, pirate ships and mini-manhattans. We ll just keep refining what we are already good at: drilling into our data and making sure our regular customers are more than satisfied. (Gary Loveman, CEO της Caesars Entertainment)
Wall Mart
Uses.
Προβλέποντας ποιος µπορεί να πειστεί και πως;
Αλγοριθµικό Trading
SPAM φίλτρα
Εφαρµογές ασφάλειας n http://www.theguardian.com/world/ 2013/jun/06/us-tech-giants-nsa-data
Πολύ περισσότερες εφαρµογές n Bio-πληροφορική n Bio-επίβλεψη n Έλεγχος για απάτη n Πρόβλεψη διαρροής συνδροµητών n Συστάσεις προϊόντων n
Η Πρόκληση n Η αναγνώριση των ορθών, καινοτόµων, χρήσιµων µοτίβων µέσα µεγάλης κλίµακας δεδοµένων.
Ορολογία n Επιστήµη Δεδοµένων: εµπλέκει αρχές, διεργασίες, και τεχνικές για την κατανόηση δεδοµένων µέσω της (αυτοµατοποιηµένης) ανάλυσης τους. n Εξόρυξη Δεδοµένων (ή analytics ) περιλαµβάνει τις τεχνικές που χρησιµοποιούνται στην Επιστήµη Δεδοµένων. n Λήψη αποφάσεων καθοδηγούµενη από δεδοµένα (DDD): λήψη αποφάσεων βασισµένη σε ανάλυση δεδοµένων παρά σε διαίσθηση.
Ορολογία n Big Data σύνολα δεδοµένων που είναι αρκετά µεγάλα για τα παραδοσιακά συστήµατα επεξεργασίας δεδοµένων (δεν χωρούν στη RAM), και για αυτό απαιτούν νέες τεχνολογίες επεξεργασίας. n Τα Big data συχνά χαρακτηρίζονται από τα 3Vs: Volume (Όγκος), Velocity (Ταχύτητα), και Variety (Ποικιλία).
Ορολογία n Big Data Τεχνολογίες χρησιµοποιούνται για την επεξεργασία και χειρισµό των big data, και περιλαµβάνουν προ-επεξεργασία πριν από την υλοποίηση τεχνικών εξόρυξης δεδοµένων. n Τα Big Data µπορούν να χρησιµοποιήσουν πρόσθετες τεχνικές εξόρυξης δεδοµένων (πχ., επιτάχυνση µέσω παραλληλισµού).
Κάποια τάξη στο χάος Εικόνα από το Data Science for Business, Provost & Fawcett, 2013
Σκοπός n Να δούµε τα επιχειρησιακά προβλήµατα µέσω της προοπτικής της ανάλυσης δεδοµένων: n Κατανοώντας τις βασικές αρχές της επιστήµης δεδοµένων, των ευκαιριών και των δυσκολιών, και n Γνωρίζοντας τις διάφορες επιχειρησιακές εφαρµογές και πως χρησιµοποιούν την επιστήµη δεδοµένων.
Τα καλά νέα n 140,000 µε 190,000 άτοµα µε αναλυτικές ικανότητες καθώς και 1.5 εκατ. διαχειριστές και αναλυτές θα χρειάζονται µέχρι το 2018.(Source: McKinsey)
4 αρχές (1) n Η εξαγωγή χρήσιµων πληροφοριών για την επίλυση επιχειρησιακών προβληµάτων απαιτεί µια συστηµατική διεργασία µε καλώς ορισµένα βήµατα. n Από µια µεγάλη µάζα δεδοµένων, η τεχνολογία πληροφορίας µπορεί να χρησιµοποιηθεί για να βρει περιγραφικές ιδιότητες των οντοτήτων που µας ενδιαφέρουν.
4 αρχές (2) n Αν κοιτάµε πιο προσεκτικά ένα σύνολο δεδοµένων θα βρούµε κάτι χρήσιµο αλλά δεν µπορούµε να γενικεύσουµε πέρα από τα δεδοµένα που κοιτάµε. n Όταν διαµορφώνουµε λύσεις εξόρυξης δεδοµένων και αξιολογούµε τα αποτελέσµατα τους τότε θα πρέπει να σκεφτόµαστε προσεκτικά σε σχέση µε περιεχόµενο για το οποίο χρησιµοποιούνται.
Απαιτήσεις του µαθήµατος n Μόνο τελική εξέταση.
Ευχαριστώ! tselios@teilar.gr