Πληροφοριακά Συστήματα Διοίκησης Μεγάλα Δεδομένα ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2017
Bytes 1KB = 2 10 1MB = 2 20 1GB = 2 30 1TB = 2 40 1PB = 2 50 1EB = 2 60 1ZB = 2 70 1YB = 2 80 bytes bytes bytes bytes bytes bytes bytes bytes 1YottaByte 2
Μορφές δεδομένων Δομημένα Σχεσιακές βάσεις δεδομένων XML JSON Ημι-δομημένα CSV (Comma Separated Values) Emails Tweets Facebook statuses Σχόλια σε Blogs Κείμενο Εικόνα Ήχος Βίντεο Αδόμητα 3
XML (extensible Markup Language) XML είναι μια γλώσσα σήμανσης (markup language) που ορίζει κανόνες για την κωδικοποίηση εγγράφων έτσι ώστε να είναι αναγνώσιμα από ανθρώπους και ταυτόχρονα κατάλληλα για επεξεργασία από προγράμματα υπολογιστών 4
JSON (JavaScript Object Notation) JSON είναι μια μορφή αρχείων που χρησιμοποιείται για ανταλλαγή δεδομένων μεταξύ εφαρμογών Μπορεί να διαβαστεί σχετικά εύκολα από ανθρώπους και καταλαμβάνει λιγότερο χώρο σε σχέση με τα XML αρχεία 5
CSV (Comma Separated Values) CSV : τιμές χωρισμένες με κόμματα ή με άλλα σύμβολα όπως το ερωτηματικό Χρησιμοποιείται για ανταλλαγή δεδομένων μεταξύ εφαρμογών Πολλά προγράμματα υποστηρίζουν την εισαγωγή ή την εξαγωγή δεδομένων σε CSV μορφή (π.χ. Excel, OpenOffice Calc, R, Weka, ) 6
Αλλαγές τελευταίων ετών Μείωση κόστους για αποθήκευση επεξεργασία Μείωση τιμών αισθητήρων Αλλαγή συμπεριφοράς χρηστών αποδοχή διάθεσης προσωπικών πληροφοριών Σημαντική πρόοδος σε αλγορίθμους μηχανικής μάθησης 7
Internet of Things (IoT) Το διαδίκτυο των αντικειμένων αφορά τη σύνδεση συσκευών μεταξύ τους αλλά και στο διαδίκτυο Οι συσκευές μπορεί να είναι οτιδήποτε (κινητά, πρίζες, πλυντήρια, λάμπες, θερμοστάτες, συσκευές παρακολούθησης φυσικής δραστηριότητας κ.α.) Η εταιρεία Gartner εκτιμά ότι το 2020 θα υπάρχουν περισσότερες από 26 δισεκατομμύρια συνδεμένες συσκευές Χρήση του IoT για το μετασχηματισμό των πόλεων σε έξυπνες πόλεις (smart cities) με αύξηση της αποδοτικότητας της χρήσης ενέργειας και διασφάλιση καλύτερης ποιότητας ζωής για τους πολίτες τους http://www.libelium.com/resources/top_50_iot_sensor_applications_ranking/ 8
Σημείο καμπής Το κόστος της υπολογιστικής επεξεργασίας και αποθήκευσης έφτασε σε κομβικό σημείο κάποια στιγμή ανάμεσα στο 2008 και το 2010 Περισσότερες επιχειρήσεις έχουν πλέον τη δυνατότητα να διαχειρίζονται Big Data λόγω της εξέλιξης της τεχνολογίας 9
Τι είναι τα Big Data; Τα Big Data είναι τεράστιες ποσότητες δομημένων, ημι-δομημένων και αδόμητων δεδομένων Τα Big Data είναι ο συνδυασμός εξελίξεων στην τεχνολογία που συνέβησαν τα τελευταία 50 έτη 10
Τα τρία V των Big Data Volume (όγκος ποσότητα δεδομένων) Terabytes, Petabytes δεδομένων Η ποσότητα των δεδομένων που συλλέγονται αυξάνεται συνεχώς Ότι θεωρείται σήμερα ως μεγάλα δεδομένα στο μέλλον θα είναι ακόμα μεγαλύτερο Variety (ποικιλομορφία) Συγκέντρωση δεδομένων από διάφορες πηγές εντός και εκτός της επιχείρησης Δεδομένα από αισθητήρες Δεδομένα από έξυπνες συσκευές Velocity (ταχύτητα) Η ταχύτητα με την οποία δημιουργούνται τα δεδομένα συνεχώς αυξάνεται Ορισμένες εφαρμογές απαιτούν λήψη αποφάσεων σε real time 11
Ένα επιπλέον V: Veracity (φιλαλήθεια) Η φιλαλήθεια στα Big Data αφορά τη συλλογή δεδομένων που εμπεριέχουν προκαταλήψεις (biases) ή αποτελούν θόρυβο και τους μηχανισμούς που πρέπει να χρησιμοποιούνται έτσι ώστε να αποφεύγεται η συσσώρευση τέτοιου είδους δεδομένων http://www.mytechlogy.com/it-blogs/7151/the-four-vs-of-big-data/ 12
Big Data και επιχειρήσεις Το σύστημα Big Data που θα προταθεί θα πρέπει: να παρέχει προστιθέμενη αξία για την επιχείρηση να είναι οικονομικό να λειτουργεί με αποδεκτή ταχύτητα Δεν είναι πάντα τα δεδομένα Big Data 13
Map Reduce και Apache Hadoop To MapReduce (Google 2003) είναι ένα υπολογιστικό μοντέλο που χρησιμοποιείται ευρύτατα για αποδοτική κατανεμημένη επεξεργασία πάνω σε μεγάλα σύνολα δεδομένων Εκτελείται σε συστάδες υπολογιστών και επωφελείται από την ύπαρξη πολλών κόμβων στους οποίους μπορεί να ανατεθεί εργασία Το Apache Hadoop είναι λογισμικό ανοικτού κώδικα που παρέχει την υποδομή για προγραμματισμό εργασιών Map Reduce Η βασική ιδέα είναι η μετακίνηση των υπολογισμών στα δεδομένα Έχει πολύ μεγάλη αποδοχή (Yahoo!, Twitter, Amazon, Facebook κ.α.) 14
Παράδειγμα καταμέτρησης λέξεων http://xiaochongzhang.me/blog/?p=338 15
NoSQL Βάσεις Δεδομένων Οι NoSQL ΒΔ είναι νέες αρχιτεκτονικές Βάσεων Δεδομένων που αντιμετωπίζουν επιχειρηματικές ανάγκες στις οποίες οι σχεσιακές ΒΔ δεν είναι σε θέση να ανταπεξέλθουν Οι NoSQL ΒΔ χρησιμοποιούνται συχνά για την αποθήκευση Big Data Τα δεδομένα αποθηκεύονται σε πολλούς υπολογιστές (sharding=θρυματισμός) Πλεονεκτήματα Ευκολότερη κλιμάκωση (high scalability) Υψηλές επιδόσεις Αποθήκευση μη δομημένων δεδομένων Μειονεκτήματα (features) Weak (eventual) consistency No schema No transactions No SQL Αν ένας υπολογιστής παρουσιάσει βλάβη τότε χρησιμοποιούνται αντίγραφα των δεδομένων που διατηρούνται σε άλλους υπολογιστές της υποδομής 16
NoSQL landscape Υπάρχουν πολλές τεχνολογίες NoSQL ΒΔ Key value stores: Redis, Riak Column Family Stores: Cassandra, HBase Document databases: MongoDB, CouchDB Graph databases: Neo4J, Infogrid, HyperGraphDB 17
Κριτική στα Big Data 18