Πληροφοριακά Συστήματα Διοίκησης Μεγάλα Δεδομένα ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου
Bytes 1KB = 2 10 1MB = 2 20 1GB = 2 30 1TB = 2 40 1PB = 2 50 1EB = 2 60 1ZB = 2 70 1YB = 2 80 bytes bytes bytes bytes bytes bytes bytes bytes 1YottaByte 2
Μορφές δεδομένων Δομημένα Σχεσιακές βάσεις δεδομένων XML JSON Ημι-δομημένα CSV (Comma Separated Values) Emails Tweets Facebook statuses Σχόλια σε Blogs Κείμενο Εικόνα Ήχος Βίντεο Αδόμητα 3
XML (extensible Markup Language) XML είναι μια γλώσσα σήμανσης (markup language) που ορίζει κανόνες για την κωδικοποίηση εγγράφων έτσι ώστε να είναι αναγνώσιμα από ανθρώπους και ταυτόχρονα κατάλληλα για επεξεργασία από προγράμματα υπολογιστών 4
JSON (JavaScript Object Notation) JSON είναι μια μορφή αρχείων που χρησιμοποιείται για ανταλλαγή δεδομένων μεταξύ εφαρμογών Μπορεί να διαβαστεί σχετικά εύκολα από ανθρώπους και καταλαμβάνει λιγότερο χώρο σε σχέση με τα XML αρχεία 5
CSV (Comma Separated Values) CSV : τιμές χωρισμένες με κόμματα ή με άλλα σύμβολα όπως το ερωτηματικό Χρησιμοποιείται για ανταλλαγή δεδομένων μεταξύ εφαρμογών Πολλά προγράμματα υποστηρίζουν την εισαγωγή ή την εξαγωγή δεδομένων σε CSV μορφή (π.χ. Excel, OpenOffice Calc, R, Weka, ) 6
Αλλαγές τελευταίων ετών Μείωση κόστους για αποθήκευση επεξεργασία Μείωση τιμών αισθητήρων Αλλαγή συμπεριφοράς χρηστών αποδοχή διάθεσης προσωπικών πληροφοριών Σημαντική πρόοδος σε αλγορίθμους μηχανικής μάθησης 7
Σημείο καμπής Το κόστος της υπολογιστικής επεξεργασίας και αποθήκευσης έφτασε σε κομβικό σημείο κάποια στιγμή ανάμεσα στο 2008 και το 2010 Περισσότερες επιχειρήσεις έχουν πλέον την δυνατότητα να διαχειρίζονται Big Data 8
Τι είναι τα Big Data; Τα Big Data είναι τεράστιες ποσότητες δομημένων, ημι-δομημένων και αδόμητων δεδομένων Τα Big Data είναι ο συνδυασμός εξελίξεων στην τεχνολογία που συνέβησαν τα τελευταία 50 έτη 9
Τα τρία V των Big Data Volume (όγκος ποσότητα δεδομένων) Terabytes έως Petabytes δεδομένων Η ποσότητα των δεδομένων που συλλέγονται αυξάνεται συνεχώς Ότι θεωρείται σήμερα ως μεγάλα δεδομένα στο μέλλον θα είναι ακόμα μεγαλύτερο Variety (ποικιλομορφία) Συγκέντρωση δεδομένων από διάφορες πηγές εντός και εκτός της επιχείρησης Δεδομένα από αισθητήρες Δεδομένα από έξυπνες συσκευές Velocity (ταχύτητα) Η ταχύτητα με την οποία δημιουργούνται τα δεδομένα συνεχώς αυξάνεται Ορισμένες εφαρμογές απαιτούν λήψη αποφάσεων σε real time 10
Big Data και επιχειρήσεις Το σύστημα Big Data που θα προταθεί θα πρέπει: να παρέχει προστιθέμενη αξία για την επιχείρηση να είναι οικονομικό να λειτουργεί με αποδεκτή ταχύτητα Δεν είναι πάντα τα δεδομένα Big Data 11
Map Reduce και Apache Hadoop To MapReduce (Google 2003) είναι ένα υπολογιστικό μοντέλο που χρησιμοποιείται ευρύτατα για αποδοτική κατανεμημένη επεξεργασία πάνω σε μεγάλα σύνολα δεδομένων Εκτελείται σε συστάδες υπολογιστών και επωφελείται από την ύπαρξη πολλών κόμβων στους οποίους μπορεί να ανατεθεί εργασία Το Apache Hadoop είναι λογισμικό ανοικτού κώδικα που παρέχει την υποδομή για προγραμματισμό εργασιών Map Reduce Η βασική ιδέα είναι η μετακίνηση των υπολογισμών στα δεδομένα Έχει πολύ μεγάλη αποδοχή (Yahoo!, Twitter, Amazon, Facebook κ.α.) 12
Παράδειγμα καταμέτρησης λέξεων http://xiaochongzhang.me/blog/?p=338 13
NoSQL Βάσεις Δεδομένων Οι NoSQL ΒΔ χρησιμοποιούνται συχνά για την αποθήκευση Big Data Τα δεδομένα αποθηκεύονται σε πολλούς υπολογιστές (sharding=θρυματισμός) Αν ένας υπολογιστής παρουσιάσει βλάβη τότε χρησιμοποιούνται αντίγραφα των δεδομένων που διατηρούσε από άλλους υπολογιστές Πλεονεκτήματα Ευκολότερη κλιμάκωση (high scalability) Υψηλές επιδόσεις Αποθήκευση μη δομημένων δεδομένων Μειονεκτήματα (features) Weak (eventual) consistency No schema No transactions No SQL 14
NoSQL landscape Υπάρχουν πολλές τεχνολογίες NoSQL ΒΔ Key value stores: Redis, Riak Column Family Stores: Cassandra, HBase Document databases: MongoDB, CouchDB Graph databases: Neo4J, Infogrid, HyperGraphDB 15
Κριτική στα Big Data 16