ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Σχετικά έγγραφα
Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Τεχνικές Εξόρυξης Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ευφυής Προγραμματισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018

Υπερπροσαρμογή (Overfitting) (1)

Αποθήκες και Εξόρυξη Δεδομένων

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Περιεχόμενο του μαθήματος

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Διδάσκοντες: Μαρία Χαλκίδη

Εξόρυξη Δεδομένων Data Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Εισαγωγή στο Μάρκετινγκ

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Διπλωματική Εργασία. Της Δέσποινας Α. Πλώτα. Επιβλέπων Καθηγητής: Βασίλειος Βουτσινάς

Δέντρα Απόφασης (Decision(

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Ευφυής Προγραμματισμός

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Αποθήκες εδομένων και Εξόρυξη εδομένων:

7. ΣΥΣΤΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Μεταπτυχιακή Διπλωματική Εργασία

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

DATA QUALITY & ANALYTICS DRIVING BUSINESS GROWTH AT YDROGIOS. Θάνος Αγγελόπουλος

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Μαθησιακοί στόχοι κεφαλαίου

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαχείριση Πολιτισμικών Δεδομένων

Βάσεις Δεδομένων ΙΙ. Ενότητα 13: Εισαγωγή στην Εξόρυξης Δεδομένων. Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΧΡΗΣΗ ΠΡΟΒΛΕΨΗΣ ΣΥΜΠΕΡΙΦΟΡΑΣ ΤΟΥ ΚΑΤΑΝΑΛΩΤΗ

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Ηλεκτρονικά Καταστήματα E Shops

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα

Predicting the Choice of Contraceptive Method using Classification

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Τμηματοποίηση αγοράς. Έννοια, κριτήρια, είδη

ΒΕΛΤΙΣΤΕΣ ΠΡΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΩΝ CRM ΣΤΙΣ ΞΕΝΟΔΟΧΕΙΑΚΕΣ ΕΠΙΧΕΙΡΗΣΕΙΣ:Η ΠΕΡΙΠΤΩΣΗ ΠΕΝΤΑΣΤΕΡΩΝ ΞΕΝΟΔΟΧΕΙΩΝ ΑΘΗΝΑΣ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Στόχος της ψυχολογικής έρευνας:

ΤΙ ΕΙΝΑΙ ΣΤΑΤΙΣΤΙΚΗ; Στατιστική είναι η διαδικασία εξαγωγής πληροφορίας από τα δεδομένα. Διαχείριση Πληροφοριών 1.1

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Οδηγός Ηλεκτρονικού Επιχειρείν

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

«Αφιερωμένο στους γονείς μου Νικογιάννη και Ευγενία, στα αδέρφια μου Διονύση και Μπέσσυ αλλά και σε όσους ήταν μαζί μου αυτά τα χρόνια...

Αναγνώριση Προτύπων Ι

ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ. και ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

ΜΕΛΕΤΗ ΤΕΧΝΙΚΩΝ, ΜΕΘΟΔΟΛΟΓΙΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΣΤΟΝ ΤΟΜΕΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΚΕΦΑΛΑΙΟ 1ο ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ

Οικονόμου Παναγιώτης.

Κεφάλαιο 9. Εξαγωγή Κανόνων Συσχέτισης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Ανάλυση και Σχεδιασμός Μεταφορών Ι Γένεση Μετακινήσεων

ΕΡΩΤΗΣΕΙΣ ΚΛΕΙΣΤΟΥ Ή ΑΝΤΙΚΕΙΜΕΝΙΚΟΥ ΤΥΠΟΥ

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Οι εξαγωγές στη Βόρεια Ελλάδα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗ, Γ ΤΑΞΗ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Εισόδημα Κατανάλωση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Transcript:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 8/4/203 5 ο εξόρυξη πληροφορίας

Ανακάλυψη γνώσης 2 Web and NLP 23/4/203

Ορολογία 3 Data Mining Διαδικασία ανακάλυψης γνώσης μέσω της αναζήτησης προτύπων πληροφορίας στα δεδομένα Το βήμα ανάλυσης της διαδικασίας "Knowledge Discovery in Databases", ή αλλιώς KDD Knowledge Discovery Διαδικασία που αξιοποιεί τεχνικές data mining για εξόρυξη γνώσης σύμφωνα με προκαθορισμένες μετρικές

Πρότυπα 4 Το πρότυπο (pattern) είναι μια δήλωση για μια πιθανοτική κατανομή Πρότυπο = αξιόπιστο δείγμα τάσεων, πράξεων ή άλλων παρατηρούμενων χαρακτηριστικών ενός ανθρώπου, μιας ομάδας, ενός οργανισμού, κτλ.

Χρησιμότητα Προτύπων 5 Προβλέψεις ή κατηγοριοποιήσεις νέων δεδομένων Ερμηνεία διαθέσιμων δεδομένων Εξαγωγή περιλήψεων για το περιεχόμενο βάσεων δεδομένων και υποστήριξη λήψης αποφάσεων Γραφική αναπαράσταση πληροφορίας

Ορισμός 6 Διαδικασία ημι-αυτόματης ανάλυσης μεγάλου όγκου δεδομένων για ανίχνευση προτύπων που είναι: Έγκυρα: ισχύουν με κάποια βεβαιότητα και για νέα δεδομένα Καινούρια: μη-προφανή για το σύστημα Χρήσιμα: επιτρέπουν ενέργειες Κατανοητά: μπορούν να ερμηνευθούν από ανθρώπους Διαδικασία γνωστή και ως Knowledge Discovery in Databases (KDD)

Data Mining σε τι είδους data; 7 RBDMS Data Warehouses Transactional DB Advanced DB Systems Object relational Spatial and Temporal Time-Series Multimedia Text Heterogeneous WWW Structure - 3D Anatomy Function D Signal Metadata Annotation GeneFilter Comparison Report GeneFilter Name: GeneFilter Name O2# 8-20-99adjfinal N2#finaladj INTENSITIES RAW NORMALIZED ORF NAME GENE NAME CHRM F G R YAL00C TFC3 A 2 2.03 7.38 YBL080C PET2 2 A 3 53.2 YBR54C RPB5 2 A 4 79.26 78.5 YCL044C 3 A 5 53.22 44.66

Γιατί χρειαζόμαστε data mining; 8 Μεγάλος όγκος δεδομένων για παραδοσιακές προσεγγίσεις ανάλυσης: Τεράστιος αριθμός αρχείων (08 02 bytes) Πολυδιάστατα δεδομένα ( 02 04 γνωρίσματα) Πώς θα διερευνήσουμε εκατομμύρια αρχεία και εκατοντάδες πεδία για να εντοπίσουμε πρότυπα; Web and NLP 23/4/203

Γιατί χρειαζόμαστε data mining; 9 Αξιοποίηση διαθέσιμων δεδομένων Μικρό ποσοστό (5% -0%) των δεδομένων αναλύεται Δεδομένα που δεν αναλύονται συλλέγονται μήπως και χρειαστούν μελλοντικά Ο ρυθμός ανάπτυξης των δεδομένων αποκλείει την παραδοσιακή χειρωνατική επεξεργασία Web and NLP 23/4/203

Γιατί χρειαζόμαστε data mining; 0 Όσο αυξάνεται η πληροφορία τόσο ελαττώνεται η δυνατότητα υποστήριξης λήψης αποφάσεων με παραδοσιακές γλώσσες ερωτημάτων Βρες όλες τις περιπτώσεις απάτης Βρες όσους είναι πιθανό να αγοράσουν Ford Βρες όλα τα έγγραφα που ενδιαφέρουν το χρήστη Α (Latitude, Longitude) 2 QUERY RESULT (Latitude, Longitude)

Data Mining Εφαρμογές

Εφαρμογές data mining 2 Ανάλυση αγορών (Market analysis) Ανάλυση και διαχείριση κινδύνου Fraud / outliers detection Text mining Stream data mining Ανάλυση DNA και βιο-δεδομένων

Ανάλυση Αγορών 3 Πηγές πληροφοριών Συναλλαγές πιστωτικών καρτών, κουπόνια, κτλ Target marketing Ομάδες πελατών με κοινά γνωρίσματα (π.χ. αγορές, εισόδημα) Cross-market analysis Συσχετίσεις μεταξύ πωλήσεων και προβλέψεις Προφίλ πελατών Ποιοι πελάτες αγοράζουν ποια προϊόντα Ανάλυση απαιτήσεων πεταλών Ποια τα καλύτερα προϊόντα για κάθε πελάτη Πρόβλεψη στοιχείων για προσέλκυση νέων πελατών

Fraud Detection 5 Προσεγγίσεις: Ομαδοποίηση και μοντελοποίηση frauds, ανάλυση outliers Εφαρμογές: Υγεία, εμπόριο, πιστωτικές κάρτες, τηλεπικοινωνίες Ξέπλημα χρήματος, ύποπτες οικονομικές συναλλαγές Ιατρική περίθαλψη Ασθενείς, γιατροί, αναφορές Συσχετιζόμενες ιατρικές εξετάσεις Τηλεπικοινωνίες Μοντέλο κλήσης: προορισμός κλήσης, διάρκεια, ώρα, μέρα. Ανάλυση προτύπων που αποκλίνουν από την αναμενόμενη νόρμα Εμπόριο Αναλυτές εκτιμούν πως το 38% του εμπορίου παρακμάζει λόγω ανέντιμων εργοδοτών Αντι-τρομοκρατική

KDD διαδικασία 6 Κατανόηση πεδίου εφαρμογής Σχετική προγενέστερη γνώση, κριτήρια επιτυχίας, περιορισμοί, ορολογία... Δημιουργία δεδομένων στόχου Συλλογή αρχικών δεδομένων, περιγραφή, μεταβλητές υποκειμένων, ποιότητα δεδομένων Προεπεξεργασία, καθαρισμός δεδομένων Απομάκρυνση θορύβου, outliers, χρονική ακολουθία πληροφορίας, γνωστές τάσεις Μείωση δεδομένων και προβολή Επιλογή υποσυνόλου γνωρισμάτων, δημιουργία γνωρισμάτων, συναθροίσεις Precision Farming Filter

KDD διαδικασία 7 Επιλογή εργασίας Κατηγοριοποίηση, ανίχνευση απόκλισης, ανάλυση links Επιλογή data mining προσέγγισης Data mining για εξαγωγή προτύπων και/ή μοντέλων Ερμηνεία και αξιολόγηση προτύπων και/ή μοντέλων Συγχώνευση της γνώσης που ανακαλύφθηκε

8 Ανακάλυψη γνώσης

Απαιτούμενη προσπάθεια 9 Τα βέλη δείχνουν την κατεύθυνση διοχέτευσης της προσπάθειας

Market Basket Analysis Association Rules

Ορισμός market basket analysis 2 Ανάλυση Πελατών Πληροφορία για τις αγορές του πελάτη για να βρει το προφίλ του και γιατί πραγματοποιεί αυτές τις αγορές Ανάλυση προϊόντων Πληροφορία για το ποια προϊόντα αγοράζονται μαζί και ποια είναι πιο πιθανό να αγοραστούν

Το καλάθι αγορών 22? Πού να τοποθετούνται τα απορρυπαντικά για να αυξηθούν οι πωλήσεις;? Αγοράζουμε καθαριστικό τζαμιών όταν έχουμε πάρει απορρυπανικό πιάτων και χυμό;? Συνήθως αγοράζουμε αναψυκτικά και μπανάνες μαζί; Έχει σημασία η μάρκα αναψυκτικού; Πόσο επηρεάζουν οι άλλοι τις αγορές μας;

Κανόνες Συσχέτισης 23 Για την ανάλυση του καλαθιού αγορών και την εξόρυξη δεδομένων χρησιμοποιούμε κανόνες συσχέτισης Έστω Μια βάση δεδομένων με συναλλαγές Κάθε συναλλαγή περιέχει ένα σύνολο αντικειμένων Βρες όλους τους κανόνες XY που συσχετίζουν την παρουσία ενός συνόλου αντικειμένων X με ένα άλλο σύνολο αντικειμένων Y Παράδειγμα: όταν ο πελάτης αγοράζει ψωμί και βούτυρο αγοράζει και γάλα σε 85% των περιπτώσεων +

Και τα αποτελέσματα; 24 Εύκολο να κατανοήσουμε τους κανόνες συσχέτισης όμως τα αποτελέσματα όχι πάντα έγκυρα Χρήσιμο: τις Παρασκευές οι πελάτες των supermarkets ψωνίζουν πάνες και μπύρες μαζί Προφανές: οι πελάτες που συνάπτουν συμβόλαια συντήρησης είναι πιθανό να αγοράσουν ηλεκτρικές συσκευές Ανεξήγητο: συνήθως αγοράζουμε ηλεκτρικούς λαμπτήρες από ένα πολυκατάστημα που μόλις άνοιξε

Ας δούμε πώς δουλεύει... 25 Grocery Point-of-Sale Transactions Customer 2 3 4 5 Items Orange Juice, Soda Milk, Orange Juice, Window Cleaner Orange Juice, Detergent Orange Juice, Detergent, Soda Window Cleaner, Soda Co-Occurrence of Products OJ OJ 4 Window Cleaner Milk Soda 2 Detergent Window Cleaner Milk Soda Detergent 2 0 0 0 2 0 3 0 0 2

Ας δούμε πώς δουλεύει... 26 Ο πίνακας συνεμφάνισης περιέχει απλά πρότυπα Χυμός και αναψυκτικά: μεγάλη πιθανότητα να αγοραστούν μαζί Καθαριστικά δεν αγοράζονται μαζί με γάλα Το γάλα δεν αγοράζεται ποτέ μαζί με αναψυκτικά Οι απλές παρατηρήσεις είναι παραδείγματα συσχετίσεων και συνάγουν κανόνες του τύπου: ΑΝ ο πελάτης αγοράσει αναψυκτικό ΤΟΤΕ θα αγοράσει και χυμό OJ Window Cleaner Milk Soda Detergent OJ 2 0 Window Cleaner Milk Soda Detergent 4 2 0 0 2 0 3 0 0 2

Πόσο καλά είναι τα αποτελέσματα; 27 2 από τις 5 συναλλαγές αφορούν σε αναψυκτικά και χυμό. Αυτές επιβεβαιώνουν τον κανόνα κατά 40% Εφόσον και οι 2 συναλλαγές για αναψυκτικά περιέχουν και χυμό υπάρχει μεγάλη σιγουριά για τον κανόνα. Κάθε συναλλαγή που περιέχει αναψυκτικό έχει και χυμό. Άρα, ο κανόνας: ΑΝ αναψυκτικό TΟΤΕ χυμός έχει σιγουριά 00%.

Πόσο καλοί είναι οι κανόνες; 28 Ένας κανόνας πρέπει να έχει την ελάχιστη εμπιστοσύνη που δηλώνει ο χρήστης και 2 3 έχει 90% εμπιστοσύνη αν όταν ο πελάτης αγόρασε τα και 2, στο 90% των περιπτώσεων αγόρασε και το 3 Ένας κανόνας πρέπει να έχει την ελάχιστη υποστήριξη που δηλώνει ο χρήστης και 2 3 πρέπει να ισχύει σε κάποιο ελάχιστο ποσοστό συναλλαγών για να έχει κάποια αξία

Σιγουριά και Υποστήριξη 29 Transaction ID # 2 3 4 Items {, 2, 3 } {,3 } {,4 } { 2, 5, 6 } Για ελάχιστη υποστήριξη = 50% = 2 συναλλαγές Και ελάχιστη εμπιστοσύνη = 50% Frequent One Item Set { } { 2 } { 3 } { 4 } Frequent Two Item Set {,2 } {,3 } {,4 } { 2,3 } Support 75 % 50 % 50 % 25 % Support 25 % 50 % 25 % 25 % Για τον κανόνα 3: Υποστήριξη = Υποστήριξη ({,3}) = 50% εμπιστοσύνη ( 3) = Υποστήριξη ({,3})/ Υποστήριξη ({}) = 66% εμπιστοσύνη (3 )= εμπιστοσύνη ({,3})/ εμπιστοσύνη ({3}) = 00%

Βασική διεργασία 30 Επιλογή σωστού συνόλου δεδομένων Ταξινομίες Δημιουργία κανόνων ΑΝ συνθήκη ΤΟΤΕ αποτέλεσμα Άρνηση Αντιμετώπιση προβλημάτων από μεγάλο όγκο προϊόντων με Pruning Ελάχιστης Υποστήριξης

Επιλέγοντας τα σωστά δεδομένα 3 Partial Product Taxonomy General Frozen Yogurt Frozen Desserts Frozen Foods Frozen Vegetables Frozen Dinners Ice Frozen Cream Fruit Bars Peas Carrots Mixed Other Specific Chocolate Strawberry Vanilla Rocky Road Cherry Garcia Other

Pruning ελάχιστης υποστήριξης / δημιουργία κανόνων 32 Scan Database Find Pairings Find Level of Support Transaction ID # Items Itemset Support Itemset Support {, 3, 4 } { } 2 { 2 } 3 2 { 2, 3, 5 } { 2 } 3 { 3 } 3 3 {, 2, 3, 5 } { 3 } 3 { 5 } 3 4 { 2, 5 } { 4 } { 5 } 3 Scan Database Find Pairings Find Level of Support Itemset Itemset Support Itemset Support { 2 } { 2, 3 } 2 { 2, 5 } 3 { 3 } { 5 } { 2, 5 } { 3, 5 } 3 2 Δύο κανόνες με μέγιστη υποστήριξη για δύο σύνολα αντικειμένων: 2 5 και 52

Πλεονεκτήματα market basket ανάλυσης 33 Κατανοητά αποτελέσματα Υποστήριξη μη κατευθυνόμενης εξόρυξη δεδομένων Κατάλληλη για μεταβλητού μεγέθους δεδομένα Εύκολος ο υπολογισμός των κανόνων

Μειονεκτήματα market basket ανάλυσης 34 Εκθετικά αυξανόμενος αλγόριθμος Δύσκολος ο καθορισμός του βέλτιστου αριθμού αντικειμένων Αναποτελεσματική για σπάνια αντικείμενα

Data Mining Εκμάθηση δέντρων απόφασης

Παράδειγμα 36 Web and NLP 23/4/203

Εκμάθηση δέντρων απόφασης 37 Εκκίνηση με την πληροφορία του κόμβου ρίζας Επιλογή γνωρίσματος και διενέργεια λογικού ελέγχου στο γνώρισμα Διακλάδωση για κάθε αποτέλεσμα ελέγχου, μετακίνηση του υποσυνόλου παραδειγμάτων που ικανοποιούν το αποτέλεσμα στον αντίστοιχο κόμβοπαιδί Αναδρομή για κάθε κόμβο-παιδί Κανόνας τερματισμού ορίζει πότε θα δηλωθεί ένας κόμβος ως φύλλο Διαδικασία αναζήτησης ένα-βήμα-μπροστά, χωρίς backtracking Βασικά Βήματα Καθορισμός λογικών ελέγχων Επιλογή μετρικής για τα γνωρίσματα

Δέντρα απόφασης 38 Κατηγοριοποιητές Εμφανίσεις (unlabeled παραδείγματα): αναπαρίστανται ως διανύσαματα γνωρισμάτων Εσωτερικοί κόμβοι: Έλεγχοι για τις τιμές των γνωρισμάτων Τυπικός: έλεγχος ισότητας (π.χ., Wind =? ) Ανισότητα και άλλοι έλεγχοι είναι δυνατοί Κλαδιά: Τιμές γνωρισμάτων Ένα-προς-ένα αντιστοίχιση (π.χ., Wind = Strong, Wind = Light ) Φύλλα: κατηγοριοποιήσεις (Class Labels)

Δέντρο απόφασης: Play Tennis 39 Outlook? Sunny Overcast Rain Humidity? Yes Wind? High Normal Strong Light No Yes No Yes

Δέντρα απόφασης και όρια αποφάσεων 40 Πώς κάνουμε Visualize τα δέντρα απόφασης; Παράδειγμα: διαρούμε τον χώρο των εμφανίσεων σε τετράγωνα παράλληλα στον άξονα y 7 + + No x < 3? Yes 5 y > 7? y < 5? - + - - No Yes + + No Yes x <? 3 x No Yes + - Πάνω από δύο μεταβλητές;

Πλεονεκτήματα Δέντρων Απόφασης 4 Παράγουν κατανοητά αποτελέσματα Κατηγοριοποιούν με μικρή υπολογιστική πολυπλοκότητα Χειρίζονται συνεχείς και κατηγορικές μεταβλητές Υποδηλώνουν ποια γνωρίσματα είναι τα πιο σημαντικά για πρόβλεψη ή κατηγοριοποίηση

Μειονεκτήματα Δέντρων Απόφασης 42 Επιρρεπή σε λάθη όταν έχουμε πολλές κλάσεις Ο γρήγορος διαμοιρασμός των δεδομένων οδηγεί σε δραστική μείωση της ποιότητας των γνωρισμάτων που επιλέγονται Προβλήματα με μη-τετράγωνες περιοχές

...στο επόμενο μάθημα 43 Opinion mining

Ερωτήσεις 44 Ευχαριστώ!!! Acknowledgement: Slides Σοφία Στάμου Peter Bajcsy