Εξόρυξη Γνώσης από εδοµένα (data mining)



Σχετικά έγγραφα
Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Τεχνικές Εξόρυξης Δεδομένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ανάκτηση Πληροφορίας

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εξόρυξη Δεδομένων Data Mining

µεθόδων αυτών, είναι απαραίτητη η δηµιουργία αντιπροσωπευτικού δείγµατος του Ιστού. Στόχος της εργασίας είναι η υλοποίηση και αξιολόγηση µεθόδων δειγµ

Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυµα Θεσσαλονίκης

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΚΑΤΑΛΟΓΟΣ ΙΑΦΗΜΙΣΗΣ 2011

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Χρήστος Στασινός. ουλεύοντας με τη. Microsoft Access ΑΘΗΝΑ

4.2.1 Α εξάμηνο Β εξάμηνο Γ εξάμηνο 4.2. ΣΥΝΟΠΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΑΝΑ ΕΞΑΜΗΝΟ

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Προπτυχιακές και μεταπτυχιακές εργασίες Σεπτέμβριος 2008

Περιβαλλοντική πληροφορική - Ευφυείς εφαρµογές

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Πληροφορική 2. Τεχνητή νοημοσύνη

ΑΞΙΟΠΟΙΗΣΗ ΑΝΟΙΧΤΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΓΙΑ ΕΥΦΥΕΙΣ ΔΗΜΟΥΣ

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό (Hardware) - Λογισµικό (Software) 23 Ιστορική Εξέλιξη

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Αριστοµένης Μακρής Εργαστήρια Η/Υ

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό - Λογισµικό 23 Ιστορική Εξέλιξη των Η/Υ 23 Γενιές

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Περιεχόµενα. 1 Tο βιβλίο "µε µια µατιά" Εισαγωγή στη Microsoft Access Γνωριµία µε τις βάσεις δεδοµένων της Access...

Τα εµπλουτισµένα ηλεκτρονικά βιβλία Πληροφορικής Γυµνασίου και η ένταξή τους στην εκπαιδευτική πρακτική

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Πληροφοριακά Συστήματα Διοίκησης

International Diploma in IT Skills Proficiency Level

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Τεχνολογία Λογισµικού Ι Κεφάλαιο 3 Μια αναλυτικότερη προσέγγιση στην δραστηριότητα 3.10

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Εισαγωγή στην Ιατρική Πληροφορική

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Εισαγωγή στις Τεχνολογίες της

Ευφυής Προγραμματισμός

ΚΕΝΤΡΟ ΕΚΠΑΙ ΕΥΣΗΣ ΕΝΗΛΙΚΩΝ ΣΑΜΟΥ. ΙΕΥΘΥΝΣΗ ΚΑΡΜΑΝΙΟΛΩΝ. ΠΟΛΗ ΚΑΡΛΟΒΑΣΙ. Τ.Κ83200 ΤΗΛ , FAX ,

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Β Εξάµηνο Τίτλος Μαθήµατος Θ Φ Α.Π Ε Φ.E. Π.Μ Προαπαιτούµενα

Ενότητες Γ3.1 - Γ3.2 - Γ3.3

Προτεινόμενες Διπλωματικές Εργασίες 2009

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Ανάπτυξη Πληροφοριακών Συστηµάτων Επισκόπηση Π.Σ. & τεχνικές για Ανάλυση και Ανάπτυξη. πληροφοριακών συστηµάτων

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περίγραµµα παρουσίασης

Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων».

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

«ΣΥΓΧΡΟΝΑ ΕΡΓΑΛΕΙΑ, ΤΕΧΝΙΚΕΣ ΚΑΙ ΜΕΘΟΔΟΛΟΓΙΕΣ ΓΙΑ ΤΟ ΧΑΡΑΚΤΗΡΙΣΜΟ ΚΥΒΕΡΝΟΕΠΙΘΕΣΕΩΝ ΚΑΙ ΚΑΚΟΒΟΥΛΟΥ Λ ΟΓΙΣΜΙΚΟΥ»

Πρώτο Κεφάλαιο Φάσεις & Μοντέλα ένταξης των ΤΠΕ στην Εκπαίδευση Εκπαιδευτική Τεχνολογία: η προϊστορία της πληροφορικής στην εκπαίδευση 14

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ»

Τεχνητή Νοημοσύνη. Ένας καταλύτης ανάπτυξης. Γιώργος Γιαννακόπουλος, PhD ΕΚΕΦΕ Δημόκριτος και SciFY ΑΜΚΕ Μέλος ΔΣ της ΕΕΤΝ

Hotel Perrakis Όροι χρήσης

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

TEC410 Ανάπτυξη Δικτυακών Τόπων (Δ εξάμηνο) Διδάσκων: Ανδρέας Γιαννακουλόπουλος Επιστημονικός συνεργάτης Εργαστηρίου: Στέλλα Λάμπουρα

Υποστήριξη στη ιαχείριση Γνώσης

8 ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΚΑΘΗΓΗΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

Εισαγωγή στα Πληροφοριακά Συστήματα

Το εμπόριο που πραγματοποιείται με ηλεκτρονικά μέσα, δηλαδή μια ολοκληρωμένη συναλλαγή που

ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μαθησιακές δραστηριότητες με υπολογιστή

Μονιµοποίηση κ. Nόβα ηµήτριου, Καθηγητή Εφαρµογών του Τµήµατος, µε ειδικότητα στα Μαθηµατικά και εξειδίκευση στα Πληροφοριακά Συστήµατα Μάρκετινγ».

GoDigital.Store E-Commerce Platform

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ. Διεύθυνση Σπουδών ΩΡΕΣ ΑΙΘΟΥΣΕΣ ΕΞ.-ΤΥΠΟΣ ΜΑΘΗΜΑ ΤΜΗΜΑ ΚΩΔΙΚΟΣ. Πέμπτη, 01/09/2016

Manual Χρήσης της εφαρμογής PK Data Software 1.2

Ησυνδυαστικήαναζήτηση& ο ρόλος της στην εκπαιδευτική διαδικασία: το παράδειγμα του Livesearch

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Transcript:

Εξόρυξη νώσης από εδοµένα (data mining) Ε.Κ.Ε.Φ.Ε. ηµόκριτος Ινστ. Πληροφορικής και Τηλεπικοινωνιών εώργιος Παλιούρας Email: paliourg@iit.demokritos.gr WWW: http://www.iit.demokritos.gr/~paliourg

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

Τι είναι εξόρυξη γνώσης Τεχνολογία αιχµής για: την αποτελεσµατικότερη ανάλυση των δεδοµένων και την αποκάλυψη νέων σχέσεων π.χ. πρότυπα συµπεριφοράς πελατών. Στοχεύει στην υποστήριξη στρατηγικών αποφάσεων. Χρησιµοποιεί τεχνικές: µηχανικής µάθησης (machine learning) επαγωγικής εξαγωγής συµπερασµάτων (inductive inference) διαχείρισης µεγάλων και ετερογενών βάσεων δεδοµένων.

Τι ΕΝ είναι εξόρυξη γνώσης εδοµένα (π.χ. βάση πελατών) Ανάκτηση πληροφορίας Εξόρυξη νώσης Πληροφορία (π.χ. αναφορά πωλήσεων) νώση (π.χ. αγοραστικά µοντέλα)

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

Χρήση πληροφοριών από κάρτες πελατών σε πολυκαταστήµατα ύο παραδείγµατα: Πρόταση αγορών σε προσωπικό επίπεδο, για κάθε επίσκεψη Στοχευόµενη διαφήµιση για τις εορταστικές περιόδους.

Πρόταση αγορών Κατά την είσοδο του στο κατάστηµα, ο πελάτης Χ, εισάγει την κάρτα του σε µηχάνηµα που εκτυπώνει έναν προσωπικό κατάλογο προτεινοµένων προϊόντων. Η σύνταξη της προσωπικής πρότασης αγορών, βασίζεται στην ανάλυση της αγοραστικής συµπεριφοράς του πελάτη Χ και τη συσχέτιση του µε µία οµάδα οµοίων πελατών. Αυτό επιτυγχάνεται µε τις τεχνικές εξόρυξης, για οµαδοποίηση πελατών (customer clustering).

Στοχευόµενη διαφήµιση Η ανάλυση αγορών δείχνει ότι: οι οικογένειες µε ενήλικα παιδιά, που διαµένουν στα Βόρεια Προάστεια, ξοδεύουν περί τα 50 Ευρώ σε ποτά και παρεµφερή είδη µέσα στο εκέµβρη, πριν τα Χριστούγεννα. Η Χριστουγεννιάτικη διαφηµιστική εκστρατία στα Βόρεια Προάστεια µπορεί να στοχεύει σ αυτούς τους πελάτες. Η ανάλυση αυτή επιτυγχάνεται µε τη χρήση τεχνικών εξόρυξης για οµαδοποίηση πελατών και συσχέτιση προϊόντων.

Υποστήριξη λήψης αποφάσεων σε ασφαλιστικές εταιρείες ύο παραδείγµατα: Αποκάλυψη απάτης (fraud detection) Εκτίµηση κινδύνου (risk assessment)

Αποκάλυψη απάτης Πρόβληµα: Απόκρυψη χρήσης αυτοκινήτου από νεαρό οδηγό. Στόχος: Υπολογισµός της πιθανότητας να υπάρχει νεαρός οδηγός, ο οποίος δεν δηλώνεται για κάθε νέο ασφαλιστήριο. Λύση: Κατασκευή µοντέλου ταξινόµησης νέων ασφαλιστηρίων µε βάση προσωπικά στοιχεία για τον κύριο ασφαλισµένο, τα υπόλοιπα µέλη της οικογένειας, καθώς και δηµογραφικά στοιχεία. Αυτό επιτυγχάνεται µε τις τεχνικές εξόρυξης, για κατηγοριοποίηση (classification).

Εκτίµηση κινδύνου Στόχος: Καθορισµός οµάδων πελατών σε διάφορα επίπεδα κινδύνου και χαρακτηρισµός των οµάδων µε βάση προσωπικά και δηµογραφικά χαρακτηριστικά των οµάδων. Λύση: ηµιουργία µοντέλων για οµάδες πελατών που ανήκουν σε διαφορετικά επίπεδα κινδύνου. Η ανάλυση αυτή επιτυγχάνεται µε τη χρήση τεχνικών εξόρυξης για οµαδοποίηση (clustering).

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

ιαδικασία εξόρυξης γνώσης Κατανόηση προβλήµατος Επιλογή και διαµόρφωση δεδοµένων τεχνικός κύκλος κύκλος εφαρµογής Μάθηση Παρουσίαση και αξιολόγηση αποτελεσµάτων Εφαρµογή

Είδη και τεχνικές µάθησης Υπό επίβλεψη Κατηγοριοποίηση (classification) decision trees & rules, multi-layer layer perceptrons,, logistic regression Πρόβλεψη (prediction) regression trees, multi-layer layer perceptrons,, time-series analysis Οµαδοποίηση (clustering) Χωρίς επίβλεψη conceptual clustering, self-organising maps, statistical clustering Συσχέτιση (associations) association rules, association networks

Ν ΝΑΙ Προσεγγίσεις µοντελοποίησης ηλικία>30 Συµβολικές έντρα Αποφάσεων Ο Ε οικ. κατ. ΟΧΙ Α Τ Α φύλο Κανόνες Συσχέτισης (Ηλικία<=30) & (Οικ( Οικ:Τ) -> > (Φύλο( Φύλο:) (Ηλικία<=30) & (Οικ( Οικ:Π) -> > (Φύλο( Φύλο:) ΟΧΙ ΟΧΙ ΝΑΙ... Αριθµητικές/Στατιστικές Νευρωνικά δίκτυα Στατιστικοί ταξινοµητές ν ο Φύλο ΝΑΙ ΟΧΙ Φ Η Ε Α Τ ΑΠ ΧΟ ΧΑ Α 20 25 30 Ηλικία

έντρα Αποφάσεων Ηλικία 27 40 25 32 35 38 26 30 Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι 3 2 3 3 Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ

έντρα Αποφάσεων Ηλικία 27 40 25 32 35 38 26 30 Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι 0 1 1 Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ

έντρα Αποφάσεων Ηλικία 27 40 25 32 35 38 26 30 Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι 0 0 1 Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ

έντρα Αποφάσεων Οικογ. κατ. Έγγαµος Με τέκνα Άγαµος Ηλικία>=30 ΟΧΙ Φύλο Ναι Οχι Α ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ

Κανόνες συσχέτισης Ηλικία Οικογ. Κατ. Φύλο Περιοχή <=30 (27) Άγαµος Α Αγ. Παρ. 30-40 (40) Άγαµος Χαλάνδρι <=30 (25) Έγγαµος Χολαργός 30-40 (32) Με τέκνα Α Χαλάνδρι 30-40 (35) Έγγαµος Α Αγ. Παρ. 30-40 (38) Έγγαµος Χολαργός <=30 (26) Με τέκνα Αγ. Παρ. <=30 (30) Με τέκνα Χαλάνδρι

Κανόνες συσχέτισης Φύλο: Ηλικία: : <= 30 Ηλικία: : 30-40 Οικ. κατ.: Έγγαµος Οικ. κατ.: Με τέκνα Φύλο: Α Περιοχή: Αγ. Παρ. Περιοχή: Χαλάνδρι Περιοχή: Χολαργός Οικ. κατ.: Άγαµος Στήριξη 0,625 0,5 0,5 0,375 0,375 0,375 0,375 0,375 0,25 0,25 (Φ: ) ) & (Η:( : <= 30) (Φ: ) ) & (Η:( : 30-40) (Φ: ) ) & (Η:( : 30-40)... Στήριξη 0,375 0,25 0,25 Ηλικία: : <= 30 & Οικ. κατ.: (Με( τέκνα ή Έγγαµος) -> Φύλο: Στήριξη: : 0,375 Βεβαιότητα: : 1,0

Οµαδοποίηση Ηλικία <=30 (27) 30-40 (40) <=30 (25) 30-40 (32) 30-40 (35) 30-40 (38) <=30 (26) <=30 (30) Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι Οµάδα 3 3 1 2 2 2 1 1

Οµαδοποίηση Οµάδα 1: Φύλο:, Ηλικία: : <= 30, Οικ. κατ.: (Με( τέκνα ή Έγγαµος), Περιοχή: : (Αγ( Αγ. Παρ ή Χολαργός) Οµάδα 2: Ηλικία: : 30-40, Οικ. κατ.: (Με( τέκνα ή Έγγαµος), Περιοχή: : (Αγ( Αγ. Παρ ή Χαλάνδρι) Οµάδα 3: Οικ. κατ.: Άγαµος, Περιοχή: : (Αγ( Αγ. Παρ. ή Χαλάνδρι)

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

Ενδιαφέροντα Χαρακτηριστικά του Παγκόσµιου Ιστού Πληθώρα δεδοµένων: : 1 τάξη µεγέθους περισσότερα από τις µεγάλες βάσεις δεδοµένων. Κατανεµηµένη και όχι καλά ορισµένη δοµή. Ταχύτατη µεταβολή της πληροφορίας. Απαιτούνται έξυπνα εργαλεία πρόσβασης στην πληροφορία.

Είδη δεδοµένων στον Ιστό Πρωτογενή δεδοµένα (περιεχόµενο και δοµή του Ιστού): Κυρίως κείµενο, µε αυξανόµενες ποσότητες πολυµεσικού υλικού, εντολές µορφοποίησης (mark-up) up), και υπερ-σύνδεσµοι (hyperlinks). Υποστηρικτικές Β.. (µόνο έµµεσα προσβάσιµες). ευτερογενή δεδοµένα (χρήση του Ιστού): Αρχεία καταγραφής σε εξυπηρετητές (Web servers) και διαµεσολαβητές (Web proxies). εδοµένα πλοήγησης από τους πελάτες (Web clients).

Εξόρυξη γνώσης από τον Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Κυρίως εξόρυξη από αδόµητα και ηµιδοµηµένα κειµενικά δεδοµένα. Εξόρυξη γνώσης από τη δοµή του Ιστού Εντοπισµός προτύπων στη διασύνδεση των ιστοσελίδων. Εξόρυξη γνώσης από τη χρήση του Ιστού Κυρίως εξόρυξη από αρχεία καταγραφής σε εξυπηρετητές.

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

Εφαρµογές εξόρυξης από τα περιεχόµενα του Ιστού Εκµάθηση ταξινοµητών εγγράφων (text classification) Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων. ηµιουργία εννοιολογικών ιεραρχιών (ontology learning) Καθορισµός των κατηγοριών του Yahoo! ή του Google. Εκµάθηση κανόνων για εξαγωγή πληροφορίας από ιστοσελίδες (wrapper induction) Περιληπτική παρουσίαση στοιχείων για προϊόντα.

Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων Πηγή: ιαφηµίσεις, που αποστέλλονται µαζικά σε χιλιάδες παραλήπτες. Εκτίµηση: > 50% 5 της εισερχόµενης αλληλογραφίας σε επιχειρησιακά δίκτυα. Προβλήµατα που δηµιουργεί: Χάσιµο χρόνου και υπολογιστικών πόρων. Οικονοµικό κόστος για dial-up συνδέσεις. Έκθεση σε ενοχλητικό περιεχόµενο.

Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων Φιλτράρισµα: κατηγοριοποίηση µηνυµάτων σε επιθυµητά και µη. Υπάρχοντα συστήµατα: «µαύρες λίστες» αποστολέων και λέξεις κλειδιά. Ανάγκη για προσαρµοζόµενα ευφυή συστήµατα φιλτραρίσµατος. Η νέα προσέγγιση: εξόρυξη γνώσης από µηνύµατα των δύο κατηγοριών.

Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων ιαδικασία 1. Συλλογή δεδοµένων για τις δύο κατηγορίες µηνυµάτων. 2. λωσσική προεπεξεργασία: αφαίρεση κοινών λέξεων και εύρεση ληµµάτων. 3. Αναπαράσταση των µηνυµάτων ως διανύσµατα στον χώρο των λέξεων. 4. Στατιστική επιλογή χαρακτηριστικών. 5. Εκµάθηση φίλτρου (π.χ. δέντρου αποφάσεων). 6. Ενσωµάτωση του φίλτρου στον εξυπηρετητή.

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

Εφαρµογές εξόρυξης από τη δοµή του Ιστού Βελτίωση της ακρίβειας αναζήτησης πληροφορίας. Αξιολόγηση σηµαντικότητας των ιστοσελίδων µε βάση τους υπερ-συνδέσµους από και προς αυτές (π.χ. Google). ηµιουργία θεµατικά-εστιασµένων εστιασµένων εργαλείων συλλογής ιστοσελίδων (crawlers, spiders). Αξιολόγηση ενδιαφέροντος των υπερ-συνδέσµων σε µία σελίδα. οµική ανάλυση και βελτίωση της δοµής ενός ιστιακού τόπου.

Βελτίωση της ακρίβειας αναζήτησης πληροφορίας Σελίδες που «δείχνονται» από πολλές άλλες, περιέχουν χρήσιµη πληροφορία (authorities). Σελίδες που δείχνουν σε πολλά authorities είναι καλά σηµεία εκκίνησης για την πλοήγηση (hubs). HITS: Επαναληπτικός αλγόριθµος υπολογισµού βαρών hubs και authorities.

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

Εφαρµογές εξόρυξης από τη χρήση του Ιστού Εξατοµικευµένη ανάκτηση και εξαγωγή πληροφορίας. Φιλτράρισµα της ανακτόµενης πληροφορίας µε βάση τα ενδιαφέροντα του χρήστη. υναµικοί (εξατοµικευµένοι) ιστιακοί τόποι. Κανόνες συσχέτισης ιστοσελίδων µε βάση τους χρήστες που τις επισκέπτονται. Κατηγοριοποίηση πελατών και στοχευόµενη διαφήµιση. ηµιουργία οµάδων πελατών µε κοινή αγοραστική συµπεριφορά.

Εξατοµικευµένο φιλτράρισµα πληροφορίας πηγές εξυπηρετητής παραλήπτες

Συνεργατικό φιλτράρισµα πληροφορίας Φιλτράρισµα µε βάση τις επιλογές οµάδων µε κοινά ενδιαφέροντα. Τεχνικές φιλτραρίσµατος µε χρήση αποµνηµόνευσης (memory-based Collaborative Filtering). Τεχνικές φιλτραρίσµατος µε βάση µοντέλα κοινοτήτων (model-based Collaborative Filtering).

Φιλτράρισµα µε αποµνηµόνευση 1 αθλητικά 0 πολιτικά 1

Φιλτράρισµα µε κοινότητες 1 αθλητικά 0 πολιτικά 1

Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα

Συµπεράσµατα Τα δεδοµένα κρύβουν πολύτιµη γνώση. Ευφυείς µέθοδοι είναι απαραίτητες για την εξόρυξη αυτής της γνώσης. Η µηχανική µάθηση, ενταγµένη στη διαδικασία της εξόρυξης γνώσης από δεδοµένα, παρέχει ικανοποιητική λύση.

Ανοιχτά θέµατα Κλιµάκωση των µεθόδων σε τεράστιους όγκους δεδοµένων (βλ. Παγκόσµιο Ιστό). Επαυξητικές µέθοδοι µάθησης (incremental learning) για αντιµετώπιση της δυναµικότητας (βλ. Παγκόσµιο Ιστό). Ενσωµάτωση µεθόδων εξόρυξης γνώσης σε ολοκληρωµένα συστήµατα. Καλύτερες µέθοδοι εξόρυξης γνώσης από γράφους (βλ. Παγκόσµιο Ιστό). Προστασία των προσωπικών δεδοµένων σε εξατοµικευµένα συστήµατα.

4 ο Πανελλήνιο Συνέδριο Τεχνητής Νοηµοσύνης (ΣΕΤΝ 06) Ηράκλειο, Κρήτη, Μάιο 2006 Ελληνική Εταιρεία Τεχνητής Νοηµοσύνης (ΕΕΤΝ) Πανεπιστήµιο Κρήτης Ίδρυµα Τεχνολογίας και Έρευνας 18 ο Ευρωπαϊκό Συνέδριο Τεχνητής Νοηµοσύνης (ECAI 08) Πανεπιστήµιο Πατρών, 21-25 Ιουλίου 2008 Ελληνική Εταιρεία Τεχνητής Νοηµοσύνης (ΕΕΤΝ) Πανεπιστήµιο Πατρών