Μπιτσάκη Αντωνία-Χρυσάνθη Ταουσάκος Θανάσης

Σχετικά έγγραφα
Δέντρα Απόφασης (Decision(

Ελένη Πύλια Κατερίνα Σωτηράκη

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές

Κυκλώματα και βασικές Ιδιότητες

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΗΥ360 Αρχεία και Βάσεις εδοµένων

Διδάσκων: Παναγιώτης Ανδρέου

Πολυπλοκότητα. Παράμετροι της αποδοτικότητας ενός αλγόριθμου: Χρόνος εκτέλεσης. Απαιτούμενοι πόροι, π.χ. μνήμη, εύρος ζώνης. Προσπάθεια υλοποίησης

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Δηµοσθένης Σταµάτης Τµήµα Πληροφορικής ΑΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΕΝΤΡΑ (TREES) B C D E F G H I J K L M

Ευφυής Προγραμματισμός

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Άσκηση 3 (ανακοινώθηκε στις 24 Απριλίου 2017, προθεσμία παράδοσης: 2 Ιουνίου 2017, 12 τα μεσάνυχτα).

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

ΤΕΙ ΛΑΜΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ

Υπερπροσαρμογή (Overfitting) (1)

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Περίληψη Λαμπρόπουλος

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Τεχνικές Αποδείξεις Κάτω Φραγμάτων

Διάλεξη 08: Λίστες ΙΙ Κυκλικές Λίστες

Αλγόριθμοι Ταξινόμησης Μέρος 4

Διάλεξη 08: Λίστες ΙΙ Κυκλικές Λίστες

Σειρά Προβλημάτων 5 Λύσεις

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ταξινόμηση. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Επίλυση Προβλημάτων 1

(McCabe, 1976) (1/4) C = e n + 2p 29/4/2009

Γέφυρες σε Δίκτυα. Μας δίνεται ένα δίκτυο (κατευθυνόμενο γράφημα) αφετηριακός κόμβος. Γέφυρα του (με αφετηρία τον ) :

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

H mèjodoc Sturm. Mˆjhma AkoloujÐec Sturm

Προσομοίωση Μοντέλων Επιχειρησιακών Διαδικασιών

4. ΔΙΚΤΥΑ

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 13: Παραλλαγές Μηχανών Turing και Περιγραφή Αλγορίθμων

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Υπολογιστική Πολυπλοκότητα Εξέταση Ιουνίου 2017 Σελ. 1 από 5

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Γλώσσες Χωρίς Συμφραζόμενα

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Cretive Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπ

Προβλήματα Ελάχιστου Κόστους Ροής σε Δίκτυο. Δίκτυα Ροής Ελάχιστου Κόστους (Minimum Cost Flow Networks)

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διάλεξη 11: Δέντρα Ι Εισαγωγή σε Δενδρικές Δομές Δεδομένων

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Heapsort Using Multiple Heaps

Διάλεξη 08: ΛίστεςΙΙ Κυκλικές Λίστες. Διδάσκων: Παναγιώτης Ανδρέου

Merge Sort (Ταξινόμηση με συγχώνευση) 6/14/2007 3:04 AM Merge Sort 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική

4.3 Ορθότητα και Πληρότητα

Αλγόριθμοι Ταξινόμησης Μέρος 3

Ουρά Προτεραιότητας (priority queue)

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

Τυχαιότητα (Randomness) I

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

Ελαφρύτατες διαδρομές

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (3)

Δρομολόγηση Και Πολύχρωματισμός. Γραφημάτων ΚΑΡΑΓΕΩΡΓΟΣ ΤΙΜΟΘΕΟΣ Α.Μ 1026

8. Σωροί (Heaps)-Αναδρομή- Προχωρημένη Ταξινόμηση

Μη γράφετε στο πίσω μέρος της σελίδας

Έξι βαθμοί διαχωρισμού

Ολοκληρωμένα Κυκλώματα

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Κατ οίκον Εργασία 3 Σκελετοί Λύσεων

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Διάλεξη 11: Δέντρα Ι - Εισαγωγή σε Δενδρικές Δομές Δεδομένων

Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μάθηση με παραδείγματα Δέντρα Απόφασης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Δίκτυα ΙΙ. Κεφάλαιο 7

Κατανεμημένα Συστήματα Ι

ΑΣΚΗΣΗ 1 Για τις ερωτήσεις 1-4 θεωρήσατε τον ακόλουθο γράφο. Ποιές από τις παρακάτω προτάσεις αληθεύουν και ποιές όχι;

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Θεωρία Υπολογισμού Άρτιοι ΑΜ. Διδάσκων: Σταύρος Κολλιόπουλος. eclass.di.uoa.gr. Περιγραφή μαθήματος

Θεωρία Υπολογισμού Αρτιοι ΑΜ Διδάσκων: Σταύρος Κολλιόπουλος eclass.di.uoa.gr

Άσκηση 1. Ψευδοκώδικας Kruskal. Παρακάτω βλέπουμε την εφαρμογή του στο παρακάτω συνδεδεμένο γράφημα.

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 2 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

num(m(w 1 ;... ; w k )) = f(num(w 1 ),..., num(w k ))

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Κατ οίκον Εργασία 3 Σκελετοί Λύσεων

Πρωτόκολλα Ελέγχου προσπέλασης μέσου

Διαίρει και Βασίλευε. πρόβλημα μεγέθους Ν. διάσπαση. πρόβλημα μεγέθους k. πρόβλημα μεγέθους Ν-k

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Αλγόριθμοι και Πολυπλοκότητα

Δομές Δεδομένων & Αλγόριθμοι

Δένδρα Αποφάσεων. Δρ. Β. Βασιλειάδης ΔΙΚΣΕΟ, ΑΤΕΙ Μεσολογγίου

Επίλυση Προβλημάτων. Αποτελεί ένα από τα βασικά χαρακτηριστικά γνωρίσματα της νοημοσύνης.

Υλοποίηση τεχνικών για την αποφυγή συμφόρησης σε τοπικά ασύρματα δίκτυα αισθητήρων

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Transcript:

Μπιτσάκη Αντωνία-Χρυσάνθη Ταουσάκος Θανάσης

Τι εννοούμε με τον όρο data mining. (ανακάλυψη patterns με τη χρήση διαφορετικών μεθόδων) Το σενάριο με το οποίο θα ασχοληθούμε (2 πλευρές με σκοπό την άντληση πληροφοριών χωρίς να αποκαλύψουν η μία στην άλλη δικές τους πληροφορίες) Θεωρητικά στοιχεία (Decision trees ID3 algorithm)

Αλγόριθμος ID3 (Iterative Dichotomiser 3) χρησιμοποιείται για να παραγάγει ένα δέντρο απόφασης βασισμένος στο Ξυράφι του Όκαμ μπορεί να συνοψιστεί ως εξής: 1. Πάρτε όλες τις αχρησιμοποίητες ιδιότητες και υπολογίστε την εντροπία τους λαμβάνοντας υπόψη δείγματα δοκιμής 2. Επιλέξτε την ιδιότητα για την οποία η εντροπία είναι ελάχιστη 3. Δημιουργήστε έναν κόμβο που να περιέχει αυτή την ιδιότητα

Δέντρα απόφασης και αλγόριθμος ID3 ID3 (R,C,T) 1. Αν το R είναι κενό, επέστρεψε ένα leaf node με την τιμή της κλάσης να ανατίθεται στα περισσότερα transactions του T. 2. Αν το T αποτελείται από transactions που όλα έχουν την ίδια τιμή c για την κλάσση attribute, επέστρεψε ένα leaf-node με τιμή c. (ολοκληρώνοντας το classification μονοπάτι) 3. Διαφορετικά 1. Καθόρισε το attribute που περιγράφει καλύτερα τις μεταβάσεις στο T, έστω Α. 2. Έστω a1,, am οι τιμές του attribute A και έστω T(a1),, T(am) ένα τμήμα του T έτσι ώστε κάθε μετάβαση στο T(ai) να έχει την attribute τιμή ai. 3. Επέστρεψε ένα δέντρο με ρίζα A και ακμές a1,, am έτσι ώστε για κάθε I η ακμή ai να πηγαίνει στο δέντρο ID3(R-{A}, C, T(ai)).

ακριβής έλεγχος για το καλύτερο attribute Θέλουμε να ποσοτικοποιήσουμε την πληροφορία που χρειάζεται για να προσδιορίσουμε την κλάση κάποιου transaction στο T δεδομένου ότι η τιμή του A έχει αποκτηθεί. Έστω A παίρνει τιμές a1,, am και T(aj) τα transactions που μπορούν να πάρουν aj για το A. Έτσι, η υποθετική πληροφορία του T, δεδομένου του A, ισούται με: Τώρα, για κάθε attribute Α το κέρδος της πληροφορίας ορίζεται ως εξής:

Distributed ID3 (private) Καλή ιδιότητα: Κάθε κόμβος του δέντρου μπορεί να υπολογιστεί ξεχωριστά και δημοσιοποιώντας το output πριν τον υπολογισμό του επόμενου κόμβου. Στόχος: υπολογισμός κρυφά του attribute A ώστε το HC(TjA) να είναι ελάχιστο. Αυτό το πετυχαίνουμε υπολογίζοντας ψευδοτυχαία μερίδια του HC(TjA) για κάθε attribute A Έτσι οι πλευρές Α και Β λαμβάνουν τυχαίες τιμές SA1 και SA2 τ.ω. SA1+SA2= HC(TjA) Ασφαλές: αφού καμία πλευρά δεν μαθαίνει κάτι για αυτές τις ενδιάμεσες τιμές Αποτεσματικό: καθώς έχουν μερίδια αυτών των τιμών είναι εξαιρετικά εύκολο να βρουν η κάθε μία ιδιωτικά το attribute με το μικρότερο HC(TjA).

Βρίσκοντας το attribute με το μεγαλύτερο κέρδος Στάδιο 1: οι πλευρές P1 kai P2 χρησιμοποιούν το ιδιωτικό πρωτόκολο x ln x έτσι ώστε να πάρουν τυχαία μερίδια w πυ ανήκουν στο F τέτοια ώστε: Στάδιο 2: βρίσκοντας το attribute (υπολογισμός με ένα μικρό κύκλωμα) SA,1, SA,2 Πρωτόκολλο του YAO για Two-Party Computation Το όνομα του attribute τ.ω. SA,1+SA,2 mod F είναι ελάχιστο

Privacy-Preserving Protocol for ID3 1/2 1: Αν το R είναι κενό, επέστρεψε ένα leaf node με την κλάση value ανατεθειμένη στις περισσότερες transactions του Τ. Οι πλευρές 1 και 2 έχουν ως είσοδο ( T1(C1),, T1(Cl) ) και ( T2(C1),, T2(Cl) ) αντίστοιχα. Η έξοδος είναι το class index i για το οποίο μεγιστοποιείται η παράσταση T1(Ci) + T2(Ci). 2: Αν το T αποτελείται από transactions οι οποίες όλες έχουν την ίδια τιμή c για class attribute, επέστρεψε ένα leafnode με value c. Πρέπει να προσδιορίσουμε κατά πόσο οι δύο πλευρές παραμένουν στην ίδια κλάση ή όχι, θέτοντας το fixed σύμβολο. Μετά έλεγχος ισότητας των δύο εισόδων. Η τιμή value που προκαλεί την ισότητα μπορεί να ανακοινωθεί δημόσια ως Ci αν έχει βρει μονοπάτι ή να συνεχίσει να μεγαλώνει το δέντρο από το εξής σημείο ως ρίζα.

Privacy-Preserving Protocol for ID3 2/2 3: Α. Όρισε την attribute που καθορίζει καλύτερα τις transactions του T, έστω Α. Για κάθε τιμή aj ενός attribute A, και για κάθε value ci της κλάσης attribute C, οι πλευρές τρέχουν το xlnx πρωτόκολλο για T(aj) και T(aj,ci) τροφοδοτώντας τα αποτελέσματα στο πρωτόκολλο του Yao για ένα μικρό κύκλωμα. Β. Κάλεσε αναδρομικά την ID3δ για τα υπολοιπόμενα attributes πάνω στα transaction sets T(a1),, T(am)

Ιδιωτικότητα Από το composition θεώρημα γνωρίζουμε πως αν τα oracle-aided πρωτόκολλα είναι ιδιωτικά, τότε το ίδιο ισχύει και για το πρωτόκολλο που χρησιμοποιεί ιδιωτικά πρωτόκολλα στη θέση των oracles. Ανεξάρτητα από το γεγονός ότι ο έλεγχος ροής εξαρτάται από την είσοδο και δεν είναι προκαθορισμένος, ένας προσομοιωτής μπορεί με ακρίβεια να προβλέψει τον έλεγχο ροής του πρωτοκόλλου από την έξοδο. Για κάθε πλευρά υπάρχει ένας προσομοιωτής όπου δεδομένης μιας εισόδου από τη μία πλευρά και ενός δέντρου απόφασης ως εξόδου, παράγει μια συμβολοσειρά που είναι υπολογιστικά indistinguishable από την οπτική της πλευράς σε πραγματική εκτέλεση.

Μειονέκτημα Όσο ο αριθμός των transactions μεγαλώνει, η πολυπλοκότητα του πρωτοκόλου αυξάνεται ταχύτατα αφού το μέγεθος του κυκλώματος είναι O( R * S * T )

Ευχαριστούμε πολύ!