Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Σχετικά έγγραφα
«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Τεχνικές Εξόρυξης Δεδομένων

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Ευφυής Προγραμματισμός

Ανακάλυψη Γνώσης στον Τομέα του Αθλητισμού

Διδάσκουσα: Χάλκου Χαρά,

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

Εξόρυξη Γνώσης στον Τομέα του Αθλητισμού

Κεφάλαιο 5. Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων. Τεχνητή Νοηµοσύνη - Β' Έκδοση

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνολογία και Κοινωνία

Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

«Παρατηρήσεις και προβλήµατα. Παντελής Α. Μπράττης Βιβλιοθηκονόµος Τεχνική Υποστήριξη ΣΚΕΑΒ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Κωδικοποίηση

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Αικατερίνη Τσούμα Ερευνήτρια Κέντρου Προγραμματισμού και Οικονομικών Ερευνών (ΚΕΠΕ)

and Intelligent Systems Group LPIS Group).

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Τεχνολογία Λογισμικού & Ανάλυση Συστημάτων

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Μεθοδολογίες Αξιοποίησης Δεδομένων

Σχεσιακή δοµή δεδοµένων

Μοντελοποίηση Πεδίου

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Υπερπροσαρμογή (Overfitting) (1)

Απόδοση θεµατικών δεδοµένων

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

Είδη Μεταβλητών. κλίµακα µέτρησης

Οικονόμου Παναγιώτης.

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Προτεινόμενες Διπλωματικές Εργασίες 2009

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Ειδικότητα: Ύφασµα Ένδυση

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Η συµληρωµατικότητα σηµαίνει ότι οι καταναλωτές σε αυτές τις αγορές αγοράζουν συστήµατα.

Ειδικής Υποδομής Υποχρεωτικό

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Βασικά ζητήματα μιας βάσης δεδομένων

Εικόνα 1. Δείκτης Προόδου

5 η Διδακτική Ενότητα Οι βασικές αρχές και η σημασία της Διοίκησης του Ανθρώπινου Δυναμικού στην περίπτωση των τουριστικών επιχειρήσεων

Οι «κύκλοι» της επιχειρησιακής νοηµοσύνης. Μέθοδοι και Τεχνικές εξερεύνησης των

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Τη φυσική (MAC) διεύθυνση που δίνει ο κατασκευαστής του δικτυακού υλικού στις συσκευές του (π.χ. στις κάρτες δικτύου). Η περιοχή διευθύνσεων που

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Οργάνωση Γεωγραφικών. πληροφοριών

υνατότητες και αδυναµίες ανάλυσης στοιχείων οδικών ατυχηµάτων στην Ελλάδα

Πρόβλεψη Επισφαλών Δανείων

Προηγµένη ιασύνδεση µε τοπεριβάλλον

2. Missing Data mechanisms

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ορισμός Κάθε ζήτημα που τίθεται προς επίλυση, κάθε δύσκολη κατάσταση που μας απασχολεί και πρέπει να αντιμετωπιστεί.

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Ειδικότητα: Ύφασµα Ένδυση

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Εικόνα 1. Δείκτης Προόδου

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ

ΚΟΗΑ ΧΡΗΣΤΕΣ ΑΝΑΖΗΤΗΣΗ/ ΚΑΤΑΧΩΡΙΣΗ/ ΕΠΕΞΕΡΓΑΣΙΑ/ ΑΝΑΝΕΩΣΗ ΚΑΡΤΑΣ/ΙΣΤΟΡΙΚΟ ΔΑΝΕΙΣΜΩΝ ΤΡΟΠΟΠΟΙΗΣΕΩΝ / ΣΤΑΤΙΣΤΙΚΑ

Περιεχόµενο. «ιοικώ σηµαίνει διαχειρίζοµαι πληροφορίες για να πάρω αποφάσεις» Βασικότερες πηγές πληροφοριών. Τι είναι η Έρευνα Μάρκετινγκ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

Στρατηγική Επιλογή. Το xline ERP - Λογιστικές Εφαρμογές αποτελείται από:

Βάσεις δεδομένων και Microsoft Access

Ζητήματα ηήμ με τα δεδομένα

Εισαγωγή στην Ιατρική Πληροφορική

ΜΑΘΑΙΝΟΝΤΑΣ ΤΑ GIS ΣΤΗ ΠΡΑΞΗ ΤΟ ARCGIS 9.3. Α. Τσουχλαράκη, Γ. Αχιλλέως ΚΕΦΑΛΑΙΟ 4 ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΓΡΑΦΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΠΙΝΑΚΕΣ

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Μεταδεδομένα στο Ψηφιακό περιβάλλον

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

DISTINCT, LIKE, NULL, AND, OR, BETWEEN

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Ασφάλεια Πληροφοριακών Συστηµάτων. Επαναληπτικές Ασκήσεις

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Εικόνα 1. Δείκτης Προόδου

Εισαγωγή στη Στατιστική

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

Στατιστικό Δελτίο. για την παρακολούθηση της. Αγοράς Κινητής Τηλεφωνίας και κινητής Ευρυζωνικής. από τον Ιούνιο 2009 μέχρι και τον Ιούνιο του 2017

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΜΗΜΑ: Γ2

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Transcript:

Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 -

Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Σύνθετη διαδικασία για τον προσδιορισµό έγκυρων, νέων, χρήσιµων και κατανοητών σχέσεων-προτύπων σε δεδοµένα (Knowledge Discovery in Databases - KDD). Αποτελεί µια σηµαντική εφαρµογή σε πραγµατικές συνθήκες και σε µεγάλη κλίµακα των ερευνητικών αποτελεσµάτων της Στατιστικής, των Βάσεων εδοµένων (Β ) και της Μηχανικής Μάθησης. Είναι µια ολοκληρωµένη διαδικασία που περιλαµβάνει: την επεξεργασία των δεδοµένων την εφαρµογή των αλγορίθµων ανακάλυψης γνώσης και τέλος την ερµηνεία των αποτελεσµάτων. Τεχνητή Νοηµοσύνη, B' Έκδοση - 2 -

Παραδείγµατα Εφαρµογής Εταιρία κινητής τηλεφωνίας θέλει να προβλέψει ποιοι από τους συνδροµητές της δε θα ανανεώσουν τη συνδροµή τους, ώστε ενδεχοµένως να τους κάνει κάποια περισσότερο ελκυστική προσφορά. Ανακάλυψη συσχετίσεων µεταξύ ασθενειών και άλλων χαρακτηριστικών (π.χ. τόπο διαµονής, διατροφικές συνήθειες, παλαιότερες ασθένειες) που µπορούν να οδηγήσουν σε ιατρική πρόοδο. Ασφαλιστική εταιρία θέλει να µελετήσει το ιστορικό των πελατών της ώστε να σχεδιάσει περισσότερο ελκυστικά προϊόντα (ασφαλιστικά πακέτα). Τράπεζα θέλει να µπορεί να εντοπίσει κακόβουλη χρήση πιστωτικών καρτών. Τεχνητή Νοηµοσύνη, B' Έκδοση - 3 -

Τα Στάδια της Ανακάλυψης Γνώσης (1/3) ή Μοντέλα Τεχνητή Νοηµοσύνη, B' Έκδοση - 4 -

Τα Στάδια της Ανακάλυψης Γνώσης (2/3) 1. Επιλογή εδοµένων ηµιουργείται το σύνολο δεδοµένων στο οποίο θα εφαρµοστεί η αναζήτηση (training data set selection) µε επιλογή στοιχείων (πινάκων, πεδίων) από σχεσιακές βάσεις δεδοµένων εταιρειών. 2. Προεπεξεργασία (preprocessing) εδοµένων Αντιµετωπίζονται περιπτώσεις ελλιπών δεδοµένων (π.χ. άδεια πεδία), πεδίων µε τιµές που ουσιαστικά τα καθιστούν κενά, (π.χ. Οδός = Άγνωστο), πεδίων µε τιµές που υπονοούν (κατά σύµβαση) κάτι άλλο (π.χ. καταχώριση της ηµεροµηνίας "1/1/1900" σε πεδίο ηµεροµηνίας που απαιτούσε τιµή αλλά αυτή δεν ήταν διαθέσιµη), κλπ. Ονοµάζεται και στάδιο καθαρισµού των δεδοµένων (data cleaning). 3. Μετασχηµατισµός εδοµένων (transformation) Τα δεδοµένα µετασχηµατίζονται ώστε να διευκολύνουν την ανακάλυψη γνώσης. Τέτοιοι µετασχηµατισµοί µπορεί να περιλαµβάνουν για παράδειγµα: τη µείωση του αριθµού των υπό εξέταση χαρακτηριστικών (dimensionality reduction) µε επιλογή ορισµένων εξ' αυτών (feature selection ή attribute selection), την οµοιόµορφη κωδικοποίηση της ποιοτικά ίδιας πληροφορίας (π.χ. ενοποίηση ενός πεδίου µε τίτλο salary σε έναν πίνακα µε το πεδίο payment σε κάποιον άλλο πίνακα), τη µετατροπή συνεχόµενων αριθµητικών τιµών σε διακριτές τιµές, (διακριτοποίηση), κλπ. Τεχνητή Νοηµοσύνη, B' Έκδοση - 5 -

Τα Στάδια της Ανακάλυψης Γνώσης (3/3) 4. Επιλογή Αλγορίθµου και Εφαρµογή του Καθορίζεται τι είδους γνώση θα αναζητηθεί, κάτι που έµµεσα προσδιορίζει και την κατηγορία αλγορίθµου που θα χρησιµοποιηθεί. Τα παράγωγα της διαδικασίας ανακάλυψης γνώσης µπορεί να είναι: πρότυπα πληροφόρησης - informative patterns (µάθηση χωρίς επίβλεψη) µοντέλα πρόβλεψης - predictive models (µάθηση µε επίβλεψη). ΣΗΜΕΙΩΣΗ: Πολλές φορές γίνεται ισοδύναµη χρήση των όρων σχέσεις-προτύπα-µοντέλα. Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδοµένα. Περιγράφεται και µε τον όρο εξόρυξη σε δεδοµένα (data mining) Καταχρηστικά ο όρος έχει επικρατήσει να χρησιµοποιείται για να περιγράψει ολόκληρη τη διαδικασία ανακάλυψης γνώσης. 5. Ερµηνεία (interpretation) Αξιολόγηση (evaluation) Γίνεται ερµηνεία και αξιολόγηση των ευρεθέντων προτύπων, πιθανώς µε υποβοήθηση γραφικών απεικονίσεων των προτύπων ή/και των δεδοµένων που περιγράφονται από το πρότυπο (pattern/data visualization). Τεχνητή Νοηµοσύνη, B' Έκδοση - 6 -

Προβλήµατα στην Ανακάλυψη Γνώσης (1/2) Τα συστήµατα ανακάλυψης γνώσης, βασίζονται στην παροχή δεδοµένων εισόδου από βάσεις δεδοµένων οι οποίες τείνουν να είναι δυναµικές, µεγάλου µεγέθους, ελλιπείς και να περιέχουν εσφαλµένα δεδοµένα. Επιπλέον προβλήµατα προκύπτουν από το πόσο σχετική και επαρκής είναι η αποθηκευµένη πληροφορία. Τα σηµαντικότερα προβλήµατα που υπεισέρχονται στην ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι: 1. Ακατάλληλα δεδοµένα Οι βάσεις δεδοµένων δεν είναι πάντοτε σχεδιασµένες για ανακάλυψη γνώσης και συχνά οι ιδιότητες και τα πεδία που θα απλοποιούσαν τη διαδικασία αναζήτησης όχι µόνο λείπουν αλλά και δεν είναι δυνατόν να συλλεχθούν από το χρήστη. 2. Ελλιπή δεδοµένα Πολλές φορές η τιµή κάποιων πεδίων απουσιάζει (ελλιπή δεδοµένα missing data). Για παράδειγµα, κάποιο µέγεθος µπορεί να µη µετρήθηκε, κάποια ερώτηση να µην απαντήθηκε, κάποια καταχωρηµένη τιµή να διαγράφηκε, κτλ. Τεχνητή Νοηµοσύνη, B' Έκδοση - 7 -

Προβλήµατα στην Ανακάλυψη Γνώσης (2/2) 3. Θόρυβος Τα λάθη στις τιµές των πεδίων είναι γνωστά ως θόρυβος (noise - noisy data) και είναι σηµαντικό να αποβάλλεται, γιατί επηρεάζει τη συνολική ακρίβεια της παραγόµενης γνώσης. 4. Αραιά εδοµένα Στην αναζήτηση γνώσης σε βάσεις δεδοµένων, ο χώρος αναζήτησης ορίζεται από το δυναµοσύνολο των συνόλων στα οποία ορίζονται τα πεδία. Υπάρχουν περιπτώσεις που για διάφορους λόγους, τα διαθέσιµα δεδοµένα καλύπτουν µικρό ποσοστό του χώρου αναζήτησης (αραιά δεδοµένα sparse data), µε αποτέλεσµα να δηµιουργούνται προβλήµατα στην αναζήτηση γνώσης. 5. Μέγεθος Βάσης εδοµένων Ο µεγάλος αριθµός εγγραφών στη Β κάνει χρονοβόρα την εκτέλεση του αλγορίθµου για την ανακάλυψη της γνώσης και τον έλεγχο της ποιότητας της γνώσης που προκύπτει. 6. είγµατα Η χρήση δείγµατος είναι σχεδόν πάντα επιβεβληµένη. Η λήψη ενός δείγµατος απαιτεί µεγάλη προσοχή και εφαρµογή στατιστικών τεχνικών, ώστε να αντιπροσωπεύει ικανοποιητικά την αρχική βάση. 7. Πρόσφατα εδοµένα Κατά πόσο µπορεί να θεωρηθεί ότι οι κανόνες που κάποτε παρήχθησαν ανταποκρίνονται στην πλέον ενηµερωµένη και πρόσφατη έκδοση της βάσης δεδοµένων; Τεχνητή Νοηµοσύνη, B' Έκδοση - 8 -