Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες Διπλωματική Εργασία του Ιωάννη Καβακιώτη (ΑΕΜ: 242) Επιβλέπων Καθηγητής: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Φεβρουάριος 2010

2

3 Περίληψη Η αλματώδης ανάπτυξη της πληροφορικής και γενικότερα του πεδίου της επιστήμης των υπολογιστών έκανε φανερό στην επιστημονική κοινότητα ότι οι δυνατότητές της μπορούν να αξιοποιηθούν αποτελεσματικά και αποδοτικά από άλλες επιστήμες, όπως η βιολογία. Πιο ειδικά, τα τελευταία επιτεύγματα της μοριακής βιολογίας οδήγησαν σε μεγάλη συσσώρευση βιολογικών δεδομένων, όπου η χρήση των υπολογιστών κρίθηκε απαραίτητη για την αποτελεσματική και αποδοτική διαχείριση τους. Η παρούσα διπλωματική ανήκει στον χώρο στης βιοπληροφορικής, το πεδίο που προέκυψε από την αξιοποίηση των δυνατοτήτων της πληροφορικής σε συγκεκριμένα θέματα της επιστήμης της βιολογίας. Οι μέθοδοι πληροφορικής που χρησιμοποιούνται ανήκουν στον χώρο της Μηχανικής Μάθησης και της Εξόρυξης Δεδομένων. Σκοπός της παρούσας διπλωματικής ήταν η δημιουργία ενός συστήματος που θα προβλέπει σημεία πολυαδενυλίωσης σε βιολογικές ακολουθίες (PAS PolyAdenylation Site). Πολυαδενυλίωση είναι μια διεργασία που λαμβάνει χώρα αμέσως μετά την μεταγραφή του DNA σε RNA. Κύριος στόχος της πολυαδενυλίωσης είναι να προστατέψει το RNA και κατ επέκταση την κωδικοποιημένη πληροφορία του DNA που μεταφέρεται μέσω αυτού, ώστε να φτάσει άθικτο στην περιοχή της πρωτεϊνοσύνθεσης. Η δομή της διπλωματικής είναι η εξής: Στα πρώτα κεφάλαια δίνεται το απαραίτητο υπόβαθρο για τις επιστημονικές περιοχές στις οποίες κινείται η παρούσα διπλωματική. Πιο συγκεκριμένα για την Μηχανική Μάθηση και την Ανακάλυψη Γνώσης την Μοριακή Βιολογία και την Βιοπληροφορική. Στα τελευταία κεφάλαια παρουσιάζονται θέματα πιο εξειδικευμένα για την παρούσα διπλωματική όπως ενδελεχής μελέτη της πολυαδενυλίωσης, η παρουσίαση της μεθόδου, των δεδομένων και των πειραμάτων διεξήχθησαν. -i-

4 Abstract The great advances that have been achieved in Informatics and generally in the field of computer science made clear that it can be applied to other scientific areas, like biology, very effectively. More specifically, the latest achievements in the field of molecular biology have led to a great accumulation of biological data where the use of computers for the efficient data management is necessary. This thesis deals with the scientific area of bioinformatics. The computer methods that have been used belong to the scientific area of Machine Learning and Knowledge discovery. The aim of this dissertation is to built a system that predicts the polyadenylation sites in biological sequences. Polyadenylation is a process that occurs after DNA transcription to RNA. The main aim of the process of polyadenylation is to protect RNA and more specifically the data contained in this sequence in order to reach the region of protein production intact. This thesis is structured as follows: The first chapters present the fields of Machine Learning, Knowledge Discovery, Molecular Biology and Bioinformatics. The next chapters present more specific issues about the thesis like the polyadenylation process, the description of the method, the data and the experiments that have been conducted. -ii-

5 Πρόλογος Η παρούσα διπλωματική εργασία πραγματεύεται θέματα από το επιστημονικό πεδίο της Βιοπληροφορικής. Πιο συγκεκριμένα, το αντικείμενο της εργασίας αυτής είναι η εύρεση του σημείου Πολυαδενυλίωσης (PAS PolyAdenylation Site) σε βιολογικές αλληλουχίες. Η ενασχόληση με την πολυαδενυλίωση είναι ένα θέμα που απασχολεί την επιστημονική κοινότητα καθώς ο προσδιορισμός του μηχανισμού της θα δώσει μια βαθύτερη γνώση για τον μηχανισμό της μεταγραφής και μετάφρασης των γονιδίων, γνώση εξαιρετικά πολύτιμη για τομείς όπως η Βιοϊατρική και γενικότερα για τα επιστημονικά πεδία που ασχολούνται με την Βιοτεχνολογία. Η μελέτη εκπονήθηκε κατά το ακαδημαϊκό έτος στο εργαστήριο Γλωσσών Προγραμματισμού και Τεχνολογίας Λογισμικού (Programming Languages and Software Engineering Laboratory - PLaSE Laboratory) του τμήματος πληροφορικής του Α.Π.Θ., σε συνεργασία με την ομάδα Μηχανικής Μάθησης και Ανακάλυψης Γνώσης (Machine Learning and Knowledge Discovery Group MLKD Group). Η εκπόνηση της εργασίας έγινε υπό την επίβλεψη του καθηγητή του τμήματος Πληροφορικής κ. Ιωάννη Βλαχάβα, στον οποίο εκφράζω την ευγνωμοσύνη μου για την εμπιστοσύνη που μου έδειξε τόσο κατά την ανάθεση, όσο και κατά την εκπόνηση της παρούσας διπλωματικής. Ακόμα θέλω να ευχαριστήσω τον υποψήφιο διδάκτορα Γιώργο Τζανή για την βοήθειά του, τις ουσιαστικές του υποδείξεις και την άριστη συνεργασία μας. Τέλος θα ήθελα να ευχαριστήσω τους ανθρώπους που ήταν κοντά μου και με στήριξαν καθ όλη την διάρκεια εκπόνησης της διπλωματικής εργασίας. Ιωάννης Καβακιώτης Φεβρουάριος iii-

6 -iv-

7 Περιεχόμενα ΠΕΡΙΛΗΨΗ... I ABSTRACT... II ΠΡΟΛΟΓΟΣ...III ΠΕΡΙΕΧΟΜΕΝΑ...V 1 ΕΙΣΑΓΩΓΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Επαγωγή Κατηγορίες Μεθόδων Μηχανικής Μάθησης ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Η Διαδικασία Ανακάλυψης Γνώσης Προβλήματα στην Ανακάλυψη Γνώσης Είδη Δεδομένων Κατανεμημένη και Απανταχού Εξόρυξη από Δεδομένα Εφαρμογές Ανακάλυψης Γνώσης ΜΟΡΙΑΚΗ ΒΙΟΛΟΓΙΑ ΤΟ ΚΥΤΤΑΡΟ Κυτταρική Θεωρία Η Δομή του Κυττάρου Η ΖΩΗ ΣΤΟ ΜΟΡΙΑΚΟ ΕΠΙΠΕΔΟ Πρωτεΐνες DNA RNA ΓΟΝΙΔΙΑ ΚΑΙ ΓΟΝΙΔΙΩΜΑ ΤΟ ΚΕΝΤΡΙΚΟ ΔΟΓΜΑ ΤΗΣ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Αντιγραφή του DNA v-

8 3.4.2 Μεταγραφή Μετάφραση ΜΕΤΑΛΛΑΞΕΙΣ Η ΑΠΟΚΡΥΠΤΟΓΡΑΦΗΣΗ ΤΟΥ ΑΝΘΡΩΠΙΝΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ ΠΡΟΚΛΗΣΕΙΣ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΟΡΙΣΜΟΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΟΧΟΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΕΥΝΗΤΙΚΕΣ ΠΕΡΙΟΧΕΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ Ανάλυση Αλληλουχιών Συγκριτική Γενωμική Μέτρηση Επιπέδων Γονιδιακής Έκφρασης Πρωτεωμική Υπολογιστική Εξελικτική Βιολογία ΒΙΟΛΟΓΙΚΕΣ ΤΡΑΠΕΖΕΣ ΔΕΔΟΜΕΝΩΝ ΕΡΓΑΛΕΙΑ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ Κατηγορίες Εργαλείων Βιοπληροφορικής Κατάλογος Δημοφιλέστερων Εργαλείων Προοπτικές και Εξέλιξη Εργαλείων Βιοπληροφορικής ΕΦΑΡΜΟΓΕΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΣΥΝΟΨΗ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΜΕΤΑΓΡΑΦΗ Διαφορές μεταξύ Προκαρυωτικών και Ευκαρυωτικών Κυττάρων κατά την Μεταγραφή Η Μεταγραφή στα Ευκαρυωτικά ΑΠΟΚΟΠΗ ΚΑΙ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΕΝΑΛΛΑΚΤΙΚΗ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΕΡΓΑΣΙΕΣ ΣΧΕΤΙΚΕΣ ΜΕ ΤΗΝ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΥΛΟΠΟΙΗΣΗ ΕΙΣΑΓΩΓΙΚΑ Συχνά Σύνολα Αντικειμένων vi-

9 6.1.2 Αναδυόμενα Πρότυπα Ενδιαφέροντα Αναδυόμενα Πρότυπα Ταξινόμηση με Αναδυόμενα Πρότυπα Μετρικές Αξιολόγησης Ταξινόμησης Η ΜΕΘΟΔΟΣ POLYA-IEP Εξαγωγή Στοιχείων Εξαγωγή των k-grams Δυαδική Διακριτοποίηση Εξόρυξη Ενδιαφέροντων Αναδυόμενων Προτύπων Βαθμολόγηση μέσω των Ενδιαφέροντων Αναδυόμενων Παραθύρων Βαθμολόγηση με Βάση την Απόσταση Ταξινόμηση ΔΕΔΟΜΕΝΑ ΚΑΙ ΠΕΙΡΑΜΑΤΑ Δεδομένα Συνεισφορά των Wild chars Εκτίμηση των Χι Αναδυόμενων Προτύπων Εκτίμηση της Βαθμολόγησης με Βάση την Απόσταση Εκτίμηση του Tαξινομητή ΣΥΜΠΕΡΑΣΜΑΤΑ...89 ΒΙΒΛΙΟΓΡΑΦΙΑ vii-

10 -viii-

11 1 Εισαγωγή Η ανάπτυξη της βιολογίας το δεύτερο μισό του 20 ου αιώνα ήταν αλματώδης και έδωσε σπουδαία επιτεύγματα στον χώρο. Πιο συγκεκριμένα, η ανακάλυψη της διπλής έλικας του DNA το 1953 από τους James Watson και Francis Crick και η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος πάνω στην αλλαγή του 20 ου αιώνα, όχι μόνο έδωσαν τρομερή ώθηση στην μοριακή βιολογία αλλά και άνοιξαν νέους ορίζοντες επιστημονικής έρευνας σε άλλες επιστήμες με χαρακτηριστικό παράδειγμα την Βιοπληροφορική. Πιο ειδικά, τα δύο αυτά επιτεύγματα οδήγησαν σε μεγάλη συσσώρευση βιολογικών δεδομένων, όπου η χρήση των υπολογιστών κρίθηκε απαραίτητη για την αποτελεσματική και αποδοτική διαχείριση τους. Αυτή είναι μια πρώτη ιδέα του όρου Βιοπληροφορική (Bioinformatics). Μια επιστημονική περιοχή, κράμα της επιστήμης της βιολογίας και των υπολογιστών. Η παρούσα διπλωματική εργασία ανήκει στον χώρο της Βιοπληροφορικής. Το αντικείμενο της εργασίας είναι η εύρεση του σημείου Πολυαδενυλίωσης (PAS PolyAdenylation Site) σε βιολογικές ακολουθίες. Πολυαδενυλίωση είναι μια διεργασία που λαμβάνει χώρα αμέσως μετα την μεταγραφή του DNA σε RNA. Κύριος στόχος της πολυαδενυλίωσης είναι να προστατέψει το RNA και κατ επέκταση την κωδικοποιημένη πληροφορία του DNA που μεταφέρεται μέσω αυτού, ώστε να φτάσει άθικτο στην περιοχή της πρωτεϊνοσύνθεσης. Η ανακάλυψη του σημείου πολυαδενυλίωσης καθώς και η ανακάλυψη άλλων σημείων μέσα στις βιολογικές ακολουθίες είναι καθοριστικής σημασίας για την επιστημονική κοινότητα και κυρίως για την βιοτεχνολογία. Τα τελευταία χρόνια κλάδοι όπως η βιοϊατρική έχουν να επιδείξουν σπουδαία επιτεύγματα, που στηρίζονται κατά βάση στην ανάπτυξη μεθόδων Βιοπληροφορικής. Το αντικείμενο της εργασίας είναι η ανάπτυξη ενός προγράμματος για την πρόβλεψη του σημείου πολυαδενυλίωσης. Το πρόγραμμα αναπτύχθηκε στην γλώσσα προγραμματισμού Java και η μέθοδος μηχανικής μάθησης που χρησιμοποιήθηκε ήταν τα ενδιαφέροντα αναδυόμενα πρότυπα. Κατά την διεξαγωγή πειραμάτων χρησιμοποιήθηκε η βιβλιοθήκη μηχανικής μάθησης WEKA. -1-

12 Δομή του Κειμένου Το παρόν κείμενο είναι χωρισμένο σε επτά κεφάλαια. Το πρώτο από αυτά είναι η Εισαγωγή. Το δεύτερο κεφάλαιο με τίτλο Μηχανική Μάθηση και Ανακάλυψη Γνώσης, παρέχει το βασικό θεωρητικό υπόβαθρο της επιστημονικής περιοχής, από πλευράς πληροφορικής, στην οποία κινείται η εργασία. Το κεφάλαιο ξεκινάει με την μηχανική μάθηση. Θίγονται θέματα όπως από πού προέρχεται, που στηρίζεται και τέλος γίνεται μία κατηγοριοποίηση των μεθόδων της μηχανικής μάθησης. Το δεύτερο μέρος του κεφαλαίου ασχολείται με την ανακάλυψη γνώσης σε βάσεις δεδομένων. Ποια είναι η διαδικασία της ανακάλυψης γνώσης, ποια τα προβλήματα που αντιμετωπίζει ως επιστημονική περιοχή και τέλος περιγράφονται κάποια σύγχρονα θέματα πάνω στην ανακάλυψη γνώσης όπως η εξόρυξη σε κινητές συσκευές. Το τρίτο κεφάλαιο με τίτλο Μοριακή Βιολογία, παρέχει το βασικό υπόβαθρο της επιστημονικής περιοχής, από πλευράς βιολογίας. Στο κεφάλαιο αυτό περιγράφονται τόσο οι βασικές έννοιες όπως κύτταρο, πυρήνας, DNA και RNA, όσο και πιο εξειδικευμένες λειτουργίες οι οποίες είναι το θεωρητικό υπόβαθρο του προβλήματος που θα απασχολήσει την παρούσα διπλωματική εργασία. Το τέταρτο κεφάλαιο με τίτλο Βιοπληροφορική, παρουσιάζει την επιστημονική περιοχή της Βιοπληροφορικής. Παρουσιάζονται θέματα όπως οι στόχοι της, εργαλεία που χρησιμοποιούνται καθώς και εφαρμογές της. Το πέμπτο κεφάλαιο με τίτλο Πολυαδενυλίωση, δίνει μια πιο εκτενή και ακριβή περιγραφή της πολυαδενυλίωσης. Επίσης παρουσιάζονται και τα επιτεύγματα του τομέα της Βιοπληροφορικής στον χώρο της πολυαδενυλίωσης. Το έκτο κεφάλαιο με τίτλο Υλοποίηση είναι το κεφάλαιο στο οποίο γίνεται παρουσίαση του προγράμματος που υλοποιήθηκε. Αρχικά παρουσιάζεται η τεχνική ορολογία που είναι απαραίτητη για την κατανόηση της μεθόδου. Έπειτα παρουσιάζεται λεπτομερώς η υλοποίηση και στο τελευταίο μέρος του κεφαλαίου παρουσιάζονται και αναλύονται τα αποτελέσματα των πειραμάτων που διεξήχθησαν. Τέλος, το έβδομο κεφάλαιο με τίτλο Συμπεράσματα, αποτελεί τον επίλογο του κειμένου και παρουσιάζει συμπεράσματα και σχόλια σχετικά με τα πεπραγμένα της εργασίας. -2-

13 2 Μηχανική Μάθηση & Ανακάλυψη Γνώσης Από αρχαιοτάτων χρόνων, οι άνθρωποι μελέτησαν τον τρόπο σκέψης, τον τρόπο μάθησης, το τι είναι γνώση, αν προϋπάρχει ή αν αποκτάται από τον άνθρωπο στα διάφορα στάδια της ζωής του. Στις μέρες μας τα ερωτήματα αυτά έχουν κατά το πλείστον απαντηθεί και πλέον η πρόκληση, μετά την ραγδαία εξέλιξη της τεχνολογίας, έχει μεταφερθεί στο να μεταχειρίζονται άψυχες μηχανές τη γνώση, με ευφυή τρόπο και να μαθαίνουν από αυτή. Κατά τους Witten & Frank (1999) Κάτι μαθαίνει όταν αλλάζει η συμπεριφορά του κατά τέτοιο τρόπο ώστε να αποδίδει καλύτερα στο μέλλον. Αυτός είναι και ο σκοπός της μηχανικής μάθησης (Machine Learning) ενός επιστημονικού πεδίου που ασχολείται με τους τρόπους που μαθαίνουν οι μηχανές. Στο κεφάλαιο που ακολουθεί θα εξετάσουμε την μηχανική μάθηση καθώς και την ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases- KDD) η οποία είναι μια ειδική περίπτωση της μηχανικής μάθησης όπου το περιβάλλον μοντελοποιείται μέσω μιας βάσης δεδομένων. 2.1 Μηχανική Μάθηση Η μηχανική μάθηση (machine learning) είναι ένας από τους παλαιότερους τομείς της τεχνητής νοημοσύνης. Για πολλούς επιστήμονες ο όρος μηχανική μάθηση ταυτίζεται με τον όρο τεχνητή νοημοσύνη, καθώς η δυνατότητα μάθησης αποτελεί το βασικότερο χαρακτηριστικό μιας οντότητας που καλείται νοήμων, με την ευρύτερη έννοια του όρου. Σκοπός της μηχανικής μάθησης είναι η κατασκευή υπολογιστικών συστημάτων που μπορούν να προσαρμοστούν και να μάθουν από την εμπειρία τους. [Wilson & Keil, 1999]. Παρακάτω δίνεται ένας ορισμός της μηχανικής μάθησης καθώς και η επεξήγηση των όρων που εμπεριέχει [Βλαχάβας κ.α.,2005] -3-

14 Μηχανική μάθηση είναι η δημιουργία μοντέλων ή προτύπων από ένα σύνολο δεδομένων από ένα υπολογιστικό σύστημα. Μοντέλο ονομάζεται η απλοποιημένη εκδοχή που δημιουργεί ο άνθρωπος προσπαθώντας να κατανοήσει το περιβάλλον του. Πρότυπα ονομάζονται νέες δομές που δημιουργεί ο άνθρωπος μέσα από τον συσχετισμό και την οργάνωση των εμπειριών του. Η μηχανική μάθηση στηρίζεται κατά κύριο λόγο στις αρχές της επαγωγής η οποία αναλύεται στην παρακάτω υποπαράγραφο Επαγωγή Η επαγωγή είναι Αριστοτελικός όρος που σημαίνει γενικά την διαδικασία διατύπωσης μιας γενικής πρότασης στηριζόμενοι σε ειδικές συνθήκες που η αλήθεια τους αποδεικνύεται. Η επαγωγή μαζί με την παραγωγή είναι οι δύο θεμελιώδεις μορφές του συλλογισμού. Διαφέρουν στο ότι στην παραγωγή κατευθυνόμαστε από το γενικό στο ειδικό και επομένως έχουμε σίγουρα συμπεράσματα, ενώ στην επαγωγή κατευθυνόμαστε από το ειδικό στο γενικό, πράγμα που εισάγει κάποιας μορφής αβεβαιότητα για το συμπέρασμα που θα εξαχθεί. Οι υποθέσεις (το ειδικό μέρος) στηρίζουν το αποτέλεσμα, αλλά δεν το κατοχυρώνουν. Παρόλα αυτά, η επαγωγή έχει μεγαλύτερη αξία από την παραγωγή κατά την επιστημονική έρευνα και πολλές φορές τείνει να αποτελεί τον σημαντικότερο παράγοντά της, καθώς είναι το σημείο το οποίο την κατευθύνει. Για παράδειγμα, η επαγωγή ανακαλύπτει πολλές φορές μη προφανή γνώση. Δεδομένο: Αυτοί οι άνθρωποι έχουν αναπνευστικά προβλήματα Δεδομένο: Αυτοί οι άνθρωποι ζουν στην Πτολεμαΐδα Υπόθεση: Όλοι στην Πτολεμαΐδα έχουν αναπνευστικά προβλήματα Το συμπέρασμα μπορεί να μην ισχύει καθολικά, άλλα αν ισχύει σε ένα μεγάλο ή ασυνήθιστο ποσοστό τότε μπορεί να προσανατολίσει μια ιατρική έρευνα στην κατεύθυνση αυτή, η οποία ενδέχεται να οδηγήσει σε ανακάλυψη. Η εγκυρότητα της επαγωγικής συλλογιστικής ήταν ανέκαθεν ένα πρόβλημα που απασχολούσε τους φιλοσόφους. Θεωρείται ότι μια επαγωγική λογική δεν θα ήταν ποτέ εφικτή καθώς ο επαγωγικός λογισμός δεν μας οδηγεί απαραίτητα σε συμπεράσματα τα οποία είναι εξίσου βέβαια όσο και οι προκείμενες προτάσεις. Για παράδειγμα, το συ- -4-

15 μπέρασμα ότι όλοι οι κύκνοι είναι λευκοί θεωρούνταν ορθό από τους βιολόγους του 17 ου αιώνα, μέχρι τον εποικισμό της Αυστραλίας όπου και η ύπαρξη των μαύρων ανέτρεψε τον ισχυρισμό. Ο πρώτος σύγχρονος φιλόσοφος που έδωσε μία σημαντική ερμηνεία της επαγωγής ήταν ο Σερ Francis Bacon τον 16 ο αιώνα, ο οποίος, μεταξύ άλλων, πρότεινε να προσδιορίζονται οι αλήθειες με μια σταδιακή άνοδο, από τον μικρότερο στο μεγαλύτερο βαθμό καθολικότητας [Bacon, 1994]. Η σημαντικότερη όμως φιλοσοφική ανάλυση του προβλήματος της επαγωγής πραγματοποιήθηκε από τον Σκώτο φιλόσοφο David Hume τον 18 ο αιώνα. Βασικό παράδειγμα στην μελέτη του ήταν ότι το ψωμί μας θρέφει και θα μας θρέφει αφού έχει συμβεί επανειλημμένα στο παρελθόν.[hume, 1988]. Κατά τον Hume η πίστη στην ύπαρξη αυτής της αναγκαιότητας δεν έχει καμία βάση και είναι απλά μια συνήθεια που έχουμε αποκτήσει παρατηρώντας το γεγονός να επαναλαμβάνεται συχνά και δεν μας δείχνει κανένα μυστικό δεσμό που καθιστά τα γεγονότα αδιαχώριστα. Επομένως υπάρχει τουλάχιστον το θεωρητικό ενδεχόμενο το ψωμί να μας δηλητηριάσει κάποτε στο μέλλον [Fearn, 2001]. Στα προβλήματα της επαγωγής αναφέρθηκε εκτενώς και ο Bertrand Russell στο βιβλίο του The problems of Philosophy [Russel 1912]. Αν και η επαγωγή χρησιμοποιείται κυρίως για πρόβλεψη μελλοντικών καταστάσεων από παρελθοντικές, στην ευρύτερή της έννοια περιλαμβάνει σχηματισμούς συμπερασμάτων σχετικά με τα μη παρατηρημένα, με βάση όσα έχουν παρατηρηθεί. Για το λόγο αυτό δεν χρησιμοποιείται ως επιστημονική μέθοδος μόνο σε θετικές επιστήμες αλλά και σε άλλες όπως η Αρχαιολογία Κατηγορίες Μεθόδων Μηχανικής Μάθησης Στην παράγραφο αυτή θα γίνει μια κατηγοριοποίηση των μεθόδων της μηχανικής μάθησης καθώς και μια συνοπτική παρουσίαση των σημαντικότερων από αυτές. Μάθηση Συνάρτησης Στην μάθηση συνάρτησης το σύστημα πρέπει να μάθει επαγωγικά μια συνάρτηση που ονομάζεται συνάρτηση στόχος (target function) και αποτελεί έκφραση του μοντέλου που περιγράφει τα δεδομένα. Η συνάρτηση στόχος χρησιμοποιείται για την πρόβλεψη της τιμής μιας μεταβλητής που ονομάζεται εξαρτημένη μεταβλητή ή μεταβλητή εξόδου, βάσει των τιμών ενός συνόλου μεταβλητών που ονομάζονται ανεξάρτητες μεταβλητές ή -5-

16 μεταβλητές εισόδου ή χαρακτηριστικά. Το σύνολο των δυνατών τιμών εισόδου της συνάρτησης, δηλαδή το πεδίο ορισμού της, ονομάζεται σύνολο περιπτώσεων ή στιγμιοτύπων και συμβολίζεται με Χ. Κάθε περίπτωση περιγράφεται από ένα σύνολο χαρακτηριστικών (attributes ή features). Ένα υποσύνολο του συνόλου των περιπτώσεων για τα οποία γνωρίζουμε την τιμή της μεταβλητής εξόδου, ονομάζεται σύνολο δεδομένων εκπαίδευσης ή παραδείγματα και συμβολίζεται με D. Το σύστημα μάθησης για να προσεγγίσει καλύτερα την συνάρτηση στόχο, δοθέντος ενός συνόλου εκπαίδευσης, εξετάζει διάφορες εναλλακτικές συναρτήσεις οι οποίες ονομάζονται υποθέσεις και συμβολίζονται με h. Το σύνολο όλων των δυνατών υποθέσεων που το σύστημα μάθησης ενδέχεται να εξετάσει, ονομάζεται σύνολο υποθέσεων και συμβολίζεται με H. Στη μάθηση συνάρτησης διακρίνονται δύο είδη προβλημάτων (learning tasks), τα προβλήματα ταξινόμησης και τα προβλήματα παλινδρόμηση. Η ταξινόμηση ή αλλιώς κατηγοριοποίηση (classification) αφορά στη δημιουργία πρόβλεψης μοντέλων διακριτών τάξεων, όπως για παράδειγμα η ομάδα αίματος, ενώ η παλινδρόμηση (regression) αφορά στη δημιουργία πρόβλεψης αριθμητικών τιμών. Οι κυριότερες τεχνικές μάθησης συνάρτησης είναι: Μάθηση εννοιών (Concept Learning) Δένδρα ταξινόμησης ή απόφασης (Classification or Decision Trees) Μάθηση κανόνων (Rule Learning) Μάθηση με βάση τις περιπτώσεις (Instance Based Learning) Μάθηση κατά Bayes Γενετικοί αλγόριθμοι (Genetic Algorithms) Νευρωνικά δίκτυα (Neural Networks) Μηχανές διανυσμάτων υποστήριξης (Support Vector Machines- SVMs) Εξόρυξη Κανόνων Συσχέτισης Η ανακάλυψη ή εξόρυξη κανόνων συσχέτισης (Association Rule Mining) εμφανίστηκε αρκετά αργότερα από την μηχανική μάθηση και έχει περισσότερες επιρροές από την ερευνητική περιοχή των βάσεων δεδομένων. Προτάθηκε στις αρχές της δεκαετίας του 1990 από τον Rakesh Agrawal ως τεχνική ανάλυσης καλαθιού αγορών (market basket analysis) όπου το ζητούμενο είναι η εύρεση συσχετίσεων μέσα στα αντικείμενα μίας βάσης δεδομένων. Με βάση το παράδειγμα του καλαθιού αγορών οι κανόνες συσχέτι- -6-

17 σης είναι της μορφής {Χ 1,...,Χ n } Y, που σημαίνει ότι αν βρεθούν όλα τα Χ 1,...,Χ n στο καλάθι τότε είναι πιθανό να βρεθεί και το Y. Ο όρος πιθανό συνοδεύεται από δύο ποσοτικά μεγέθη που μετρούν την ποιότητα και την αληθεία των ευρεθέντων κανόνων συσχέτισης. Τα μεγέθη αυτά είναι η υποστήριξη (Support) και η εμπιστοσύνη (Confidence) και ορίζονται ως εξής: Η υποστήριξη (Support) ή κάλυψη (Coverage) εκφράζει την πιθανότητα να βρεθεί ένα συγκεκριμένο καλάθι στη βάση δεδομένων Η εμπιστοσύνη (Confidence) ή ακρίβεια (accuracy) που εκφράζει την πιθανότητα να βρεθεί ένα προϊόν Υ σε ένα καλάθι που περιέχει κάποια συγκεκριμένα προϊόντα Χ 1,...,Χ n. Η επιλογή των κανόνων που έχουν πρακτική αξία από το σύνολο των κανόνων που προκύπτουν από μία βάση δεδομένων, γίνεται θέτοντας κάποιο κάτω όριο στις τιμές των μεγεθών που προαναφέρθηκαν. Ο πιο κλασσικός αλγόριθμος ανακάλυψης κανόνων συσχέτισης είναι ο Apriori που προτάθηκε το 1994 από τον Rakesh Agrawal [Agrawal R et al.1994]. Ομαδοποίηση Οι ομάδες (Clusters) είναι πρότυπα πληροφόρησης που προκύπτουν με ομαδοποίηση δηλαδή διαχωρισμό ενός συνόλου δεδομένων σε ομάδες έτσι ώστε τα σημεία που ανήκουν στην ίδια ομάδα να μοιάζουν όσο το δυνατόν περισσότερο και σημεία που ανήκουν σε διαφορετικές ομάδες να διαφέρουν όσο το δυνατόν περισσότερο. Οι αλγόριθμοι ομαδοποίησης ταξινομούνται σε τρεις γενικές κατηγορίες: Οι αλγόριθμοι βασισμένοι σε διαχωρισμούς (Partition Based), που προσπαθούν να βρουν τον καλύτερο διαχωρισμό ενός συνόλου δεομένων σε ένα συγκεκριμένο αριθμό ομάδων. Ο πιο γνωστός αλγόριθμος αυτής της κατηγορίας είναι ο αλγόριθμος των Κ-μέσων (K-means). Οι ιεραρχικοί αλγόριθμοι, που προσπαθούν με ιεραρχικό τρόπο να ανακαλύψουν τον αριθμό και την δομή των ομάδων. Σημαντικότερη εφαρμογή των ιεραρχικών αλγορίθμων είναι στην βιολογία και πιο συγκεκριμένα στην οργάνωση των ειδών της χλωρίδας και της πανίδας. Με βάση την κατεύθυνση ανάπτυξης της ιεραρχίας που ακολουθούν, οι ιεραχικοί αλγόριθμοι ομαδοποίησης χω- -7-

18 ρίζονται στους αλγορίθμους συγχώνευσης (agglomerative) και στους αλγορίθμους διαίρεσης (divisive). Οι πιθανοκρατικοί (probabilistic) αλγόριθμοι, που βασίζονται σε μοντέλα πιθανοτήτων, όπως η θεωρία του Bayes. Ενισχυτική Μάθηση Ο όρος ενισχυτική μάθηση (Reinforcement Learning) είναι ένας γενικός όρος που έχει δοθεί σε μία οικογένεια τεχνικών στις οποίες το σύστημα προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Η βασική ιδέα είναι ότι το σύστημα μάθησης αξιολογείται με βάση μια βαθμωτή ποσότητα που ονομάζεται σήμα ενίσχυσης. Σκοπός του συστήματος μάθησης είναι η μεγιστοποίηση της συνάρτησης του ενισχυτικού σήματος. Είναι σημαντικό να αναφέρουμε ότι το σύστημα δεν έχει καμία εκ των προτέρων γνώση για την συμπεριφορά του περιβάλλοντος και ο μόνος τρόπος για να την ανακαλύψει είναι μέσω της δοκιμής και αποτυχίας (trial and error). Η ενισχυτική μάθηση εφαρμόζεται κυρίως σε αυτόνομα συστήματα πράγμα που πηγάζει από την α- νεξαρτησία που δείχνει η τεχνική αυτή σε σχέση με το αρχικό περιβάλλον. 2.2 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Η ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases- KDD) είναι μια ειδική περίπτωση της μηχανικής μάθησης όπου το περιβάλλον μοντελοποιείται μέσω μίας βάσης δεδομένων. Το μέγεθος της βάσης συνήθως είναι πολύ μεγάλο για το λόγο ότι τα δεδομένα έχουν συγκεντρωθεί για διάφορους σκοπούς. Άμεση συνέπεια αυτού είναι η αρχική οργάνωση των δεδομένων σε βάσεις να μην εξυπηρετεί τη μηχανική μάθηση. Στις επόμενες παραγράφους θα εξετάσουμε αναλυτικότερα τα προβλήματα που προκύπτουν από την εφαρμογή της μηχανικής μάθησης στις βάσεις δεδομένων καθώς και τις διαδικασίες που εφαρμόζονται ώστε να λυθούν τα προβλήματα αυτά και τέλος να εξαχθεί η πολύτιμη γνώση. -8-

19 2.2.1 Η Διαδικασία Ανακάλυψης Γνώσης Πριν αρχίσει οποιαδήποτε εργασία είναι απαραίτητος ο καθορισμός του προβλήματος και η κατανόηση του τομέα στον οποίο θα εφαρμοστεί η αναζήτηση της γνώσης. Πρέπει να καθοριστούν οι στόχοι και να ληφθούν υπόψη όλοι οι διαθέσιμοι πόροι, οικονομικοί και ανθρώπινοι, καθώς και οι περιορισμοί που υπάρχουν. Η συνεργασία του ειδικού επί θεμάτων ανακάλυψης γνώσης με τον ειδικό του τομέα του προβλήματος είναι απαραίτητη προϋπόθεση για τον καθορισμό των παραπάνω λεπτομερειών και για τον έλεγχο του κατά πόσο οι στόχοι είναι εφικτοί και αξιοποιήσιμοι. Πρέπει να σημειωθεί ότι πολλές φορές κάποια από τα βήματα της ανακάλυψης γνώσης είναι αναγκαίο να ε- παναληφθούν, λόγω προβλημάτων (που δεν μπορούν να ανιχνευτούν από την αρχή) τα οποία ενδέχεται να εμφανιστούν εξαιτίας των αρχικών επιλογών. Τα επιμέρους στάδια της διαδικασίας ανακάλυψης γνώσης απεικονίζονται στην Εικόνα 2.2 και περιγράφονται παρακάτω σύμφωνα με τα [Βλαχάβας κ.α.2005, Dunham 2002]. Επιλογή Προεπεξεργασία Μετασχηματισμός Εξόρυξη Ερμηνεία - Αξιολόγηση... Δεδομένα Επιλεγμένο Υποσύνολο Προεπεξεργασμένα Δεδο- Μετασχηματισμένα Δε- Πρότυπα Γνώση Εικόνα 2.2: Τα βασικά στάδια της διαδικασίας ανακάλυψης γνώσης. Επιλογή Τα δεδομένα μπορούν να ληφθούν από διαφορετικές και ετερογενείς πηγές. Συνήθως προέρχονται από σχεσιακές βάσεις δεδομένων. Επειδή τις περισσότερες φορές δεν είναι οργανωμένα με τρόπο που να διευκολύνει τη διαδικασία ανακάλυψης γνώσης και επειδή οι περισσότεροι αλγόριθμοι δεν μπορούν να εργαστούν με πολλαπλούς πίνακες α- παιτείται η εξαγωγή των δεδομένων και η οργάνωσή τους σε απλούστερες δομές. Η παραπάνω διαδικασία μπορεί να αποφευχθεί αν τα δεδομένα βρίσκονται σε μια αποθήκη δεδομένων (data warehouse), η οποία παρέχει στους αλγόριθμους ανακάλυψης γνώσης μια ευκολότερα προσβάσιμη όψη (view) των δεδομένων. Εκτός από τα τεχνικής φύσε- -9-

20 ως προβλήματα στο στάδιο αυτό μπορούν να αντιμετωπισθούν και νομικής φύσεως προβλήματα, όπως για παράδειγμα κωλύματα που αφορούν την προστασία προσωπικών δεδομένων. Προεπεξεργασία Τα δεδομένα μπορεί να είναι ελλιπή ή λανθασμένα. Μπορεί να υπάρχουν διαφορετικοί τύποι δεδομένων και μονάδες μέτρησης για ποιοτικά ίδια πληροφορία. Υπάρχει λοιπόν, η ανάγκη της διόρθωσης ή απομάκρυνσης των λανθασμένων δεδομένων και της απόκτησης ή πρόβλεψης των δεδομένων που λείπουν. Το στάδιο αυτό, λόγω της φύσεως των εργασιών που λαμβάνουν χώρα, ονομάζεται και στάδιο καθαρισμού των δεδομένων (data cleaning). Μετασχηματισμός Τα δεδομένα μετασχηματίζονται με σκοπό να διευκολύνουν τη διαδικασία της εξόρυξης και να παρέχουν πιο κατανοητά αποτελέσματα. Δεδομένα από διαφορετικές πηγές πρέπει να μετατραπούν σε μια κοινή μορφή που θα επιτρέπει την επεξεργασία τους. Ε- πίσης, κάποιοι αλγόριθμοι εξόρυξης μπορεί να απαιτούν συγκεκριμένες δομές δεδομένων. Παραδείγματα μετασχηματισμών που μπορούν να γίνουν είναι τα εξής: Ενοποίηση πεδίων, ώστε να μειωθεί η πολυπλοκότητα των δεδομένων. Για παράδειγμα τα πεδία τρέχουσα ημερομηνία και ημερομηνία γέννησης θα μπορούσαν να αντικατασταθούν από το πεδίο ηλικία. Αντικατάσταση ενός πεδίου από κάποιο άλλο. Για παράδειγμα αντικατάσταση της ακολουθίας τιμών ενός πεδίου από τις διαφορές των διαδοχικών τιμών. Μετατροπή συνεχόμενων πραγματικών τιμών σε κατηγορικές τιμές. Απομάκρυνση σπάνια εμφανιζόμενων ακραίων τιμών, όπως είναι τα παράτυπα σημεία (outliers). Αξίζει να σημειωθεί ότι ενώ σε κάποιες εφαρμογές τα παράτυπα σημεία μπορεί να θεωρηθούν θόρυβος και να απορριφθούν, σε άλλες ε- φαρμογές μπορούν να αποκαλύψουν σημαντική γνώση, και κατά συνέπεια η ανάλυσή τους να είναι πολύτιμη. Μετασχηματισμός με εφαρμογή κάποιας συνάρτησης στις τιμές ενός πεδίου. Συνηθισμένες περιπτώσεις τέτοιων συναρτήσεων είναι οι λογαριθμικές. -10-

21 Όλες οι παραπάνω τεχνικές διευκολύνουν τη διαδικασία εξόρυξης, είτε μειώνοντας τον αριθμό των πεδίων (dimensionality reduction), είτε μειώνοντας τον αριθμό των τιμών που παίρνει ένα πεδίο (variability reduction). Εξόρυξη σε Δεδομένα Σε αυτό το βήμα εφαρμόζεται ο κατάλληλος αλγόριθμος πάνω στα μετασχηματισμένα δεδομένα, ώστε να παραχθούν τα επιθυμητά αποτελέσματα. Ανάλογα με το είδος της γνώσης που αναζητείται επιλέγεται ο κατάλληλος αλγόριθμος. Υπάρχουν δύο γενικές κατηγορίες προτύπων που προκύπτουν από τη διαδικασία ανακάλυψης γνώσης: τα πρότυπα πληροφόρησης (informative patterns) και τα πρότυπα πρόβλεψης (predictive patterns), τα οποία περιγράφονται στην επόμενη ενότητα. Αξίζει να σημειωθεί ότι πολλές φορές προτιμούνται αλγόριθμοι που έχουν ισχυρά χαρακτηριστικά πληροφόρησης, αν και έχουν χειρότερη δυνατότητα πρόβλεψης, επειδή τα αποτελέσματά τους γίνονται πιο εύκολα αντιληπτά από τον ειδικό του τομέα. Ερμηνεία Αξιολόγηση Διάφορες τεχνικές οπτικής αναπαράστασης (visualization) χρησιμοποιούνται στο στάδιο αυτό για την παρουσίαση των δεδομένων. Η κατανόηση της χρησιμότητας των αποτελεσμάτων εξαρτάται σε μεγάλο βαθμό από τον τρόπο παρουσίασής τους. Οι παραπάνω τεχνικές, δίνουν στο χρήστη τη δυνατότητα να συνοψίζει και να εξάγει πιο πολύπλοκα αποτελέσματα από ότι με μαθηματικές ή βασισμένες σε κείμενο περιγραφές των αποτελεσμάτων. Είναι πιθανό η γνώση που προέκυψε να καταγραφεί σε μια βάση γνώσης (knowledge base) και ίσως να χρειαστεί η επίλυση συγκρούσεων με προϋπάρχουσα γνώση. Συνήθως τα αποτελέσματα μετά από ένα κύκλο της διαδικασίας δίνουν ερέθισμα για νέες αναζητήσεις, δηλαδή επανάληψη ολόκληρης της διαδικασίας Προβλήματα στην Ανακάλυψη Γνώσης Όπως προαναφέρθηκε στην εισαγωγή, η διαδικασία της ανακάλυψης γνώσης βασίζεται σε βάσεις δεδομένων που συνήθως είτε τα δεδομένα τους είναι ακατάλληλα για να υ- ποστηρίξουν τις μεθόδους της μηχανικής μάθησης είτε η αναπαράστασή τους περιέχει προβλήματα που δυσκολεύουν την μηχανική μάθηση. Στις παραγράφους που ακολουθούν περιγράφονται τα σημαντικότερα από αυτά. -11-

22 Περιορισμένη Πληροφορία Οι βάσεις δεδομένων συνήθως δεν είναι σχεδιασμένες για ανακάλυψη γνώσης. Συχνά κάποια πεδία που θα απλοποιούσαν τη διαδικασία ανακάλυψης γνώσης λείπουν ή και είναι αδύνατο να συλλεχθούν από το χρήστη. Γι αυτό το λόγο δεν είναι πάντοτε εφικτή η κατασκευή κανόνων που κατηγοριοποιούν σωστά κάθε παράδειγμα, βάσει των γνωστών μόνο πεδίων. Υπάρχουν δύο τρόποι αντιμετώπισης του παραπάνω προβλήματος. Μπορούν να κατασκευαστούν κανόνες μόνο όταν όλα τα σχετικά χαρακτηριστικά είναι γνωστά (deterministic rules). Το μειονέκτημα της αντιμετώπισης αυτής είναι ότι πολύτιμη πληροφορία που βρίσκεται «κρυμμένη» στη βάση δεδομένων είναι πολύ πιθανό να μη βρεθεί. Εναλλακτικά, κατασκευάζονται κανόνες που κατηγοριοποιούν τα αντικείμενα σε κλάσεις με βάση κάποια πιθανότητα (probabilistic rules). Αυτοί οι κανόνες συνήθως παρέχουν σημαντικές πληροφορίες για συσχετίσεις μέσα στο περιβάλλον. Για παράδειγμα, η συσχέτιση καπνίσματος και καρκίνου δεν είναι ορθή, καθώς το κάπνισμα δεν αποτελεί ούτε ικανή, ούτε αναγκαία συνθήκη για την εμφάνιση καρκίνου. Ω- στόσο, η συσχέτιση αυτή δεν παύει να είναι πολύ σημαντική. Αραιά Δεδομένα Όταν ένα σύστημα ανακάλυψης γνώσης κατασκευάζει κανόνες, πρέπει να ανακαλύψει τα όρια των κλάσεων. Η ακριβής θέση των ορίων μπορεί να βρεθεί μόνο αν υπάρχουν παραδείγματα που εντοπίζονται μόλις μέσα και μόλις έξω από την κλάση (near hits και near misses). Με άλλα λόγια, τα παραδείγματα πρέπει να αναπαριστούν μεγάλη ποικιλία συμπεριφοράς του περιβάλλοντος. Δυστυχώς όμως, σε μια βάση δεδομένων υπάρχει μόνο ένα μικρό υποσύνολο της πιθανής συμπεριφοράς. Έτσι τα όρια των κλάσεων δεν μπορούν να καθοριστούν με ακρίβεια. Μια προσπάθεια λύσης του παραπάνω προβλήματος είναι η αναζήτηση παραδειγμάτων με ιδιαίτερο ενδιαφέρον μέσα στη βάση δεδομένων. Δείγματα Για τη δημιουργία των κανόνων απαιτείται η λήψη ενός δείγματος (σύνολο εκπαίδευσης) από τη βάση δεδομένων. Ωστόσο, χρειάζεται μεγάλη προσοχή και εφαρμογή στατιστικών τεχνικών κατά την επιλογή του δείγματος, ώστε αυτό να αντιπροσωπεύει ικανοποιητικά τη βάση δεδομένων. Οι πραγματικές βάσεις δεδομένων έχουν τεράστιο α- -12-

23 ριθμό εγγραφών, ενώ πολλοί αλγόριθμοι ανακάλυψης γνώσης απαιτούν, για λόγους α- πόδοσης, την παρουσία όλων των δεδομένων εκπαίδευσης στη μνήμη. Επειδή το μέγεθος της μνήμης είναι περιορισμένο, επιβάλλεται η χρήση δείγματος. Θόρυβος Τα πεδία ενός πίνακα βάσης δεδομένων μπορεί να προέρχονται από μετρήσεις ή από υποκειμενικές κρίσεις με αποτέλεσμα να υπάρχουν καταχωρημένες λανθασμένες τιμές. Μια τέτοια περίπτωση μπορεί να οδηγήσει σε εσφαλμένη κατηγοριοποίηση των παραδειγμάτων. Τέτοια λάθη στις τιμές των πεδίων ή στην περιγραφή των κλάσεων είναι γνωστά ως θόρυβος (noise). Το πρόβλημα που δημιουργεί ο θόρυβος μπορεί να εντοπιστεί σε δύο σημεία: Κατά τη διαδικασία δημιουργίας περιγραφών κλάσεων με χρήση συνόλου εκπαίδευσης με θόρυβο. Ο θόρυβος που αφορά την περιγραφή μιας κλάσης έχει αρνητικές επιπτώσεις στη δυνατότητα ακριβούς κατηγοριοποίησης των παραγόμενων κανόνων. Έχει λοιπόν, ιδιαίτερη σημασία η απομάκρυνση του θορύβου από το σύνολο εκπαίδευσης που χρησιμοποιείται για τη δημιουργία των περιγραφών κλάσεων. Κατά τη διαδικασία κατηγοριοποίησης παραδειγμάτων με χρήση περιγραφών που παράχθηκαν με θόρυβο. Σύμφωνα με τους Holsheimer και Siebes [Holsheimer & Siebes. 1994], πειράματα σε κάποια συστήματα έχουν δείξει ότι η προσθήκη θορύβου στα δεδομένα οδηγεί σε χαμηλά επίπεδα εσφαλμένης κατηγοριοποίησης των παραδειγμάτων, ακόμη και αν ο θόρυβος είναι σημαντικός. Ιδιαίτερο ενδιαφέρον παρουσιάζει το εξής φαινόμενο: κανόνες που παράγονται από ένα σύνολο εκπαίδευσης με θόρυβο, λειτουργούν καλύτερα όταν εφαρμόζονται σε δεδομένα με θόρυβο εν συγκρίσει με κανόνες που έχουν προκύψει από το ίδιο «αθόρυβο» σύνολο δεδομένων. Το συμπέρασμα που προκύπτει είναι ότι δεν αξίζει τον κόπο να προσπαθεί κανείς για την εξάλειψη του θορύβου από τις ιδιότητες των αντικειμένων του συνόλου εκπαίδευσης, αν ο κανόνας κατηγοριοποίησης που θα παραχθεί εφαρμόζεται σε δεδομένα με σημαντική ποσότητα θορύβου. Πεδία χωρίς Τιμή Ένα πρόβλημα που σχετίζεται με τη χρήση των βάσεων δεδομένων είναι η ενδεχόμενη απουσία τιμής σε κάποια πεδία. Όπως και στην περίπτωση του θορύβου, το πρόβλημα μπορεί να εντοπιστεί σε δύο σημεία: -13-

24 Κατά τη διαδικασία δημιουργίας περιγραφών των κλάσεων. Τα παραδείγματα με κενά πεδία μπορούν είτε απλά να παραλειφθούν είτε να χρησιμοποιηθούν, αφού γίνει αντικατάσταση των κενών πεδίων με κάποιες από τις πιο πιθανές τιμές. Μπορούν να κατασκευαστούν κανόνες που προβλέπουν την τιμή ενός πεδίου με βάση τις τιμές των άλλων πεδίων του παραδείγματος και τις πληροφορίες για την κλάση. Έτσι αντικαθίστανται τα κενά πεδία και το νέο σύνολο που προκύπτει χρησιμοποιείται για τη δημιουργία περιγραφών κλάσεων. Μια άλλη προσέγγιση είναι η θεώρηση των άγνωστων τιμών σαν μια ξεχωριστή τιμή, για παράδειγμα μπορεί να προστεθεί η τιμή άγνωστο στο σύνολο τιμών κάθε πεδίου και να χρησιμοποιηθεί στις περιγραφές. Κατά τη διαδικασία κατηγοριοποίησης παραδειγμάτων με κενά πεδία. Όταν στις συνθήκες ενός κανόνα περιλαμβάνονται πεδία χωρίς τιμή, τότε ο κανόνας δεν μπορεί να εφαρμοστεί. Μια λύση στο πρόβλημα αυτό είναι ο υπολογισμός της πιθανότητας εφαρμογής ενός κανόνα. Η πιθανότητα να έχει ένα πεδίο μια συγκεκριμένη τιμή μπορεί να υπολογιστεί λαμβάνοντας υπόψη τις σχετικές συχνότητες των διάφορων τιμών του πεδίου στα παραδείγματα του συνόλου εκπαίδευσης. Έτσι, δεδομένου ενός συνόλου κανόνων, υπολογίζεται η πιθανότητα εφαρμογής του κάθε κανόνα και στη συνέχεια αθροίζονται οι πιθανότητες για κάθε κλάση. Τελικά, το παράδειγμα κατηγοριοποιείται στην κλάση με τη μεγαλύτερη τιμή πιθανότητας. Έχει βρεθεί ότι η παραπάνω τεχνική οδηγεί σε μικρή μείωση της ικανότητας κατηγοριοποίησης, καθώς ο αριθμός των άγνωστων τιμών αυξάνει. Μέγεθος της Βάσης Δεδομένων Οι βάσεις δεδομένων συνήθως αποθηκεύουν μεγάλες ποσότητες δεδομένων. Το πρόβλημα μπορεί να εντοπιστεί σε δύο σημεία: Στο πλήθος των πεδίων μιας εγγραφής. Πρώτιστα, πρέπει να σημειωθεί ότι η μεγάλη ποσότητα πληροφορίας για ένα αντικείμενο είναι ένα πλεονέκτημα, α- φού είναι πιθανότερη η εμφάνιση πραγματικών συσχετίσεων. Ωστόσο, η μεγάλη ποσότητα πληροφορίας οδηγεί και σε αύξηση του αριθμού των περιγραφών και του μεγέθους του χώρου αναζήτησης περιγραφών. Η λύση του προβλήματος εί- -14-

25 ναι η χρήση περιορισμών και ευριστικών μηχανισμών στην αναζήτηση, που ο- δηγούν σε σχεδόν βέλτιστες λύσεις. Στο πλήθος των εγγραφών. Κατά τη διάρκεια αναζήτησης περιγραφών κλάσεων πρέπει να πιστοποιείται η ποιότητα κάθε περιγραφής που έχει παραχθεί. Για το λόγο αυτό χρειάζονται κάποιες στατιστικές δοκιμασίες που απαιτούν πληροφορίες όπως τον αριθμό των παραδειγμάτων που καλύπτονται από την περιγραφή ή την κατανομή των τιμών στο σύνολο των δεδομένων. Όπως γίνεται αντιληπτό για τον υπολογισμό της ποιότητας ενός κανόνα είναι απαραίτητη η προσπέλαση της βάσης δεδομένων. Ως λύση μπορούν να χρησιμοποιηθούν οι παρακάτω τεχνικές: Πολλαπλές περιγραφές μπορούν να κατασκευαστούν σε μια επανάληψη της διαδικασίας αναζήτησης με ταυτόχρονο υπολογισμό της ποιότητας τους. Στην πράξη απαιτείται μόνο μία, σύνθετη όμως, προσπέλαση στη βάση δεδομένων. Η ποιότητα μιας περιγραφής μπορεί να υπολογιστεί με χρήση ενός αντιπροσωπευτικού δείγματος της βάσης δεδομένων, που είναι γνωστό ως παράθυρο (window). Ένα μικρό υποσύνολο της βάσης χρησιμοποιείται για την κατασκευή των περιγραφών. Οι καλύτερες περιγραφές ελέγχονται στο σύνολο της βάσης δεδομένων, για περαιτέρω πιστοποίηση της ποιότητας. Ενημέρωση της Βάσης Δεδομένων Οι βάσεις δεδομένων ενημερώνονται συχνά. Νέα δεδομένα προστίθενται, κάποια τροποποιούνται και κάποια άλλα απομακρύνονται. Οποιαδήποτε γνώση είχε εξαχθεί από τη μη ενημερωμένη βάση, ενδέχεται να μην είναι συνεπής με τα νέα δεδομένα. Είναι προφανές ότι ένα σύστημα που μαθαίνει θα πρέπει να προσαρμόζεται σε τέτοιου είδους αλλαγές. Επιπλέον, η αξιοπιστία ενός κανόνα μεγαλώνει, καθώς το μέγεθος του συνόλου εκπαίδευσης αυξάνει. Έτσι αν ένας κανόνας έχει παραχθεί από μια μικρή βάση δεδομένων, η οποία στη συνέχεια επεκτάθηκε, είναι επιθυμητή η διατήρηση της συνέπειας του κανόνα με την εκτεταμένη βάση. Μάλιστα, είναι σημαντική η διατήρηση της συνέπειας των κανόνων με τα πιο πρόσφατα δεδομένα, καθώς τα χαρακτηριστικά των αντικειμένων μπορεί να αλλάζουν με το χρόνο εξαιτίας τάσεων που κυριαρχούν και δι- -15-

26 εργασιών που εκτελούνται στο περιβάλλον. Η ανακατασκευή ενός κανόνα μπορεί να γίνει από την αρχή, όμως είναι πιο βολικό να χρησιμοποιηθεί ένα είδος αυξητικής μάθησης (incremental learning). Κατά τη διαδικασία αυτή χρησιμοποιείται γνώση που έχει παραχθεί προηγουμένως για την ανακατασκευή του κανόνα Είδη Δεδομένων Τα δεδομένα τα οποία βρίσκονται μέσα σε βάσεις δεδομένων είναι προφανές ότι έχουν μια πλήρως ορισμένη δομή. Τα δεδομένα αυτά ονομάζονται δομημένα και σε αυτά α- ναφέρονται οι τεχνικές και τα προβλήματα που αναφέρθηκαν προηγουμένως στο κεφάλαιο. Με την εξέλιξη της πληροφορικής προέκυψαν νέοι, σύνθετοι τύποι δεδομένων που απαιτούν ιδιαίτερο χειρισμό από την αποθήκευση και αναπαράσταση, μέχρι και το τελικό στάδιο της ερμηνείας και αξιολόγησης καθώς οι παραδοσιακές βάσεις αδυνατούν να ανταποκριθούν. Τέτοιοι είναι τα δεδομένα πολυμέσων, όπως ήχος και εικόνα, ακόμα και οι ιστοσελίδες του παγκόσμιου ιστού και διακρίνονται σε ημιδομημένα και αδόμητα δεδομένα. Στις παρακάτω παραγράφους θα δούμε τους σημαντικότερους σύνθετους τύπους δεδομένων καθώς και τα κατανεμημένα δεδομένα, κατηγορία που προέκυψε από την ραγδαία εξάπλωση των δικτύων υπολογιστών. Παγκόσμιος Ιστός Ο Παγκόσμιος Ιστός (World Wide Web) μπορεί να θεωρηθεί ως η μεγαλύτερη διαθέσιμη βάση δεδομένων, ενώ αποτελεί μεγάλη πρόκληση η αποτελεσματική σχεδίαση και προσπέλασή του. Η χρήση του όρου βάση δεδομένων γίνεται αυθαίρετα, καθώς δεν παρουσιάζεται συγκεκριμένη δομή ή σχήμα στον Ιστό. Τα δεδομένα του Ιστού μπορούν να ταξινομηθούν στις εξής κατηγορίες: Τα περιεχόμενα των ιστοσελίδων. Την εσωτερική δομή των ιστοσελίδων που περιλαμβάνει τον κώδικα των ιστοσελίδων σε HTML ή XML. Τη δομή που δημιουργείται από τη διασύνδεση των ιστοσελίδων μέσω των συνδέσμων. Τα δεδομένα χρήσης, που περιγράφουν τον τρόπο προσπέλασης των ιστοσελίδων από τους χρήστες. -16-

27 Τα προφίλ των χρηστών που προκύπτουν από δημογραφικές πληροφορίες ή πληροφορίες που μπορούν να βρεθούν στα cookies. Οι διεργασίες της εξόρυξης στον Παγκόσμιο Ιστό (Web mining) μπορούν να χωριστούν σε κατηγορίες ανάλογα με την κατηγορία δεδομένων στην οποία εφαρμόζονται. Μια από τις εφαρμογές της εξόρυξης στον Παγκόσμιο Ιστό είναι η διαφήμιση. Η συγκέντρωση πληροφοριών που αφορούν τους χρήστες δίνει τη δυνατότητα στις εταιρείες να διαφημίζουν τα προϊόντα τους σε ένα υποσύνολο των χρηστών. Με αυτόν τον τρόπο μειώνεται το κόστος διαφήμισης του προϊόντος σε χρήστες για τους οποίους δεν υπάρχει μεγάλη πιθανότητα αγοράς του. Επίσης, ο διαχειριστής ενός δικτυακού τόπου επιθυμεί τη δημιουργία του καλύτερου συνόλου ιστοσελίδων για την επίτευξη των επιθυμητών στόχων. Οι μέθοδοι εξόρυξης βοηθούν το διαχειριστή στην εξαγωγή συμπερασμάτων σχετικά με το περιεχόμενο, τη δομή, αλλά και την ευκολία χρήσης των ιστοσελίδων του δικτυακού τόπου. Χωρικά Δεδομένα Τα χωρικά δεδομένα (spatial data) μπορούν να θεωρηθούν ως δεδομένα σχετικά με α- ντικείμενα που βρίσκονται σε κάποιο φυσικό χώρο. Αποθηκεύονται στις χωρικές βάσεις δεδομένων (spatial databases), οι οποίες υποστηρίζουν την αποτελεσματική αποθήκευση των χωρικών και των μη χωρικών δεδομένων που αφορούν τα αντικείμενα. Τα χωρικά δεδομένα μπορούν να προσπελαστούν με ερωτήματα που περιέχουν χωρικούς τελεστές, όπως κοντά, βόρεια, νότια, γειτονικά και περιέχεται σε. Για παράδειγμα ένα τέτοιο ερώτημα θα μπορούσε να είναι: «Βρες όλα τα περίπτερα κοντά στο Λευκό Πύργο». Η αποθήκευση των χωρικών δεδομένων απαιτεί ειδικές δομές και καταλόγους που χτίζονται με βάση πληροφορίες απόστασης ή τοπολογίας. Ανάμεσα στις εφαρμογές των χωρικών βάσεων δεδομένων είναι και τα γεωγραφικά συστήματα πληροφοριών (Geographic Information Systems GIS), που αποθηκεύουν γεωγραφικές πληροφορίες (π.χ. χάρτες). Η εξόρυξη σε χωρικά δεδομένα (spatial mining ή spatial data mining) αποτελεί την εφαρμογή μεθόδων εξόρυξης σε χωρικές βάσεις δεδομένων. Μερικές εφαρμογές της είναι στις περιοχές της Γεωλογίας, της Περιβαλλοντολογίας, της Διαχείρισης Πό- -17-

28 ρων, της Γεωργίας, της Ιατρικής και της Ρομποτικής. Αρκετές από τις τεχνικές που παρουσιάστηκαν σε προηγούμενες ενότητες εφαρμόζονται σε χωρικά δεδομένα, αλλά υ- πάρχουν και νέες τεχνικές που αναπτύχθηκαν ειδικά για την εξόρυξη σε χωρικά δεδομένα. Χρονικά Δεδομένα Παραδοσιακά οι βάσεις δεδομένων δεν περιέχουν χρονικά δεδομένα. Αντίθετα, τα δεδομένα που αποθηκεύονται αναπαριστούν την κατάσταση του περιβάλλοντος σε ένα συγκεκριμένο σημείο του χρόνου. Σε μια χρονική βάση δεδομένων (temporal database), διατηρούνται δεδομένα για πολλές χρονικές στιγμές. Οι χρονικές βάσεις δεδομένων δε δέχονται τους ίδιους τύπους ενημερώσεων και ερωτημάτων με τις συνηθισμένες βάσεις δεδομένων. Στην πράξη τροποποιήσεις των εγγραφών δεν επιτρέπονται. Αντί αυτού μπορεί να προστεθεί μια νέα εγγραφή με διαφορετική χρονική τιμή. Τα ερωτήματα μπορεί να περιέχουν σύνθετα κριτήρια χρονικής επιλογής, όπως το ακόλουθο ερώτημα: «Βρες τα ονόματα των υπαλλήλων που είχαν μισθό μεγαλύτερο από μεταξύ 1/1/01 και 31/12/01». Υπάρχουν αρκετά παραδείγματα χρονικών δεδομένων. Οι δορυφόροι συλλέγουν διαρκώς εικόνες και δεδομένα από μετρήσεις αισθητήρων. Οι πληροφορίες αυτές είναι χρονικές και σχετίζονται με συγκεκριμένες χρονικές στιγμές (τη στιγμή που τα δεδομένα συλλέχθηκαν). Σε ένα νοσοκομείο ενδέχεται να διατηρούνται καταγραφές των καρδιακών παλμών από κάποιους ασθενείς, αναπαριστώντας μια συνεχή όψη των χρονικών δεδομένων. Όπως και στην περίπτωση των χωρικών δεδομένων, έχουν προταθεί ειδικές δομές για να διευκολύνουν την εξόρυξη σε χρονικά δεδομένα (temporal mining ή temporal data mining). Στο σημείο αυτό αξίζει να σημειωθεί ότι είναι δυνατός και ο συνδυασμός των προηγούμενων τεχνικών, όπως για παράδειγμα εξόρυξη σε χωροχρονικά δεδομένα. Δεδομένα Πολυμέσων Στην κατηγορία των πολυμέσων ανήκουν δεδομένα όπως κείμενο, γραφικά, εικόνες, κινούμενες εικόνες, βίντεο, ήχος ή ακόμη και συνδυασμοί των παραπάνω. -18-

29 Κάποια θέματα που σχετίζονται με τις βάσεις δεδομένων πολυμέσων (multimedia databases) είναι τα εξής [Silberschaltz et al 2001]: Οι βάσεις δεδομένων θα πρέπει να παρέχουν την υποστήριξη μεγάλων αντικειμένων, καθώς τα δεδομένα πολυμέσων, όπως το βίντεο, μπορεί να καταλαμβάνουν χώρο της τάξης των gigabytes. Απαιτείται η ανάκτηση των δεδομένων με βάση τις ομοιότητες τους. Για παράδειγμα σε βάσεις δεδομένων που αποθηκεύουν εικόνες με δακτυλικά αποτυπώματα, μπορεί να παρέχεται σε ερώτημα μια εικόνα δακτυλικού αποτυπώματος και να ανακτώνται όλες οι εικόνες των αποτυπωμάτων που είναι όμοιες με αυτή του ερωτήματος. Απαραίτητη είναι η χρήση ειδικών δομών και καταλόγων. Η ανάκτηση κάποιων τύπων δεδομένων, όπως ο ήχος και το βίντεο απαιτεί την ε- πεξεργασία με εγγυημένο, σταθερό ρυθμό. Για παράδειγμα αν ο ήχος δεν παρέχεται στο σωστό χρόνο, ενδεχομένως να υπάρχουν κενά στην αναπαραγωγή του ή αν παρέχεται πολύ γρήγορα μπορεί να συμβεί υπερχείλιση του ενδιάμεσου αποθηκευτικού χώρου. Μερικές από τις περιοχές στις οποίες βρίσκουν εφαρμογή οι βάσεις δεδομένων πολυμέσων είναι η Ιατρική, το Μάρκετινγκ, η εκπαίδευση, η διαφήμιση, και η διασκέδαση Κατανεμημένη και Απανταχού Εξόρυξη από Δεδομένα Η τεχνολογία δικτύων είναι μια από τις πιο ραγδαία εξελισσόμενες περιοχές της πληροφορικής. Το διαδίκτυο (internet), τοπικά δίκτυα, δίκτυα κινητής τηλεφωνίας, ομότιμα δίκτυα (Peer-to-peer) είναι μόνο ορισμένα από τα πιο δημοφιλή και καθώς η έρευνα στον τομέα αυτό συνεχίζεται, στο εγγύς μέλλον αναμένεται να παρουσιαστούν νέα δίκτυα, ασύρματα και μη, πιο πολύπλοκα και με περισσότερες δυνατότητες από τα υπάρχοντα. Η εξάπλωση των δικτύων όχι μόνο έφερε πολλές αλλαγές σε θεμελιώδη ζητήματα των υπολογιστών αλλά θέσπισε και νέα. Ένα τέτοιο παράδειγμα είναι η εμφάνιση κατανεμημένων αρχείων, δηλαδή αρχείων που μπορεί να βρίσκονται τμηματικά σε διάφορα μέρη ανά τον κόσμο. Επόμενο είναι λοιπόν η εξόρυξη σε τέτοιου είδους δεδομένα να χρειάζεται μια εντελώς διαφορετική προσέγγιση από την παραδοσιακή. Αυτή η προσέγγιση είναι η κατανεμημένη και απανταχού εξόρυξη σε δεδομένα (Distributed and Ubiquitous Data Mining). Πιο συγκεκριμένα, το απανταχού αναφέρεται στην εφαρμογή της εξόρυξης σε δεδομένα από καθολικά (Ubiquitous) συστήματα. Η προφανής -19-

30 λύση της συσσώρευσης των δεδομένων σε ένα κεντρικό υπολογιστικό σύστημα, καταρρίπτεται εύκολα αν αναλογιστούμε το απαγορευτικό κόστος ενός τέτοιου συστήματος λόγω μεγάλης χωρητικότητας και τεράστιας υπολογιστικής ισχύος, ή ακόμα το ότι είναι πρακτικά αδύνατο να γίνει συλλογή όλων των πληροφοριών που θα χρειαστούν για τεχνικούς λόγους, για παράδειγμα το εύρος των δικτύων, είτε για λόγους προστασίας δικαιωμάτων. Στις παραγράφους που ακολουθούν θα δούμε ενδεικτικά και με συντομία κάποιες μεθόδους εξόρυξης σε δεδομένα που εφαρμόζονται σε κατανεμημένα και απανταχού, καθολικά συστήματα. Εξόρυξη σε Ομότιμα Δίκτυα Στον χώρο της πληροφορικής ο όρος peer-to-peer έχει ταυτιστεί με τον διαμοιρασμό αρχείων με την γνωστή σύνδεση σημείου προς σημείου χωρίς την ύπαρξη εξυπηρέτη (server). Η ταχύτατη διάδοση και χρησιμοποίηση αυτού του είδους σύνδεσης των υπολογιστών έγινε αφενός λόγω της συνεχώς αυξανόμενης ταχύτητας των δικτύων και αφετέρου λόγω των φθηνών αποθηκευτικών συσκευών. Όπως είναι προφανές τα δεδομένα που είναι αποθηκεμένα σε διάφορους υπολογιστές ανά τον κόσμο, ενοποιημένα δημιουργούν μια σημαντική πηγή δεδομένων που μετά από εξόρυξη θα μπορούσε να εξαχθεί πολύτιμη πληροφορία. Η συλλογή των αρχείων αυτών σε ένα κεντρικό υπολογιστικό σύστημα είναι αδύνατη και επομένως στην ανακάλυψη γνώσης συμμετέχουν διαφορετικοί υπολογιστές με τα δεδομένα που έχει ο καθένας να προσφέρει. Εξόρυξη με Προστασία Προσωπικών Δεδομένων Η εξόρυξη με προστασία δεδομένων (Privacy Preserving Data Mining) προσπαθεί να λύσει ένα από τα σημαντικότερα προβλήματα που αντιμετωπίζει η Ανακάλυψη Γνώσης ως επιστημονικό πεδίο. Την παραβίαση προσωπικών δεδομένων και κατ επέκταση την παραβίαση των δικαιωμάτων του ανθρώπου. Γίνεται αμέσως κατανοητό ότι στο συγκεκριμένο θέμα, συνεργάζονται και άλλες επιστήμες όπως η κοινωνιολογία και μαζί πραγματεύονται θέματα ηθικής φύσεως, που τα όριά τους τις περισσότερες φορές δεν είναι ευδιάκριτα όπως τα ζητήματα των θετικών επιστημών. Σαν παράδειγμα θα μπορούσε να δοθεί η διατήρηση προσωπικών δεδομένων ασθενών, από διαφορετικά νοσοκομεία, που πήραν μέρος σε κάποια έρευνα, κάνοντας χρήση κάποιου φαρμάκου. -20-

31 Εξόρυξη σε Κινητές Συσκευές Πρόσφατα εμφανίστηκαν στην αγορά αρκετές προηγμένες εφαρμογές για κινητά τηλέφωνα όπως σύστημα παρακολούθησης υγείας ή ανιχνευτής οχήματος. Αν και βρίσκονται σε εμβρυικό ακόμα στάδιο αναμένεται να τελειοποιηθούν και να εξαπλωθούν στο άμεσο μέλλον. Η εξόρυξη σε δεδομένα που θα προκύψουν από τις εφαρμογές αυτές ί- σως δώσουν πολύτιμη γνώση σε εξειδικευμένα θέματα. Αυτός είναι και ο τομέας της εξόρυξης από κινητές συσκευές (Data Mining in Mobile and Embedded Devices). Η ε- ξόρυξη σε δεδομένα τέτοιου είδους είναι για πολλούς λόγους πρόκληση. Κανάλια μικρού εύρους ζώνης, μικρής χωρητικότητας μνήμες και τέλος αργής ταχύτητας επεξεργαστές είναι κάποια από τα προβλήματα που υπάρχουν και θα πρέπει να ληφθούν υπόψη κατά τον σχεδιασμό των κατάλληλων αλγορίθμων που θα χρησιμοποιηθούν στην εξόρυξη Εφαρμογές Ανακάλυψης Γνώσης Όπως είναι φυσικό, οι περισσότερες εφαρμογές της περιοχής της ανακάλυψης γνώσης βρίσκονται στο εμπόριο. Πιο συγκεκριμένα πολλές εταιρίες χρησιμοποιούν την ανακάλυψη γνώσης σε θέματα όπως απόκτηση νέων πελατών, αύξηση κερδών από τους υ- πάρχοντες πελάτες καθώς και την διατήρηση καλών πελατών. Ακόμα ο καθορισμός και η εύρεση των χαρακτηριστικών που χαρακτηρίζουν ένα πελάτη καλό, μπορεί να κατευθύνει ορθότερα την διαφημιστική εκστρατεία της εταιρίας. Οι ιατρικές εφαρμογές είναι μία άλλη πολύ σπουδαία περιοχή στην οποία εφαρμόζεται με επιτυχία η ανακάλυψη γνώσης. Για παράδειγμα η ανακάλυψη συσχετίσεων μεταξύ ασθενειών και άλλων χαρακτηριστικών όπως ο τόπος διαμονής ή οι διατροφικές συνήθειες, μπορούν να οδηγήσουν σε νέα, πολύτιμη γνώση για την ιατρική επιστήμη. Ολοκληρώνοντας θα αναφερθούμε εφαρμογή της ανακάλυψης γνώσης στην επιστήμη της βιολογίας. Στο σημείο αυτό θα αρκεστούμε στο να αναφέρουμε ότι είναι ένας συγκερασμός επιστημών που έχει δώσει αρκετά αποτελέσματα και η ραγδαία εξέλιξη του προμηνύει ακόμα περισσότερα στο μέλλον σε θέματα που αφορούν για παράδειγμα α- νάλυση αλληλουχιών γονιδιωμάτων. Το θέμα της Βιοπληροφορικής (Bioinformatics) εξετάζεται διεξοδικά στο τέταρτο κεφάλαιο της παρούσας διπλωματικής. -21-

32 -22-

33 3 Μοριακή Βιολογία O εικοστός αιώνας σημαδεύτηκε με μεγάλες ανακαλύψεις σε όλους σχεδόν τους επιστημονικούς τομείς. Αναμφίβολα μία από τις επιστήμες με την μεγαλύτερη ανάπτυξη υπήρξε και η μοριακή βιολογία (molecular biology). Πιο συγκεκριμένα, η ανακάλυψη της διπλής έλικας του DNA το 1953 από τους James Watson και Francis Crick (εικόνα 3.1) και η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος πάνω στην αλλαγή του 20 ου αιώνα, όχι μόνο έδωσαν τρομερή ώθηση στην μοριακή βιολογία αλλά και άνοιξαν νέους ορίζοντες επιστημονικής έρευνας σε άλλες επιστήμες με χαρακτηριστικό παράδειγμα την Βιοπληροφορική. Μοριακή βιολογία είναι η μελέτη της βιολογίας σε μοριακό επίπεδο. Το πεδίο αυτό είναι ουσιαστικά τομή δύο επιστημών, της βιολογίας και της χημείας και πιο συγκεκριμένα των πιο εξειδικευμένων τομέων τους, τη Γενετική (genetics) και τη Βιοχημεία (Biochemistry) αντίστοιχα. Η μοριακή βιολογία ασχολείται κυρίως με τη μελέτη του κύτταρου, του DNA, του RNA, των λειτουργιών και της δομής τους. Αυτά είναι σε γενικές γραμμές και τα ζητήματα που θα μας απασχολήσουν στο κεφάλαιο αυτό. Εικόνα 3.1: Περιγραφή του μοντέλου της διπλής έλικας του DNA από τους Watson και Crick. -23-

34 3.1 Το Κύτταρο Ως κύτταρο εννοείται μια συστηματικά οργανωμένη ομάδα μορίων που βρίσκονται σε δυναμική αλληλεπίδραση μεταξύ τους. Το κύτταρο διαθέτει μορφολογική, φυσική και χημική οργάνωση και την ικανότητα της αφομοίωσης, της ανάπτυξης και της αναπαραγωγής. Είναι μια μονάδα της ζωής ανεξάρτητη ως προς την αυτορρύθμιση και την προσαρμοστικότητά της σε σχέση με το περιβάλλον [wiki]. Στην παράγραφο αυτή θα μελετήσουμε τα κυριότερα θέματα που σχετίζονται με το κύτταρο Κυτταρική Θεωρία Είναι πλέον γνωστό σε όλους ότι οι οργανισμοί αποτελούνται από κύτταρα. Αυτό είναι το βασικό συμπέρασμα της κυτταρικής θεωρίας που ασχολείται με την περιγραφή της δομής και των ιδιοτήτων της έμβιας ύλης. Η κυτταρική θεωρία περιλαμβάνει αποτελέσματα μιας σειράς μελετών, παρατηρήσεων και συμπερασμάτων τα οποία διήρκησαν περισσότερο από 170 χρόνια. Η αρχή σηματοδοτείται το 1665 όταν ο Robert Hooke ανέφερε για πρώτη φορά τη λέξη κύτταρο, παρατηρώντας με το δικής του κατασκευής μικροσκόπιο, λεπτές τομές φελλού και όχι ζωντανά κύτταρα [Hooke, 1665]. Η εικόνα 3.2 δείχνει την παρατήρηση του Hooke. Εικόνα 3.2: Παρατήρηση με το μικροσκόπιο του Hooke Η κυτταρική θεωρία διατυπώθηκε πολύ αργότερα το από τους Schleiden και Schwann, που υποστήριξαν ότι η θεμελιώδης δομική και λειτουργική μονάδα όλων -24-

35 των οργανισμών είναι το κύτταρο που σημαίνει ότι το κύτταρο είναι η μικρότερη δομή στη φύση όπου εμφανίζεται το φαινόμενο της ζωής. Συνοπτικά η κυτταρική θεωρία στη σύγχρονη μορφή της υποστηρίζει ότι: Όλοι οι οργανισμοί αποτελούνται από κύτταρα και κυτταρικά παράγωγα. Όλα τα κύτταρα δομούνται από τις ίδιες χημικές ενώσεις και εκδηλώνουν παρόμοιες μεταβολικές διεργασίες. Η λειτουργία των οργανισμών είναι το αποτέλεσμα της συλλογικής δράσης και αλληλεπίδρασης των κυττάρων που τους αποτελούν. Κάθε κύτταρο προέρχεται από την διαίρεση προϋπάρχοντος κυττάρου Η Δομή του Κυττάρου Τα κύτταρα με βάση την πολυπλοκότητα της κατασκευής τους και κυρίως την ύπαρξη ή όχι μεμβράνης που περιβάλλει το γενετικό τους υλικό διακρίνονται σε προκαρυωτικά και ευκαρυωτικά. Η μεμβράνη αυτή μαζί με το γενετικό υλικό σχηματίζει τον πυρήνα. Θεωρείται ότι τα προκαρυωτικά κύτταρα κατά την εξελικτική διαδικασία, προϋπήρξαν των ευκαρυωτικών. Τα κύτταρα δεν είναι όλα ίδια. Στον άνθρωπο για παράδειγμα υπάρχουν περίπου 100 είδη κυττάρων. Για τον λόγο αυτό η περιγραφή του κυττάρου γίνεται μέσα από ένα ανύπαρκτο ουσιαστικά κύτταρο, το οποίο συγκεντρώνει όλα τα κοινά γνωρίσματα των κυττάρων και ονομάζεται τυπικό κύτταρο (εικόνα 3.3). Το τυπικό κύτταρο οριοθετείται από το εξωτερικό περιβάλλον με την πλασματική μεμβράνη. Παρακάτω θα παρουσιάσουμε την πλασματική μεμβράνη καθώς και τα σημαντικότερα οργανίδια του κυττάρου. -25-

36 Εικόνα 3.3: Το τυπικό ευκαρυωτικό κύτταρο Πλασματική Μεμβράνη Πλασματική μεμβράνη ονομάζεται η μεμβράνη που οριοθετεί το κύτταρο σε σχέση με το εξωτερικό του περιβάλλον. Εκτός όμως από την προφανή αυτή χρησιμότητά της ε- κτελεί και δύο άλλες βασικότατες λειτουργίες. Καταρχάς ελέγχει τις ουσίες που εξέρχονται και εισέρχονται στο κύτταρο. Εδώ αξίζει να αναφερθεί ότι ο κύριος χαρακτηρισμός της είναι επιλεκτικά διαπερατή. Η δεύτερη πολύ σημαντική λειτουργία της πλασματικής μεμβράνης είναι η υποδοχή και ερμηνεία μηνυμάτων από το περιβάλλον του κυττάρου. Τα μηνύματα αυτά εξυπηρετούν με διάφορους τρόπους τα κύτταρα όπως να αναγνωρίζονται μεταξύ τους αν είναι όμοια, να συντονίζουν την δράση τους έτσι ώστε το όργανο ή ο ιστός στο οποίο ανήκουν να εμφανίζει ενιαία λειτουργία και τέλος να τροποποιούν την λειτουργία τους κατά τις μεταβολές του περιβάλλοντος. -26-

37 Πυρήνας Ο πυρήνας είναι το πιο ευδιάκριτο οργανίδιο των ευκαρυωτικών κυττάρων. Περιβάλλεται από τον πυρηνικό φάκελο ή αλλιώς πυρηνική μεμβράνη που τον διαχωρίζει από το κυτταρόπλασμα. Η πυρηνική μεμβράνη εκτελεί κατ αναλογία, τις ίδιες λειτουργίες με την κυτταρική μεμβράνη. Πιο συγκεκριμένα, ανταλλάσει μηνύματα με τα οργανίδια που βρίσκονται στο κυτταρόπλασμα και ακόμα ελέγχει τα μακρομόρια που ανταλλάσσονται μεταξύ τους. Το εσωτερικό του πυρήνα καταλαμβάνεται από το πυρηνόπλασμα, μια ημίρρευστη ουσία στην οποία περιέχονται το σύνολο σχεδόν του DNA του ευκαρυωτικού κυττάρου, ένας ή περισσότεροι πηρυνίσκοι και διάφορες χημικές ενώσεις όπως νουκλεοτίδια ένζυμα και πρωτεΐνες. Ο πυρηνίσκος είναι μια δομή που βρίσκεται στο κέντρο του πυρήνα και διακρίνεται εύκολα στο μικροσκόπιο από το σφαιρικό σχήμα της και την πυκνή υφή της. Αποτελείται κυρίως από DNA και RNA και δεν περιβάλλεται από στοιχειώδη μεμβράνη. Στον πυρηνίσκο συντίθεται και το rrna (ριβοσωμικό RNA). Ο ρόλος του πυρήνα για την ζωή του κυττάρου είναι πολύ σημαντικός καθώς είναι το οργανίδιο που φυλάσσει το γενετικό υλικό, που διασφαλίζει τον διπλασιασμό του και τέλος στο εσωτερικό του συντίθενται τα διάφορα είδη RNA από τις πληροφορίες που φέρει το DNA. Ένα παράδειγμα που δείχνει την σημαντικότητα του πυρήνα για την ζωή του κυττάρου είναι το γεγονός ότι τα κύτταρα τα οποία έχασαν τον πυρήνα τους κατά την διαφοροποίησή τους όπως τα ερυθρά αιμοσφαίρια, δεν αναπαράγονται και εμφανίζουν μικρό αριθμό μεταβολικών διεργασιών και περιορισμένη διάρκεια ζωής. 3.2 Η Ζωή στο Μοριακό Επίπεδο Στην παράγραφο αυτή θα ασχοληθούμε με τα σημαντικότερα βιομόρια (Biomolecules). Όπως φανερώνει και η ονομασία τους, είναι τα μόρια που σχετίζονται με το φαινόμενο της ζωής. Πιο συγκεκριμένα θα ασχοληθούμε με τα νουκλεϊκά οξέα (DNA και RNA) και τις πρωτεΐνες. Και τα τρία αυτά βιομόρια ανήκουν στα μακρομόρια (macromolecules) (μεγάλα μόρια), τα οποία αποτελούνται από μικρά μόρια (small molecules). Μικρά μόρια είναι τα νουκλεοτίδια και τα αμινοξέα στα οποία δεν θα γίνει ιδιαίτερη αναφορά, παρά μόνο ως δομικά στοιχεία κατά την περιγραφή του αντίστοιχου μακρομορίου. -27-

38 3.2.1 Πρωτεΐνες Οι πρωτεΐνες (proteins) παίζουν σημαντικούς ρόλους σε όλες σχεδόν τις βιολογικές διεργασίες. Ο όρος πρωτεΐνη προέρχεται από την λέξη πρώτος και χρησιμοποιήθηκε για πρώτη φορά από τον J. Berzelius το 1838 για να τονίσει την σημασία αυτής της τάξης των μορίων, παρόλο που ακόμα δεν ήταν πλήρως γνωστό το εύρος της χρησιμότητας τους. Οι πρωτεΐνες δομούνται από είκοσι μόνο αμινοξέα. Παρόλα αυτά υπάρχει μια τεράστια ποικιλία στις δράσεις τους. Οι κυριότερες από αυτές αναφέρονται παρακάτω [Stryer, 1997]: Ενζυμική κατάλυση. Σχεδόν όλες οι χημικές αντιδράσεις στα βιολογικά συστήματα καταλύονται από ειδικά μακρομόρια που λέγονται ένζυμα. Σχεδόν όλα τα γνωστά ένζυμα είναι πρωτεΐνες και εμφανίζουν τεράστια καταλυτική δύναμη, αφού συνήθως αυξάνουν το ρυθμό μιας αντίδρασης τουλάχιστον κατά ένα εκατομμύριο φορές. Μεταφορά και αποθήκευση. Πολλά μικρά μόρια και ιόντα μεταφέρονται από ειδικές πρωτεΐνες. Για παράδειγμα, η αιμοσφαιρίνη μεταφέρει οξυγόνο στα ερυθροκύτταρα, ενώ η μυοσφαιρίνη, μια συγγενής πρωτεΐνη, μεταφέρει οξυγόνο στους μύες. Ο σίδηρος μεταφέρεται στο πλάσμα του αίματος από την τρανσφερρίνη και αποθηκεύεται στο ήπαρ ως σύμπλοκο με μια άλλη πρωτεΐνη, την φερριτίνη. Συνδυασμένη κίνηση. Οι μύες αποτελούνται κυρίως από πρωτεΐνες. Η κίνηση των μυών επιτυγχάνεται με την διολίσθηση μεταξύ δύο πρωτεϊνικών ινών. Μηχανική στήριξη. Η μεγάλη αντοχή του δέρματος και των οστών σε διάφορες κακώσεις, είναι αποτέλεσμα της ύπαρξης κολλαγόνου, μιας ινώδους πρωτεΐνης. Ανοσολογική προφύλαξη. Τα αντισώματα είναι και αυτά ιδιαίτερα εξειδικευμένες πρωτεΐνες που παίζουν σημαντικό ρόλο στην προφύλαξη του ανθρώπινου οργανισμού. Επίπεδα Οργάνωσης των Πρωτεϊνών Υπάρχουν τέσσερα επίπεδα οργάνωσης (conformation) των πρωτεϊνών [Brazma et al. 2001]: -28-

39 Οι πρωτεΐνες είναι αλυσίδες των 20 διαφορετικών αμινοξέων, τα οποία μπορούν να ενωθούν σε οποιαδήποτε γραμμική διάταξη. Οι αλυσίδες αυτές καλούνται πολυπεπτίδια (polypeptides) ή πολυπεπτιδικές αλυσίδες (polypeptide chains). Αυτή η αλληλουχία των αμινοξέων στην πολυπεπτιδική αλυσίδα αποτελεί την πρωτοταγή δομή (primary structure) και μπορεί να αναπαρασταθεί ως συμβολοσειρά από το συνδυασμό 20 διαφορετικών συμβόλων. Η δευτεροταγής δομή (secondary structure) οφείλεται στην αναδίπλωση της πολυπεπτιδικής αλυσίδας. Υπάρχουν δύο υποδομές που φαίνονται συχνά μέσα στις διπλωμένες αλυσίδες, οι α-έλικες (α-helices) και οι β-κλώνοι (β-strands). Ενώνονται τυπικά από λιγότερο κανονικές δομές, αποκαλούμενες βρόχους (loops). Ως αποτέλεσμα του διπλώματος, τα μέρη του πρωτεϊνικού μορίου πλησιάζουν μεταξύ τους και οι διάφορες ελκτικές ή απωστικές δυνάμεις (δεσμοί υδρογόνου, δισουλφιδικές γέφυρες, έλξεις μεταξύ θετικών και αρνητικών φορτίων, υδρόφοβες και υδρόφιλες δυνάμεις) μεταξύ αυτών των μερών αναγκάζουν το μόριο να αποκτήσει μια σχετικά σταθερή τρισδιάστατη δομή. Αυτή είναι η τριτοταγής δομή (tertiary structure). Σε πολλές περιπτώσεις αυτή η τρισδιάστατη δομή είναι αρκετά συμπαγής. Η τεταρτοταγής δομή (quaternary structure) είναι η τελική τρισδιάστατη μορφή που παίρνει η πρωτεΐνη, όταν αποτελείται από περισσότερες της μίας πολυπεπτιδικές αλυσίδες. Τα τέσσερα επίπεδα οργάνωσης καθορίζονται τόσο από την πρωτοταγή δομή όσο και από το φυσικοχημικό περιβάλλον στο οποίο βρίσκεται το μόριο της πρωτεΐνης. Η πρόβλεψη της δομής της πρωτεΐνης από την αλληλουχία των αμινοξέων είναι ένα από τα σημαντικότερα προβλήματα που αντιμετωπίζει η Βιοπληροφορική. Στην Εικόνα 3.4 παρουσιάζονται τα τέσσερα επίπεδα της πρωτεϊνικής δομής. -29-

40 Πρωτοταγής δομή Δευτεροταγής δομή Τριτοταγής δομή Τεταρτοταγής δομή Εικόνα 3.4: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών DNA Το δεοξυριβονουκλεϊκό οξύ (deoxyribonucleic acid), ή αλλιώς DNA αποτελεί το γενετικό υλικό όλων των κυττάρων και των περισσότερων ιών. Παρόλα αυτά πολλοί ιοί έχουν σαν γενετικό υλικό το RNA (RNA ιοί) με χαρακτηριστικότερο παράδειγμα τον ιό HIV. Το DNA είναι ένα πολύ επίμηκες μόριο που μοιάζει με νήμα και αποτελείται από ένα μεγάλο αριθμό δεοξυριβονουκλεοτιδίων, το καθένα από τα οποία έχει μία αζωτούχο βάση, μία πεντόζη και μία φωσφορική ομάδα. Οι βάσεις του DNA μεταφέρουν την γενετική πληροφορία, ενώ η πεντόζη και η φωσφορική ομάδα έχουν δομικό ρόλο [Stryer, 1997]. Οι κυριότερες λειτουργίες του γενετικού υλικού συνοψίζονται στα παρακάτω: Η αποθήκευση της γενετικής πληροφορίας. Στο DNA περιέχονται οι πληροφορίες που καθορίζουν όλα τα χαρακτηριστικά ενός οργανισμού και οργανώνονται σε λειτουργικές μονάδες, τα γονίδια. Η διατήρηση και μεταβίβαση της γενετικής πληροφορίας από κύτταρο σε κύτταρο και από οργανισμό σε οργανισμό. Η έκφραση των γενετικών πληροφοριών, που επιτυγχάνεται με τον έλεγχο της σύνθεσης των πρωτεϊνών. -30-

41 Νουκλεοτίδια και Σύσταση του DNA Το DNA είναι ένα μακρομόριο που αποτελείται από νουκλεοτίδια. Κάθε νουκλεοτίδιο του DNA αποτελείται από μία πεντόζη, την δεοξυριβόζη, ενωμένη με μια φωσφορική ομάδα και μια αζωτούχο βάση. Στα νουκλεοτίδια του DNA αζωτούχος βάση μπορεί να είναι μία από τις Αδενίνη/Α (Adenine), Γουανίνη/G (Guanine), Θυμίνη/T (Thymine), Κυτοσίνη/C (Cytosine). Στον πίνακα 3.1 δίνονται τέσσερις βάσεις μαζί με ακόμα μια την Ουρακίλη/U (Uracil) η οποία όπως θα δούμε παρακάτω είναι συστατικό του RNA. Όνομα Συμβολισμός Μοριακή Δομή Αδενίνη Adenine A Γουανίνη Guanine G Θυμίνη Thymine T Κυτοσίνη Cytosine C Ουρακίλη Uracil U Πίνακας 3.1: Οι 5 νουκλεοτιδικές βάσεις. Γκρι: Άνθρακας, Κόκκινο: Οξυγόνο, Λευκό: Υδρογόνο, Μπλε: Άζωτο. -31-

42 Η εικόνα 3.5 παρουσιάζει μία αναλυτικότερη άποψη του DNA. Σε κάθε νουκλεοτίδιο η αζωτούχος βάση συνδέεται με τον 1 άνθρακα της δεοξυριβόζης και η φωσφορική ομάδα με τον 5 άνθρακα. Μια πολυνουκλεοτιδική αλυσίδα σχηματίζεται από την ένωση πολλών νουκλεοτιδίων με ομοιοπολικό δεσμό. Ο δεσμός αυτός δημιουργείται μεταξύ του υδροξυλίου του 3 άνθρακα της πεντόζης του πρώτου νουκλεοτιδίου και της φωσφορικής ομάδας που είναι συνδεδεμένη στον 5 άνθρακα της πεντόζης του επόμενου νουκλεοτιδίου. Ο δεσμός αυτός ονομάζεται 3-5 φωσφοδιεστερικός δεσμός. Ανεξάρτητα από τον αριθμό τον νουκλεοτιδίων που αποτελούν την πολυνουκλεοτιδική αλυσίδα, το πρώτο της νουκλεοτίδιο έχει πάντα μια ελεύθερη φωσφορική ομάδα συνδεδεμένη στο 5 άνθρακα της πεντόζης του και το τελευταίο νοκλεοτίδιο της έχει ελεύθερο το υδροξύλιο του 3 άνθρακα της πεντόζης του. Γι αυτό τον λόγο αναφέρεται ότι ο προσανατολισμός της πολυνουκλεοτιδικής αλυσίδας είναι 5 3. Εικόνα 3.5: Αναλυτικότερη άποψη του δίκλωνου μορίου του DNA. Δομή του DNA Αν και η χημική σύσταση του DNA ήταν γνωστή από πειράματα, δεν υπήρχε κάποια αποδεκτή πρόταση για την δομή του DNA στο χώρο μέχρι το Τη χρονιά εκείνη, οι James Watson και Francis Crick ανέλυσαν φωτογραφίες περίθλασης ακτίνων X από ίνες DNA που είχαν πάρει η Rosalind Franklin και ο Maurice Wilkins και πρότειναν ένα δομικό μοντέλο, το μοντέλο της διπλής έλικας του DNA, που αποδείχτηκε μετέπειτα -32-

43 αληθινό. Τα κυριότερα σημεία αυτού είναι τα παρακάτω [Stryer L. 1997, Αλεπόρου- Μαρίνου κ.α., 2003] : Δύο ελικοειδής πολυνουκλεοτιδικές αλυσίδες με αντίθετες κατευθύνσεις περιστρέφονται γύρω από ένα κοινό άξονα. Η διπλή έλικα έχει ένα σταθερό σκελετό, που αποτελείται από επαναλαμβανόμενα μόρια φωσφορικής ομάδας-δεοξυριβόζης ενωμένων με φωσφοδιεστερικό δεσμό. Ο σκελετός αυτός είναι υδρόφιλος και βρίσκεται στο εξωτερικό του μορίου. Προς το εσωτερικό του σταθερού αυτού σκελετού βρίσκονται οι αζωτούχες βάσεις που είναι υδρόφοβες. Οι αζωτούχες βάσεις της μιας αλυσίδας συνδέονται με δεσμούς υδρογόνου με τις αζωτούχες βάσεις της απέναντι αλυσίδας με βάση τον κανόνα της συμπληρωματικότητας. Η αδενίνη συνδέεται μόνο με θυμίνη και αντίστροφα, ενώ η κυτοσίνη συνδέεται μόνο με γουανίνη και αντίστροφα. Οι δεσμοί υδρογόνου που αναπτύσσονται μεταξύ των βάσεων σταθεροποιούν τη δευτεροταγή δομή του μορίου. Οι δύο αλυσίδες ενός μορίου DNA είναι συμπληρωματικές. Αυτό υποδηλώνει ότι η αλληλουχία της μιας καθορίζει την αλληλουχία της άλλης. Η συμπληρωματικότητα καθιστά το DNA το καταλληλότερο μόριο για τη διατήρηση και την μεταβίβαση της γενετικής πληροφορίας. Οι δύο αλυσίδες είναι αντιπαράλληλες, δηλαδή το 3 άκρο της μιας είναι απέναντι από το 5 άκρο της άλλης. Η αλληλουχία των βάσεων κατά μήκος της πολυνουκλεοτιδικής αλυσίδας δεν έχει κανένα περιορισμό. Η ακριβής αλληλουχία των βάσεων μεταφέρει τις γενετικές πληροφορίες -33-

44 Εικόνα 3.6: Αλυσίδα DNA RNA Όπως προαναφέρθηκε, τα γονίδια όλων των προκαρυωτικών και ευκαρυωτικών οργανισμών αποτελούνται από DNA. Στους ιούς τα γονίδια αποτελούνται είτε από DNA ή από RNA (ριβονουκλεϊκό οξύ). Παρόλα αυτά οι κύριες λειτουργίες του RNA σχετίζονται με την πρωτεϊνοσύνθεση. Το RNA, όπως το DNA, είναι ένα πολυμερές που αποτελείται από νουκλεοτίδια ενωμένα με 3-5 φωσφοδιεστερικούς δεσμούς. Η δομή του RNA διαφέρει από αυτή του DNA σε δυο σημεία. Η πρώτη διαφορά είναι ότι η πεντόζη στο RNA είναι η ριβόζη και όχι η δεοξυριβόζη. Η δεύτερη διαφορά είναι ότι μια από τις τέσσερις κύριες βάσεις στο RNA είναι η ουρακίλη/u αντί της θυμίνης/t. Υπάρχουν τέσσερα είδη RNA που σχετίζονται με την διαδικασία της πρωτεϊνοσύνθεσης: Το Αγγελιαφόρο RNA (messenger RNA- mrna), το οποίο μεταφέρει την πληροφορία του DNA για την παραγωγή μιας πολυπεπτιδικής αλυσίδας. Το ριβοσωμικό RNA (ribosomal RNA- rrna), το οποίο συνδέεται με πρωτεΐνες και σχηματίζει το ριβόσωμα, που είναι απαραίτητο για την πρωτεϊνοσύνθεση. Μεταφορικό RNA (transfer RNA- trna), το οποίο μεταφέρει τα αμινοξέα στην περιοχή της πρωτεϊνοσύνθεσης. Μικρό πυρηνικό RNA (small nuclear RNA- snrna), το οποίο συνδέεται με πρωτεΐνες και σχηματίζει ριβονουκλεοπρωτεΐνικά σωματίδια, τα οποία καταλύουν την διαδικασία της ωρίμανσης του mrna. -34-

45 Στην παράγραφο αυτή ήταν απαραίτητο να γίνει αναφορά σε κάποιες διεργασίες όπως πρωτεϊνοσύνθεση ή ωρίμανση mrna, χωρίς καμία επεξήγηση, οι οποίες θα αναλυθούν στις παρακάτω παραγράφους. 3.3 Γονίδια και Γονιδίωμα Το γενετικό υλικό των προκαρυωτικών κυττάρων είναι ένα δίκλωνο κυκλικό μόριο DNA. Αντίθετα με τα προκαρυωτικά, τα ευκαρυωτικά κύτταρα περιέχουν πολλά γραμμικά μόρια DNA, ο αριθμός και το μήκος των οποίων είναι χαρακτηριστικά για τα διάφορα είδη των οργανισμών. Τα μόρια αυτά καλούνται χρωμοσώματα (chromosomes). [Brazma A. et al 2001, Hunter 1993] Σε κάποιους οργανισμούς που καλούνται διπλοειδείς (diploids), κάθε χρωμόσωμα περιέχεται σε δύο αντίγραφα, τα οποία καλούνται ο- μόλογα χρωμοσώματα (homologous chromosomes). Οργανισμοί με ένα αντίγραφο του DNA στα χρωμοσώματά τους, καλούνται απλοειδείς (haploids). Ο άνθρωπος είναι διπλοειδής και έχει 23 ζεύγη χρωμοσωμάτων. Οι προκαρυωτικοί οργανισμοί είναι απλοειδείς [Αλεπόρου- Μαρίνου κ.α., 2003]. Η απεικόνιση του συνόλου των χρωμοσωμάτων ενός ατόμου ταξινομημένων σε μια πρότυπη μορφή στην οποία φαίνεται ο αριθμός, το μέγεθος και το σχήμα των χρωμοσωμάτων καλείται καρυότυπος (karyotype) [HyperDictionary]. Τα χρωμοσώματα που είναι μορφολογικά ίδια στο αρσενικό και το θηλυκό άτομο καλούνται αυτοσωμικά (autosomes). Τα χρωμοσώματα που καθορίζουν το φύλλο ενός οργανισμού καλούνται φυλετικά χρωμοσώματα (sex chromosomes). Για παράδειγμα στον άνθρωπο υπάρχουν 22 ζεύγη αυτοσωμικών χρωμοσωμάτων και δύο χρωμοσώματα τα X και Y, που καθορίζουν το θηλυκό και το αρσενικό άτομο αντίστοιχα. Τα θηλυκά άτομα περιλαμβάνουν το ζεύγος ΧΧ, ενώ τα αρσενικά το ζεύγος XY. Η Εικόνα 3.7 παρουσιάζει τον καρυότυπο ενός φυσιολογικού αρσενικού ατόμου και η Εικόνα 3.8 τον καρυότυπο ενός φυσιολογικού θηλυκού ατόμου. -35-

46 Εικόνα 3.7: Καρυότυπος αρσενικού ατόμου. Εικόνα 3.8: Καρυότυπος θηλυκού ατόμου. Στα ευκαρυωτικά κύτταρα το γενετικό υλικό κατανέμεται στον πυρήνα, στα μιτοχόνδρια και στους χλωροπλάστες. Το γενετικό υλικό σε όλα τα κύτταρα ενός οργανισμού είναι το ίδιο (με λίγες ειδικές εξαιρέσεις). Το σύνολο του γενετικού υλικού ενός οργανισμού καλείται γονιδίωμα ή γένωμα (genome). Το γονίδιο (gene) είναι ένα συνεχές τμήμα μορίου χρωμοσωμικού DNA στο οποίο περιέχονται πληροφορίες που καθορίζουν τη σύνθεση ενός συγκεκριμένου τύπου πρωτεΐνης ή ενός μικρού αριθμού διαφορετικών πρωτεϊνών. Υπάρχουν, επίσης, γονίδια που περιέχουν πληροφορίες για τη σύνθεση μορίων RNA [Brazma A. et al 2001]. Το γονίδιο είναι η βασική μονάδα κληρονομι- -36-

47 κότητας. Η εικόνα 3.9 δείχνει την σχέση μεγέθους από την αλυσίδα του DNA ως το χρωμόσωμα. Εικόνα 3.9: Από το DNA στο Χρωμόσωμα Σημαντικές στη Μοριακή Βιολογία και τη Γενετική (Genetics) είναι οι έννοιες του γονότυπου (genotype) και του φαινότυπου (phenotype). O γονότυπος είναι η συγκεκριμένη γενετική σύσταση ενός ατόμου, ενώ ο φαινότυπος είναι, είτε η συνολική φυσική του εμφάνιση, είτε η συγκεκριμένη εκδήλωση ενός χαρακτηριστικού (π.χ. χρώμα ματιών). Συνήθως η έννοια του γονότυπου χρησιμοποιείται για να περιγράψει ένα συγκεκριμένο γονίδιο που συγκεντρώνει το ενδιαφέρον ή έναν αριθμό γονιδίων. Στην περίπτωση των διπλοειδών οργανισμών ο γονότυπος αναφέρεται στα γονίδια που βρίσκονται στην ίδια θέση των ομόλογων χρωμοσωμάτων και ελέγχουν την ίδια ιδιότητα, με τον ίδιο ή διαφορετικό ενδεχομένως τρόπο. Τα γονίδια αυτά καλούνται αλληλόμορφα γονίδια (alleles). Η σχέση μεταξύ γονότυπου και φαινότυπου δεν είναι άμεση. Κάποια γονίδια μπορεί να εκφράσουν ένα συγκεκριμένο φαινότυπο αν βρεθούν στις κατάλληλες περιβαλλοντικές συνθήκες. Συνεπώς η σχέση γονότυπου και φαινοτύπου μπορεί να περιγραφεί ως εξής: γονότυπος + περιβάλλον φαινότυπος. -37-

48 3.4 Το κεντρικό Δόγμα της Μοριακής Βιολογίας Όπως προαναφέραμε το DNA περιέχει αποθηκευμένες ακριβείς οδηγίες οι οποίες καθορίζουν την δομή και την λειτουργία του οργανισμού. Ταυτόχρονα περιέχει και την οδηγία για τον αυτοδιπλασιασμό του, μέσω της αντιγραφής (replication), εξασφαλίζοντας έτσι την μεταβίβαση των γενετικών οδηγιών από το ένα κύτταρο στα θυγατρικά του και από έναν οργανισμό στους απογόνους. Το πρώτο βήμα για την έκφραση της πληροφορίας που υπάρχει στο DNA είναι η μεταφορά της στο RNA με την διαδικασία της μεταγραφής (transcription). Το RNA μεταφέρει με την σειρά του, μέσω της διαδικασίας της μετάφρασης (translation), την πληροφορία στις πρωτεΐνες που είναι υπεύθυνες για την δομή και λειτουργία των κυττάρων και κατ επέκταση και των οργανισμών. Η σχέση αυτή αποτελεί το Κεντρικό Δόγμα της Βιολογίας (Central Dogma of Molecular Biology) όπως ονομάστηκε από τον Francis Crick το Σχηματικά το κεντρικό δόγμα έχει ως εξής: DNA RNA Πρωτεΐνες Εικόνα 3.10: Κεντρικό δόγμα της Μοριακής Βιολογίας (Francis Crick) Όπως προαναφέρθηκε σε προηγούμενη παράγραφο η γενετική πληροφορία υπάρχει σε τμήματα DNA με συγκεκριμένη ακολουθία και ονομάζονται γονίδια. Αυτά διαμέσου της αντιγραφής και της μετάφρασης, καθορίζουν την σειρά των αμινοξέων στην πρωτεΐνη. Οι πορείες της μεταγραφής και της μετάφρασης αποτελούν την γονιδιακή έκφραση. Στην εικόνα 3.11 δίνεται μια πιο λεπτομερής περιγραφή του κεντρικού δόγματος της μοριακή βιολογίας. -38-

49 Εικόνα 3.11: Αναλυτικότερη άποψη του Κεντρικού Δόγματος της Βιολογίας (Francis Crick) Η παραπάνω πρόταση για το κεντρικό δόγμα της μοριακής βιολογίας έχει πλέον αντικατασταθεί από μία πιο σύγχρονη που λαμβάνει υπόψη της ότι κάποιοι ιοί έχουν RNA ως γενετικό υλικό. Ένα ένζυμο, η αντίστροφη μεταγραφάση, χρησιμοποιεί ως καλούπι το RNA για να συνθέσει DNA. Επί πλέον το RNA έχει την ικανότητα να αυτοδιπλασιάζεται. Σχηματικά το σύγχρονο κεντρικό δόγμα της μοριακής βιολογίας έχει ως εξής: Αντιγραφή DNA Μεταγραφή Αντίστροφη Αντιγραφή RNA Μετάφραση Πρωτεΐνες Μεταγραφή Εικόνα 3.12: Το Σύγχρονο Κεντρικό Δόγμα της Μοριακής Βιολογίας -39-

50 Στις παρακάτω παραγράφους θα παρουσιάσουμε συνοπτικά της διαδικασίες της αντιγραφής, μεταγραφής και μετάφρασης του DNA Αντιγραφή του DNA Από το 1953 και μετά αρκετές υποθέσεις είχαν γίνει για τον τρόπο αντιγραφής του DNA. Οι Watson και Crick βασισμένοι στο ειδικό ζευγάρωμα των βάσεων πίστευαν ότι ο μηχανισμός αντιγραφής του θα είναι πολύ απλός. Εξαρχής είχαν κυριαρχήσει τρία υποθετικά μοντέλα για τον τρόπο αντιγραφής του DNA [wiki, web.mit.edu, Bates K], (εικόνα 3.13): Ο συντηρητικός (conservative), κατά τον οποίο το μητρικό μόριο DNA διατηρεί την αρχική μορφή του, ενώ το θυγατρικό αποτελείται από δύο νέες αλυσίδες. Ο ημισυντηρητικός (semi conservative), κατά τον οποίο τα δύο μόρια που προκύπτουν αποτελούνται από μια παλιά και μια νέα αλυσίδα. Ο διασπαρτικός (dispersive), σύμφωνα με τον οποίο τα δύο μόρια περιέχουν τυχαίες περιοχές και των παλιών και των νέων αλυσίδων. Εικόνα 3.13: Υποθετικά Μοντέλα Αντιγραφής DNA Το 1957 οι Matthew Meselson και Franklin Stahl απέδειξαν μέσω πειραματικής διαδικασίας ότι ο τρόπος αντιγραφής του DNA είναι ο ημισυντηρητικός. -40-

51 Τα Ένζυμα της Αντιγραφής του DNA Κατά την αντιγραφή του DNA διάφορα ένζυμα βοηθούν στις επιμέρους εργασίες τα κυριότερα είναι [Stryer L. 1997, web.mit.edu]: DNA ελικάσες (Helicase). Σπάζουν τους υδρογονικούς δεσμούς μεταξύ των δύο αλυσίδων. DNA πολυμεράσες (Polymerase). Υπάρχουν τρία είδη DNA πολυμεράσης και θεωρούνται τα κύρια ένζυμα της αντιγραφής του DNA. Οι λειτουργίες τους είναι ποικίλες από η επιμήκυνση της αλυσίδας μέχρι την διόρθωση λαθών που οι ίδιες έχουν κάνει. Πριμάση (Primase). Είναι το κύριο ένζυμο ενός σύμπλοκου ενζύμων που καλείται πριμόσωμα (primosome), το οποίο συνθέτει στις θέσεις έναρξης αντιγραφής μικρά τμήματα RNA συμπληρωματικά προς τις μητρικές αλυσίδες, τα πρωταρχικά τμήματα. DNA δεσμάσες (Ligase). Αναλαμβάνουν να ενώσουν τα ασυνεχή τμήματα DNA των νέων αλυσίδων. Ο Μηχανισμός Αντιγραφής του DNA Για να αρχίσει η αντιγραφή του DNA, οι δύο αλυσίδες του μητρικού μορίου ξετυλίγονται με την βοήθεια της DNA ελικάσης και ταυτόχρονα ειδικές πρωτεΐνες εμποδίζουν τους δύο κλώνους του DNA να ξαναενωθούν. Η DNA πολυμεράση το κύριο ένζυμο της αντιγραφής, αντιγράφει πάντα με κατεύθυνση 5 3. Συνεπώς τη μία αλυσίδα την α- ντιγράφει συνεχώς, ακολουθώντας την πορεία της DNA ελικάσης και την άλλη ασυνεχώς συνθέτοντας μικρά τμήματα DNA κάθε φορά αντίθετα από την πορεία της DNA ελικάσης. Επειδή η DNA πολυμεράση αδυνατεί να ξεκινήσει την αντιγραφή, το πριμόσωμα είναι εκείνο που την βοηθά συνθέτοντας μικρά τμήματα RNA, τα πρωταρχικά τμήματα, τα οποία αργότερα επιμηκύνει η DNA πολυμεράση τοποθετώντας τα κατάλληλα δεσοξυριβονουκλεοτίδια απέναντι από τις μητρικές αλυσίδες. Η ίδια είναι που ε- λέγχει και διορθώνει τυχόν λάθη που έκανε η ίδια τοποθετώντας λάθος δεσοξυριβονουκλεοτίδια κατά παράβαση του κανόνα της συμπληρωματικότητας. Ακόμα η ίδια είναι που αντικαθιστά τα πρωταρχικά τμήματα (RNA) με DNA. Τελικά τα διάφορα μέρη της ασυνεχούς αλυσίδας συνδέονται με το ένζυμο DNA δεσμάση. Το ίδιο ένζυμο -41-

52 συνδέει και όλα τα τμήματα που προκύπτουν απ τις διαφορές θέσεις έναρξης αντιγραφής Μεταγραφή Μεταγραφή (transcription) είναι η διαδικασία σύνθεσης RNA με καλούπι ένα γονίδιο του DNA. Η μεταγραφή καταλύεται από ένα μόνο ένζυμο, την RNA πολυμεράση, το οποίο εκτελεί όλες τις βασικές λειτουργίες της μεταγραφής. Το DNA περιέχει κωδικοποιημένη την γενετική πληροφορία στην αλληλουχία των βάσεων της μίας αλυσίδας η οποία ονομάζεται κωδική. Το γονίδιο αυτό είναι ένα τμήμα του DNA που περιλαμβάνει την κωδικοποιούσα περιοχή, την αλληλουχία λήξης όπου τελειώνει, και τον υποκινητή (promoter) από όπου αρχίζει η μεταγραφή. Ο Μηχανισμός Μεταγραφής DNA Κατά την έναρξη της μεταγραφής ενός γονιδίου, το ένζυμο RNA πολυμεράση προσδένεται στον υποκινητή, με τη βοήθεια πρωτεϊνών που ονομάζονται μεταγραφικοί παράγοντες, και προκαλεί τοπικό ξετύλιγμα της διπλής έλικας. Καθώς κινείται κατά μήκος του DNA χωρίζει τις δύο αλυσίδες και χρησιμοποιεί τη μη κωδική αλυσίδα ως καλούπι για τη σύνθεση ενός μορίου RNA το οποίο θα είναι ακριβές αντίγραφο της κωδικής α- λυσίδας, δηλαδή του γονιδίου. Η σύνθεση του RNA γίνεται με κατεύθυνση 5 3, ό- πως και η αντιγραφή, και σταματάει στο τέλος του γονιδίου, όπου ειδικές αλληλουχίες επιτρέπουν την απελευθέρωσή του. Ωρίμανση του mrna Το 1977 ανακαλύφθηκε, από δύο ξεχωριστές ερευνητικές ομάδες, του Richard Roberts και του Phillip Sharp, η ύπαρξη περιοχών στα γονίδια που δεν μεταφράζονται σε αμινοξέα, των εσωνίων. Για την εργασία τους αυτή τιμήθηκαν το 1993 με το βραβείο Nobel. Ανακάλυψαν δηλαδή ότι οι αλληλουχίες που μεταφράζονται σε αμινοξέα, και ονομάζονται εξώνια (exon), διακόπτονται από άλλες που δεν μεταφράζονται και λέγονται εσώνια (intron). Η διαδικασία ωρίμανσης του mrna είναι ουσιαστικά η διαδικασία απομάκρυνσης των εσωνίων. Η εικόνα 3.14 δείχνει ένα γονίδιο με εσώνια και εξώνια καθώς και την μεταγραφή και μετάφραση ενός τέτοιου γονιδίου. -42-

53 Εικόνα 3.14: Εξώνια και Εσώνια Όταν ένα γονίδιο μεταγράφεται, δημιουργείται το πρόδρομο mrna που περιέχει και εσώνια και εξώνια. Την διαδικασία της ωρίμανσης την αναλαμβάνουν ριβονουκλεοπρωτεϊνικά σωματίδια που αποτελούνται από snrna και πρωτεΐνες και λειτουργούν ως ένζυμα: κόβουν τα εσώνια και συρράπτουν τα εξώνια μεταξύ τους. Έτσι σχηματίζεται το ώριμο mrna. Παρόλο που αυτό αποτελείται αποκλειστικά από εξώνια, έχει δύο περιοχές που δεν μεταφράζονται. Μια στο 5 άκρο και μια στο 3 άκρο. Οι περιοχές αυτές ονομάζονται 3 και 5 αμετάφραστες περιοχές αντίστοιχα. -43-

54 3.4.3 Μετάφραση Μετάφραση είναι η διαδικασία με την οποία η πληροφορία που περιέχεται στο mrna χρησιμοποιείται για την σύνθεση της πολυπεπτιδικής αλυσίδας μιας πρωτεΐνης. Η μετάφραση γίνεται στα ριβοσώματα με την βοήθεια των μεταφορικών RNA (trna) και την συμμετοχή αρκετών πρωτεϊνών και ενέργειας. Όπως γίνεται φανερό από την ονομασία, η διαδικασία της μετάφρασης είναι ουσιαστικά η μετάφραση από την γλώσσα των βάσεων στην γλώσσα των αμινοξέων. Η μετάφραση αυτή γίνεται με βάση κάποιον κώδικα που ονομάζεται γενετικός κώδικας (genetic code). Γενετικός Κώδικας Όπως προαναφέρθηκε η αλληλουχία των βάσεων καθορίζει την αλληλουχία των αμινοξέων στην πολυπεπτιδική αλυσίδα σύμφωνα με τον γενετικό κώδικα (εικόνα 3.15). Τα κύρια χαρακτηριστικά του γενετικού κώδικα είναι τα εξής [Αλεπόρου-Μαρίνου Β. 2003]: Ο γενετικός κώδικας είναι κώδικας τριπλέτας δηλαδή μια τριάδα νουκλεοτιδίων, το κωδικόνιο, κωδικοποιεί ένα αμινοξύ. Ο γενετικός κώδικας είναι συνεχής, δηλαδή το mrna διαβάζεται συνεχώς ανά τρία νουκλεοτίδια χωρίς να παραλείπεται κάποιο. Ο γενετικός κώδικας είναι μη επικαλυπτόμενος, δηλαδή κάθε νουκλεοτίδιο α- νήκει σε ένα μόνο κωδικόνιο. Ο γενετικός κώδικας είναι σχεδόν καθολικός. Όλοι οι οργανισμοί έχουν τον ίδιο γενετικό κώδικα. Ο γενετικός κώδικας χαρακτηρίζεται ως εκφυλισμένος (degenerate). Με εξαίρεση δύο αμινοξέα (μεθειονίνη και τρυπτοφάνη) τα υπόλοιπα 18 κωδικοποιούνται από δυο μέχρι και έξι διαφορετικά κωδικόνια. Τα κωδικόνια που κωδικοποιούν το ίδιο αμινοξύ ονομάζονται συνώνυμα. Ο γενετικός κώδικας έχει ένα κωδικόνιο έναρξης (AUG) που κωδικοποιεί το α- μινοξύ μεθειονίνη, και τρία κωδικόνια λήξης (UAG, UGA, UAA). Η παρουσία των κωδικονίων αυτών στο μόριο του mrna οδηγεί στον τερματισμό της σύνθεσης της πολυπεπτιδικής αλυσίδας. -44-

55 Εικόνα 3.15: Ο Γενετικός Κώδικας Ο Μηχανισμός Μετάφρασης του mrna Η πολυπεπτιδική αλυσίδα αρχίζει να συντίθεται όταν ένα ριβόσωμα συνδεθεί στο mrna. Κάθε ριβόσωμα αποτελείται από μία μεγάλη και μία μικρή υπομονάδα. Η μεγάλη υπομονάδα έχει δύο θέσεις εισδοχής για τα μόρια trna που μεταφέρουν τα αμινοξέα τα οποία θα προστεθούν στην πολυπεπτιδική αλυσίδα. Το trna διαθέτει επίσης και ένα αντικωδικόνιο, δηλαδή μια τριπλέτα βάσεων που είναι συμπληρωματική με το κωδικόνιο του mrna που αντιστοιχεί στο μεταφερόμενο αμινοξύ σύμφωνα πάντα με τον γενετικό κώδικα. Κατά την έναρξη της μετάφρασης το mrna προσδένεται, μέσω μιας αλληλουχίας που υπάρχει στην 5 αμετάφραστη περιοχή του, με το ριβοσωμικό RNA (rrna) της μικρής υπομονάδας του ριβοσώματος σύμφωνα με τον κανόνα συμπληρωματικότητας των βάσεων. Το πρώτο κωδικόνιο του mrna είναι πάντα το AUG. Το trna με το αντικωδικόνιο UAC και μεταφερόμενο αμινοξύ την μεθειονίνη, αναγνωρίζει το κωδικόνιο AUG και συνδέεται σε αυτό και παράλληλα βρίσκεται στην μία από τις δύο θέσεις εισδοχής της μεγάλης υπομονάδας. Η δεύτερη θέση είναι ελεύθερη για το δεύτερο trna με αντικωδικόνιο συμπληρωματικό ως προς την δεύτερη τριπλέτα του mrna. Η μεθειονίνη συνδέεται με πεπτιδικό δεσμό με το δεύτερο αμινοξύ και επομένως το πρώτο trna ελευθερώνεται και μαζί με αυτό και η θέση εισδοχής που καταλάμβανε. Το ριβόσωμα μετακινείται κατά μήκος του mrna κατά ένα κωδι- -45-

56 κόνιο και ένα τρίτο trna έρχεται να προσδεθεί μεταφέροντας το αμινοξύ του. Έτσι συνεχίζεται η επιμήκυνση της πολυπεπτιδικής αλυσίδας η οποία σταματά σε ένα από τα κωδικόνια λήξης (UAG, UGA, UAA) επειδή δεν υπάρχουν trna που να αντιστοιχούν σε αυτά. Το τελευταίο trna απομακρύνεται και η πολυπεπτιδική αλυσίδα απελευθερώνεται. 3.5 Μεταλλάξεις Το γενετικό υλικό μπορεί να υποστεί αλλαγές με πολλούς και διαφορετικούς τρόπους. Οι αλλαγές αυτές στην αλληλουχία του DNA ονομάζονται μεταλλάξεις (mutation) που συνήθως δημιουργούν διαφορετικό φαινότυπο χωρίς όμως αυτό να είναι απαραίτητο. Η αλλαγή ή όχι του φαινοτύπου εξαρτάται από τον τρόπο που η μετάλλαξη επιδρά πάνω στο γονιδιακό προϊόν, την πρωτεΐνη. Οι γενετιστές κατατάσσουν τις μεταλλάξεις σε δύο μεγάλες κατηγορίες: τις γονιδιακές (genetic) και τις χρωμοσωμικές (chromosomal). Όπως θα δούμε παρακάτω ο διαχωρισμός αυτός σχετίζεται με την έκταση της αλλαγής. Οι μεταλλάξεις συμβάλουν στην δημιουργία γενετικής ποικιλότητας στον οργανισμό ευθύνονται για πολλές περιπτώσεις καρκίνου ακόμα και για πολλές κληρονομικές ασθένειες καθώς μόνο οι μεταλλάξεις των γενετικών κυττάρων μπορούν να μεταβιβαστούν από γενιά σε γενιά [Custer, 2004]. Γονιδιακές Μεταλλάξεις Οι γονιδιακές μεταλλάξεις είναι δύο ειδών σημειακές (point) και προσθήκες ή διαγραφές (insertions or deletions). Όπως γίνεται φανερό από τα ονόματα, ο διαχωρισμός γίνεται από τον τρόπο αλλαγής της σειράς των νουκλεοτιδίων. Οι σημειακές (point) μεταλλάξεις οφείλονται στην αντικατάσταση μιας μόνο νουκλεοτιδικής βάσης από μια άλλη. Στις περισσότερες σημειακές μεταλλάξεις δημιουργείται μία τριπλέτα που κωδικοποιεί ένα διαφορετικό αμινοξύ και επομένως αλλαγή της πρωτεΐνης που θα παραχθεί. Τα αποτελέσματα ποικίλουν ανάλογα με την αλλαγή που θα υποστεί η πρωτεΐνη. Μια ακόμα περίπτωση είναι η τριπλέτα που θα δημιουργηθεί να κωδικοποιεί το ίδιο αμινοξύ με την μη μεταλλαγμένη τριπλέτα λόγω εκφυλισμού του γενετικού κώδικα. Τέλος σε άλλες μεταλλάξεις το κωδικόνιο μπορεί να μετατραπεί σε κωδικόνιο λήξης με αποτέ- -46-

57 λεσμα τον τερματισμό σύνθεσης της πολυπεπτιδικής αλυσίδας. Στις περισσότερες από αυτές τις περιπτώσεις καταστρέφεται η λειτουργικότητα της πρωτεΐνης. Οι προσθήκες (insertions) ή διαγραφές (deletions) βάσεων είναι μια άλλη κατηγορία μεταλλάξεων. Αν ο αριθμός των συνεχόμενων βάσεων που προστίθενται είναι πολλαπλάσιος του τρία, τότε υπάρχουν δύο δυνατές περιπτώσεις. Είτε δε θα συμβεί καμιά αλλαγή στην τελική πρωτεΐνη, αν οι πλεονάζουσες τριάδες α- φαιρεθούν κατά τη διάρκεια απομάκρυνσης των εσωνίων, είτε θα προστεθούν στην πολυπεπτιδική αλυσίδα τόσα αμινοξέα όσες είναι και οι τριάδες των πρόσθετων βάσεων. Στην περίπτωση της έλλειψης ενός πολλαπλάσιου του τρία α- ριθμού βάσεων θα απουσιάζουν από την πολυνουκλεοτιδική αλυσίδα τόσα αμινοξέα όσες είναι και οι τριάδες των βάσεων που λείπουν. Αν ο αριθμός των βάσεων δεν είναι πολλαπλάσιος του τρία, τότε η αλληλουχία των αμινοξέων θα είναι πολύ διαφορετική από την αρχική. Χρωμοσωμικές Ανωμαλίες Οι χρωμοσωμικές ανωμαλίες (chromosomal mutations) είναι μεγάλες σε έκταση αλλαγές που περιλαμβάνουν τμήματα χρωμοσωμάτων ή ακόμη και ολόκληρα χρωμοσώματα. Οι αλλαγές στον αριθμό των χρωμοσωμάτων καλούνται αριθμητικές χρωμοσωμικές ανωμαλίες, ενώ οι αλλαγές στη δομή αποτελούν τις δομικές χρωμοσωμικές ανωμαλίες. Οι αλλαγές αυτές έχουν συνήθως ως αποτέλεσμα την τροποποίηση του φαινοτύπου του ατόμου. Ανάλογα με τον τύπο της αλλαγής διακρίνονται διάφορα είδη δομικών χρωμοσωμικών ανωμαλιών [Αλεπόρου-Μαρίνου Β. 2003]: H έλλειψη (deletion) οφείλεται στην απουσία ενός χρωμοσωμικού τμήματος. Ο διπλασιασμός (duplication) είναι η επανάληψη ενός χρωμοσωμικού τμήματος στο χρωμόσωμα. Αναστροφή (inversion) προκαλείται από θραύσεις του χρωμοσώματος σε δύο σημεία και επανένωση του τμήματος ύστερα από αναστροφή. Αποτέλεσμα της αναστροφής είναι η αλλαγή της διάταξης των γονιδίων στο χρωμόσωμα. Η μετατόπιση (translocation) είναι το αποτέλεσμα της θραύσης ενός τμήματος του χρωμοσώματος και στη συνέχεια ένωσής του σε άλλο διαφορετικό χρωμόσωμα. Κατά την αμοιβαία μετατόπιση υπάρχει ανταλλαγή χρωμοσωμικών τμημάτων ανάμεσα σε διαφορετικά χρωμοσώματα -47-

58 3.6 Η Αποκρυπτογράφηση του Ανθρώπινου Γονιδιώματος Ένα από τα σημαντικότερα επιτεύγματα της μοριακής βιολογίας είναι η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος. Η προσπάθεια αυτή ήταν γνωστή ως human genome project (HGP). Ήταν μια προσπάθεια συντονισμένη από το U.S Department of Energy και το National Institute of Health. Ο αρχικός προγραμματισμός του έργου ήταν η περάτωση του σε 15 χρόνια. Παρόλα αυτά η ραγδαία ανάπτυξη της επιστήμης των υπολογιστών έκανε εφικτή την περάτωσή του σε 13 χρόνια. Οι στόχοι που είχαν τεθεί εξαρχής ήταν [Human Genome Project Information]: Να αναγνωριστούν όλα τα γονίδια στο ανθρώπινο DNA Να καθοριστεί η ακολουθία των τριών δισεκατομμυρίων βάσεων που αποτελούν το ανθρώπινο DNA. Να αποθηκευτούν οι πληροφορίες αυτές σε βάσεις δεδομένων. Να αναπτυχθούν εργαλεία για ανάλυση δεδομένων Να μεταφερθούν παρόμοιες τεχνολογίες στον ιδιωτικό τομέα. Να οριοθετηθούν τα ηθικά, νομικά και κοινωνικά (ethical, legal, social issues- ELSI) ζητήματα που προκύπτουν από το πρόγραμμα. Παρακάτω θα αναφερθούν συνοπτικά τα κυριότερα σημεία που οδήγησαν στην αποκρυπτογράφηση του ανθρώπινου γονιδιώματος [Lesk, 2002]: 1953 Πρόταση δομής του DNA από τους Watson-Crick 1975 Ο F.Sanger και ανεξάρτητα οι A.Maxam και W.Gilbert αναπτύσσουν μεθόδους καθορισμού αλληλουχιών DNA Αποκρυπτογραφείται το γονιδίωμα του Βακτηριοφάγου ΦΧ Αποκρυπτογραφείται το DNA των μιτοχονδρίων του ανθρώπου: ζεύγη βάσεων Εκκίνηση του Human Genome Project 1992 Ολοκλήρωση ενός πρόχειρου χάρτη του ανθρώπινου γονιδιώματος Πρώτη αποκρυπτογράφηση βακτηριακού γονιδιώματος Haemophilus influenzae. -48-

59 1999 Ανακοινώνεται η ακολουθία του πρώτου αποκρυπτογραφημένου ανθρώπινου χρωμοσώματος Ολοκλήρωση της αποκρυπτογράφησης του ανθρώπινου γονιδιώματος. 3.7 Προκλήσεις Μοριακής Βιολογίας Στις παραγράφους που προηγήθηκαν ασχοληθήκαμε με ζητήματα όπως η δομή και οι λειτουργίες του κύτταρου, του DNA, του RNA, των γονιδίων καθώς και το κεντρικό δόγμα της μοριακής βιολογίας. Όλες οι παραπάνω θεωρίες αρχικά προτάθηκαν, έπειτα υπέστησαν πολλαπλές πειραματικές επαληθεύσεις και μετά γίναν αποδεκτές. Παρόλα αυτά, νέα ευρήματα της μοριακής βιολογίας κατάφεραν κατά καιρούς να εμπλουτίσουν τις υπάρχουσες αποδεκτές θεωρίες, όπως για παράδειγμα το κεντρικό δόγμα της μοριακής βιολογίας, το οποίο αντικαταστάθηκε από το σύγχρονο κεντρικό δόγμα της μοριακής βιολογίας μετά την ανακάλυψη των RNA ιών. Πρόσφατες έρευνες έχουν δείξει ότι η πληροφορία κατανέμεται στα χρωμοσώματα πολύ πιο περίπλοκα από όσο πιστεύεται. Πιο συγκεκριμένα ότι ο ρόλος του RNA ξεπερνάει κατά πολύ τον ρόλο που του έχει αποδοθεί μέχρι σήμερα ως παθητικός μεταφορέας της πληροφορίας κατά την μεταγραφή και την μετάφραση. Έτσι οι έρευνες έ- χουν στραφεί στον τρόπο που τελικά λειτουργεί το γονίδιο [Davis M. 2007, Rassoulzadegan Μ. et al 2006, Pearson H. 2006, Rakyan V. Beck S. 2006] Για την κλασσική Μεντελική Γενετική το γονίδιο ήταν μια αφηρημένη έννοια- η μονάδα κληρονομικότητας που μετέφερε ένα χαρακτηριστικό από το γονέα στο παιδί. Με την συνδρομή της βιοχημείας τα χαρακτηριστικά αυτά συνδέθηκαν με ένζυμα και πρωτεΐνες. Με την ανάπτυξη της μοριακής βιολογίας τα γονίδια απέκτησαν μια πραγματική υπόσταση- αλληλουχίες DNA που όταν μεταγράφονται σε αλληλουχίες αγγελιαφόρου RNA (mrna) μπορούν, να οδηγήσουν στην βιοσύνθεση μιας πρωτεΐνης. Τα τελευταία χρόνια ορισμένοι επιστήμονες θεωρούν την παραπάνω απεικόνιση απαρχαιωμένη. Οι νέες θεωρίες θέλουν το RNA ως ενεργό ρυθμιστή των κυτταρικών διεργασιών. Σε κάποιες περιπτώσεις φαίνεται ότι το mrna μπορεί να μεταβιβάσει την γενετική πληροφορία και στις επόμενες γενιές. Μιλάμε λοιπόν για επιγενετική κληρονομικότητα. Πιο συγκεκριμένα ο Minoo Rassoulzadegan και οι συνεργάτες του στην εργασία τους RNA mediated non-mendelian inheritance of an epigenetic change in the mouse -49-

60 το 2006 βρήκαν ασυνήθιστες γονιδιακές λειτουργίες μελετώντας το γονίδιο kit στο ποντίκι. Η ομάδα στην προσπάθεια να εξηγηθούν οι λειτουργίες αυτές, πρότεινε ότι μικρά ασυνήθιστα (aberrant) μεταλλαγμένα μόρια RNA (sirna, mirna) μεταβιβάζονται στις επόμενες γενιές μέσω των γεννητικών κυττάρων των γονέων και παρεμποδίζουν την σωστή λειτουργία των κανονικών mrna που προκύπτουν από το κανονικό γονίδιο των απογόνων. Ο ρόλος του RNA στην μεταβίβαση της πληροφορίας είναι ακόμα ασαφής. Ένα ακόμα παράδειγμα είναι ότι όλο και περισσότεροι ερευνητές ανακαλύπτουν ότι υπάρχουν στα κύτταρα μόρια RNA που έχουν προκύψει από τη μεταγραφή περιοχών DNA πολύ απομακρυσμένων μεταξύ τους ακόμα και διαφορετικών χρωμοσωμάτων. Παρόλα τα άλματα που έχει κάνει η μοριακή βιολογία τα τελευταία 50 χρόνια, αναμένονται στο εγγύς μέλλον ανακαλύψεις που θα ανατρέψουν πολλές από τις υπάρχουσες θεωρίες και θα περιπλέξουν έννοιες και διεργασίες που μέχρι πρότινος ήταν α- πλές. -50-

61 4 Βιοπληροφορική Η αλματώδης ανάπτυξη της πληροφορικής και γενικότερα του πεδίου της επιστήμης των υπολογιστών έκανε φανερό στην επιστημονική κοινότητα ότι οι δυνατότητές της μπορούν να αξιοποιηθούν αποτελεσματικά και αποδοτικά από άλλες επιστήμες, όπως η βιολογία. Πιο ειδικά, τα τελευταία επιτεύγματα της μοριακής βιολογίας οδήγησαν σε μεγάλη συσσώρευση βιολογικών δεδομένων, όπου η χρήση των υπολογιστών κρίθηκε απαραίτητη για την αποτελεσματική και αποδοτική διαχείριση τους. Αυτή είναι μια πρώτη ιδέα του όρου Βιοπληροφορική (Bioinformatics). Μια επιστημονική περιοχή, κράμα της επιστήμης της βιολογίας και των υπολογιστών. Στις παραγράφους που ακολουθούν θα δοθεί μια γενικότερη περιγραφή του επιστημονικού αυτού πεδίου, των μέχρι σήμερα επιτευγμάτων του καθώς και των στόχων που έχει θέσει ως νέα επιστημονική περιοχή. 4.1 Ορισμός Βιοπληροφορικής Όπως προαναφέρθηκε στο εισαγωγικό σημείωμα ο όρος βιοπληροφορική χρησιμοποιείται για γενικότερη αναφορά στο επιστημονικό πεδίο που αναμιγνύει την επιστήμη της βιολογίας και της πληροφορικής. Το μεγάλο ενδιαφέρον που έδειξε η επιστημονική κοινότητα για την περιοχή αυτή, οδήγησε από πολύ νωρίς στην ανάπτυξη κλάδων με κάποιο βαθμό εξειδίκευσης. Πιο συγκεκριμένα, δύο από τις πιο σημαντικές περιοχές του νέου αυτού κλάδου είναι η Βιοπληροφορική (Bioinformatics) και η Υπολογιστική Βιολογία (Computational Biology). Η Βιοπληροφορική ασχολείται με την ανάπτυξη και ε- φαρμογή εργαλειών για την διαχείριση Βιολογικών δεδομένων. Ο όρος διαχείριση περιλαμβάνει την αποθήκευση, οργάνωση, ανάλυση ακόμα και την οπτικοποίηση των δεδομένων αυτών. Η υπολογιστική βιολογία ασχολείται με την ανάπτυξη και εφαρμογή μαθηματικών και πληροφοριακών θεωριών για την μελέτη βιολογικών συστημάτων και την προσέγγιση ή ακόμα και απάντηση θεμελιωδών θεωρητικών και πειραματικών -51-

62 προβλημάτων της επιστήμης της βιολογίας. Αν και σαφώς διαχωρισμένα εννοιολογικά τα παραπάνω πεδία, πρακτικά στον τομέα της έρευνας, υπάρχει σε μεγάλο βαθμό αλληλοεπικάλυψη. Το γεγονός αυτό έχει ως αποτέλεσμα την χρησιμοποίηση των όρων αυτών εναλλακτικά για την ονομασία του νέου αυτού επιστημονικού κλάδου. 4.2 Στόχοι Βιοπληροφορικής Η μεγαλύτερη πρόκληση που αντιμετωπίζει η βιολογία στις μέρες μας, είναι η πλήρης κατανόηση και εκμετάλλευση της γνώσης που υπάρχει μέσα στην πληθώρα των δεδομένων που έχουν προκύψει από την έρευνα πάνω στις ακολουθίες του γονιδιώματος. Αυτή η πρόκληση κατευθύνει εν μέρει και τους τρέχοντες στόχους της βιοπληροφορικής: Καταρχήν η οργάνωση των δεδομένων αυτών με κατάλληλο τρόπο ώστε να είναι προσπελάσιμα από τους ερευνητές για επεξεργασία ή για εισαγωγή νέων δεδομένων. Η ανάπτυξη και χρήση εργαλειών για την ανάλυση των δεδομένων αυτών καθώς και την ερμηνεία των αποτελεσμάτων που θα προκύψουν από την ανάλυση αυτή ώστε να υπάρξει βιολογικά σημαντική γνώση. Γενικότερα, εφόσον η βιοπληροφορική είναι ένα πεδίο που γεννήθηκε από την αναγκαιότητα χρήσης μεθόδων πληροφορικής στην επιστήμη της βιολογίας, οι στόχοι της θα οριοθετούνται και θα κατευθύνονται πάντα από τον απόλυτο στόχο της βιολογίας που είναι η πλήρης κατανόηση της βιολογίας των οργανισμών. 4.3 Ερευνητικές Περιοχές Βιοπληροφορικής Στην παρούσα παράγραφο θα παρουσιαστούν οι πιο σημαντικές ερευνητικές περιοχές της βιοπληροφορικής [2can] Ανάλυση Αλληλουχιών Ο Βακτηριοφάγος Phi-X174 ήταν ο πρώτος οργανισμός του οποίου χαρτογραφήθηκε το γονιδίωμα. Από τότε μέχρι σήμερα έχει χαρτογραφηθεί και αποθηκευτεί σε βάσεις δεδομένων το γονιδίωμα εκατοντάδων οργανισμών. Τα δεδομένα αυτά από τις βάσεις -52-

63 αναλύονται με κατάλληλο λογισμικό με σκοπό να προκύψει χρήσιμη πληροφορία. Τέτοια πληροφορία μπορεί να είναι ο καθορισμός των γονιδίων που κωδικοποιούν πρωτεΐνες ή και ρυθμιστικές ακολουθίες, δηλαδή υποκινητές και κωδικόνια έναρξης και λήξης. Ακόμα μια πολύ σημαντική εφαρμογή της ανάλυσης αλληλουχιών είναι η εύρεση των γονιδίων μέσα στις αλληλουχίες DNA (Genome Annotation). Το μεγαλύτερο μέρος του γονιδιώματος των ανώτερων οργανισμών είναι άχρηστο DNA (Junk DNA). Το ποσοστό αυτό στον άνθρωπο προσδιορίζεται γύρω στο 97% και αποτελείται από εσώνια και άλλο γενετικό υλικό που πιστεύεται ότι έπαιξε ρόλο κατά την εξέλιξη του ανθρώπου αλλά δεν έχει ανακαλυφθεί κάποιος ουσιαστικός ρόλος στην λειτουργία του σήμερα. Το πρώτο σύστημα εύρεσης γονιδίων (Genome Αnnotation Software System) σχεδιάστηκε το 1995 από τον Owen White. Το σύστημα του Dr. White έβρισκε τα γονίδια και το μεταφορικό RNA (trna). Παρόλο που τα περισσότερα συστήματα έχουν βελτιωθεί σημαντικά, οι βασικές αρχές πάνω στις οποίες δουλεύουν, παραμένουν ίδιες με το σύστημα του Dr.White Συγκριτική Γενωμική Η συγκριτική γενωμική ασχολείται με την σύγκριση αλληλουχιών γονιδιώματος διαφορετικών οργανισμών, με σκοπό την εύρεση βαθύτερων εξελικτικών σχέσεων μεταξύ τους. Για παράδειγμα έχει βρεθεί ότι η διαφορά στο γονιδίωμα μεταξύ ανθρώπου και ποντικού είναι μόλις μεταξύ του 5% και 15%. Άμεσο όφελος της ανακάλυψης αυτής είναι να χρησιμοποιούνται ποντίκια για ιατρικές έρευνες που αφορούν ανθρώπους Μέτρηση Επιπέδων Γονιδιακής Έκφρασης Υπάρχουν πολλές μέθοδοι μέτρησης των επιπέδων γονιδιακής έκφρασης. Οι δύο πιο σημαντικές είναι οι μικροσυστοιχίες και η τεχνική SAGE. Οι μικροσυστοιχίες χρησιμοποιούν τις αλληλουχίες που έχουν προκύψει από τα προγράμματα χαρτογράφησης γονιδιωμάτων και άλλες εργασίες εύρεσης αλληλουχιών DNA για να δώσουν απάντηση στο ερώτημα: Τι γονίδια εκφράζονται σε κάποιο συγκεκριμένο τύπο κυττάρου ενός οργανισμού, σε συγκεκριμένη χρονική στιγμή και κάτω από συγκεκριμένες συνθήκες. Η τεχνική SAGE είναι μια μέθοδος που επινοήθηκε στο πανεπιστήμιο John Hopkins στην Βαλτιμόρη των Η.Π.Α. με σκοπό να δώσει στους επιστήμονές την -53-

64 δυνατότητα εποπτικής παρακολούθησης του συνόλου της γονιδιακής δραστηριότητας ενός κυττάρου Πρωτεωμική Πρωτεωμική (Proteomics) είναι η ευρείας κλίμακας μελέτη των πρωτεϊνών και ιδιαιτέρως της δομής και της λειτουργίας τους. Η κυριότερη πρόκληση που αντιμετωπίζει η Βιοπληροφορική στον τομέα της πρωτεωμικής είναι η εύρεση της τρισδιάστατης δομής των πρωτεϊνών από τις αλληλουχίες των αμινοξέων. Η εύρεση αυτής της δομής πιστεύεται ότι θα βοηθήσει στην βαθύτερη κατανόηση των λειτουργιών της πρωτεΐνης στους οργανισμούς Υπολογιστική Εξελικτική Βιολογία Εξελικτική Βιολογία είναι ο τομέας της επιστήμης της Βιολογίας ο οποίος μελετά την καταγωγή και την προέλευση των ειδών. Η πληροφορική βοήθησε τον κλάδο αυτό με πολλούς τρόπους, ο σημαντικότερος από τους οποίους είναι η μελέτη της εξέλιξης πολλών ειδών παρακολουθώντας τις αλλαγές στο DNA τους. Ακόμα η πληροφορική πιστεύεται ότι θα βοηθήσει τον κλάδο αυτό στην ταχύτερη κατασκευή του δέντρου της εξέλιξης (Tree of Life). Το Δέντρο εξέλιξης είναι ένα διάγραμμα που δείχνει τις εξελικτικές σχέσεις μεταξύ διαφόρων ειδών ή άλλες οντότητες που πιστεύεται ότι έχουν κοινό πρόγονο. 4.4 Βιολογικές Τράπεζες Δεδομένων Η κύρια πηγή υλικού για τις έρευνες στον τομέα της βιοπληροφορικής είναι οι βιολογικές τράπεζες δεδομένων (Databanks) ή αλλιώς βιολογικές βάσεις δεδομένων οι οποίες περιέχουν δεδομένα από διάφορες περιοχές της μοριακής βιολογίας. Τέτοια δεδομένα μπορούν να είναι δομές πρωτεϊνών, δεδομένα γονιδιακής έκφρασης και γενικότερα ο- ποιαδήποτε σημαντικά δεδομένα προκύπτουν από τις μεγάλης έκτασης έρευνες και εργασίες στον τομέα της Μοριακής Βιολογίας. Οι τράπεζες δεδομένων μπορούν να ταξινομηθούν σε δύο κύριες κατηγορίες α- νάλογα με τις πηγές από τις οποίες προέρχονται τα δεδομένα που περιέχουν. Ταξινομούνται λοιπόν σε: -54-

65 Πρωτοταγείς τράπεζες δεδομένων οι οποίες περιέχουν ένα μόνο είδος πληροφορίας. Αυτό το είδος μπορεί να είναι αλληλουχίες DNA, πληροφορίες για την δομή του DNA ή και αντίστοιχα δεδομένα (αλληλουχίες και δομή) για πρωτεΐνες. Τα δεδομένα αυτά μπορούν να προέρχονται από μεγάλα ερευνητικά προγράμματα, βιβλιογραφία ή και ακόμα από άλλες τράπεζες δεδομένων. Οι πιο γνωστές πρωτοταγείς τράπεζες δεδομένων είναι οι νουκλεϊκές EMBL στην Ευρώπη και GenBank στην Αμερική. Δευτεροταγείς βάσεις δεδομένων οι οποίες περιέχουν και αυτές μόνο ένα είδος δεδομένων. Τα δεδομένα αυτά είναι αποτελέσματα που έχουν προκύψει από α- νάλυση δεδομένων πρωτοταγών τραπεζών δεδομένων και περιλαμβάνουν γνώση για μοτίβα ή πρότυπα, μεταλλάξεις ακόμα και εξελικτικές σχέσεις μεταξύ διαφόρων οργανισμών. Παραδείγματα δευτεροταγών βάσεων δεδομένων είναι η βάση δεδομένων μοτίβων BLOCKS που προέρχεται από την PROSITE και η PRINTS που προέρχεται από την OWL. Σήμερα υπάρχουν πάρα πολλές βάσεις δεδομένων για οποιοδήποτε πεδίο έρευνας της βιοπληροφορικής. Θα ήταν εξαιρετικά δύσκολο να απαριθμηθούν εδώ. Η πιο ολοκληρωμένη λίστα βιολογικών βάσεων δεδομένων δημιουργήθηκε και παραμένει ενημερωμένη, από την Σουηδική ομάδα Βιοπληροφορικής ExPASy (EXpert Protein Analysis System) και είναι διαθέσιμη στον δικτυακό της τόπο: Εργαλεία Βιοπληροφορικής Τα εργαλεία βιοπληροφορικής είναι προγράμματα λογισμικού σχεδιασμένα για την ε- ξαγωγή γνώσης από τις βιολογικές βάσεις δεδομένων. Τα πρώτα εργαλεία βιοπληροφορικής ήταν γραμμένα σε C ή C++ και γλώσσες scripting όπως η Python ή η Perl χρησιμοποιούνταν ως μέσο αλληλεπίδρασης των προγραμμάτων με τις τράπεζες δεδομένων. Σήμερα χρησιμοποιούνται και άλλες γλώσσες, όπως η JAVA, για την ανάπτυξη λογισμικού. Ακόμα οι επιστήμονες της Βιοπληροφορικής έχουν θεσπίσει προγράμματα α- νοιχτού κώδικα (EMBOSS, BioPerl, BioJava), για περαιτέρω ανάπτυξη και βελτίωση των προγραμμάτων που παράγονται. -55-

66 4.5.1 Κατηγορίες Εργαλείων Βιοπληροφορικής Τα εργαλεία βιοπληροφορικής ταξινομούνται στις παρακάτω κατηγορίες: Εργαλεία ομολογίας (homology) και ομοιότητας (similarity). Στην κατηγορία αυτή ανήκουν εργαλεία που χρησιμοποιούνται για την αναγνώριση ομοιοτήτων μεταξύ νέων αλληλουχιών και άγνωστης δομής και λειτουργίας και αλληλουχιών με γνωστή δομή και λειτουργία. Εργαλεία ανάλυσης της λειτουργίας των πρωτεϊνών. Τα εργαλεία αυτής της κατηγορίας επιτρέπουν την σύγκριση πρωτεϊνικών αλληλουχιών με πληροφορίες που περιέχονται σε δευτεροταγείς κυρίως τράπεζες δεδομένων. Η βιοχημική λειτουργία της άγνωστης πρωτεΐνης προσεγγίζεται ανάλογα με το ποσοστό της ε- πιτυχίας της αναζήτησης στην βάση αυτή. Εργαλεία ανάλυσης δομών. Η λειτουργία μιας πρωτεΐνης μπορεί να προσδιοριστεί πιο άμεσα από την δυσδιάστατη ή την τρισδιάστατη δομή της παρά από την αλληλουχία των αμινοξέων που την αποτελούν. Με τα εργαλεία της κατηγορίας αυτής δίνεται δυνατότητα σύγκρισης άγνωστων πρωτεϊνικών δομών με γνωστές που βρίσκονται σε τράπεζες δεδομένων. Εργαλεία ανάλυσης αλληλουχιών. Τα εργαλεία αυτά επιτρέπουν την λεπτομερή ανάλυση των βιολογικών αλληλουχιών, όπως για παράδειγμα την εξελικτική ανάλυση και αναγνώριση μεταλλάξεων. Διάφορα εργαλεία. Στην κατηγορία αυτή ανήκουν τα εργαλεία που δεν ανήκουν σε καμία από τις προηγούμενες κατηγορίες. Τέτοια μπορεί να είναι εργαλεία ανάλυσης γονιδιακής έκφρασης Κατάλογος Δημοφιλέστερων Εργαλείων Στην παράγραφο αυτή θα παρουσιαστούν συνοπτικά τα σημαντικότερα, από ιστορική και επιστημονική πλευρά, εργαλεία καθώς και ένας κατάλογος (πίνακας 4.1) με τα δημοφιλέστερα στην επιστημονική κοινότητα. Ο αλγόριθμος BLAST (Basic Local Alignment Search Tool) ανήκει στην κατηγορία των εργαλείων ομολογίας και ομοιότητας. Υλοποιήθηκε από τους Altschul, Gish, Miller και Lipman το Είναι σχεδιασμένος έτσι ώστε να δέχεται ως είσοδο μία πρωτεϊνική ή νουκλεοτιδική αλληλουχία, να την συγκρίνει με τις υπάρχουσες στην τράπεζα δεδομένων και να δίνει ως έξοδο τις αλληλουχίες που παρουσιάζουν την μεγαλύτερη ομοιότητα με την δοθείσα. -56-

67 Εργαλείο Clusters of Orthologous Groups (COGs) GeneQuiz ClustaW SRS (Sequence Retrieval System) ORF finder VAST Search The Cancer Chromosome Aberration Project Expression Profiler Spidey The Cancer Genome Anatomy Project (CGAP) Περιγραφή Ένα COG είναι μια ομάδα πολύ όμοιων πρωτεϊνών που εμφανίζεται τουλάχιστο σε τρία είδη. Η παρουσία ή η απουσία μιας πρωτεΐνης σε διαφορετικά γονιδιώματα μπορεί να πληροφορήσει για την εξέλιξη των οργανισμών, αλλά και να υποδείξει νέους στόχους φαρμάκων. Παρέχει τη δυνατότητα αυτοματοποιημένης ανάλυσης βιολογικών αλληλουχιών. Εργαλείο που χρησιμοποιείται για στοίχιση πρωτεϊνών ή νουκλεοτιδικών αλληλουχιών με σκοπό την αποκάλυψη της συγγένειας και της εξελικτικής τους προέλευσης. Παρέχει τη δυνατότητα αναζήτησης βιολογικών αλληλουχιών και βιβλιογραφίας στις διάφορες βάσεις δεδομένων, που είναι διαθέσιμες στο EBI. Αναγνωρίζει όλα τα πιθανά ORFs σε μια αλληλουχία DNA εντοπίζοντας βασικά και εναλλακτικά κωδικώνια έναρξης και λήξης. Είναι ένα εργαλείο αναζήτησης ομοιοτήτων μεταξύ τρισδιάστατων δομών πρωτεϊνών. Συλλέγει πληροφορίες για χρωμοσωμικές ανωμαλίες που σχετίζονται με διάφορες μορφές καρκίνου. Είναι ένα σύνολο εργαλείων για ομαδοποίηση, ανάλυση και οπτική αναπαράσταση γονιδιακής έκφρασης και άλλων δεδομένων του γονιδιώματος Στοιχίζει μια ή περισσότερες αλληλουχίες mrna με μια γονιδιακή αλληλουχία με σκοπό τον εντοπισμό της δομής εξωνίων-εσωνίων. Δημιουργεί προφίλ καρκινικών κυττάρων συγκρίνοντας γονιδιακές εκφράσεις σε φυσιολογικά, προκαρκινικά και καρκινικά κύτταρα από μια ποικιλία ιστών. Πίνακας 4.1: Εργαλεία Βιοπληροφορικής Ο αλγόριθμος FASTA (FAST All) ανήκει στην πρώτη κατηγορία των εργαλειών. Υλοποιήθηκε από τους Lipman και Pearson το 1985 και βελτιώθηκε από τους ίδιους το Χρησιμοποιήθηκε για συγκρίσεις πρωτεϊνικών ή νουκλεοτιδικών αλληλουχιών και ξεχώρισε για την ταχύτητά του και τα υψηλά επίπεδα ευαισθησίας στις αναζητήσεις του -57-

68 Το EMBOSS (European Molecular Biology Open Software Suite) είναι ένα υ- ψηλής ποιότητας, ανοιχτού κώδικα, πακέτο λογισμικού. Παρέχει ένα σύνολο εφαρμογών που σχετίζονται με την ανάλυση αλληλουχιών σε ένα ολοκληρωμένο περιβάλλον εργασίας Προοπτικές και Εξέλιξη Εργαλείων Βιοπληροφορικής Η πληθώρα των βάσεων δεδομένων με τις ίδιες πληροφορίες οδήγησε σε μία νέα προσέγγιση στον χώρο της ανάπτυξης εργαλειών βιοπληροφορικής, στις μεταμηχανές αναζήτησης. Οι μεταμηχανές αναζήτησης αναπτύχθηκαν ώστε να αναζητούν δεδομένα από πολλές, διαφορετικές τράπεζες δεδομένων με βάση μια λέξη κλειδί ή μια πρωτεϊνική, DNA ή RNA αλληλουχία. Πρόσφατα εφαρμόστηκαν σε πολλές εφαρμογές διαδραστικά περιβάλλοντα με βάση το πρωτόκολλο SOAP (Simple Object Access Protocol) έτσι ώστε να επιτρέπεται σε αυτές η χρησιμοποίηση δεδομένων και αλγορίθμων από απομακρυσμένους servers. Η καινοτομία αυτή οδήγησε στην νέα γενιά εργαλειών βιοπληροφορικής, τις ενοποιημένες πλατφόρμες Βιοπληροφορικής (Integrated Bioinformatics Platform). Τέλος, μία νέα, ενδιαφέρουσα κατεύθυνση στον χώρο ανάπτυξης εργαλειών βιοπληροφορικής δίνεται με την εφαρμογή μεθόδων κβαντικής Φυσικής αντί στατιστικών μεθόδων στα εργαλεία ανακάλυψης γνώσης. 4.6 Εφαρμογές Βιοπληροφορικής Ο κύριος λόγος διάδοσης της βιοπληροφορικής ήταν οι σημαντικές εφαρμογές που έχει στον κόσμο της ιατρικής, της βιομηχανίας και του περιβάλλοντος. Η πιο σημαντική εφαρμογή της βιοπληροφορικής είναι η συμβολή της στην αντιμετώπιση ασθενειών. Όλες οι ασθένειες έχουν γενετικό υπόβαθρο είτε είναι κληρονομικές, είτε προκύπτουν ως απάντηση του οργανισμού στις πιέσεις που δέχεται από το περιβάλλον, για παράδειγμα κάπνισμα- καρκίνος των πνευμόνων ή ανθυγιεινή διατροφή- καρδιοαγγειακές παθήσεις. Αυτές οι πιέσεις δημιουργούν αλλαγές στο γονιδίωμα του ανθρώπου και έχουν ως αποτέλεσμα διάφορες παθήσεις όπως οι προαναφερθείσες. Η ολοκλήρωση της αποκρυπτογράφησης του ανθρώπινου γονιδιώματος, έκανε δυνατή την εύρεση των γονιδίων που σχετίζονται με συγκεκριμένες ασθένειες και συνεπώς την καλύτερη κατανόηση της μοριακής βάσης τους. Η ενδελεχής μελέτη της μοριακής βά- -58-

69 σης των ασθενειών αυτών θα βοηθήσει την ιατρική στην εύρεση καλύτερων θεραπευτικών αγωγών, ακόμα και σε πλήρη ίαση ασθενειών, που μέχρι πρότινος θεωρούνταν α- νίατες. Πιο ειδικά, γίνεται προσπάθεια να παραχθούν φάρμακα τα οποία επιδρούν πάνω στην αιτία της ασθένειας και όχι στα συμπτώματα, με άμεση συνέπεια πιο καλά α- ποτελέσματα στις θεραπείες και λιγότερες παρενέργειες στους ασθενείς. Ακόμα γίνονται προσπάθειες και πιστεύεται πως στο άμεσο μέλλον θα χρησιμοποιούνται γονίδια για την ίαση ασθενειών. Η θεραπεία με γονίδια είναι μια προσέγγιση στην ιατρική που δίνει αποτελέσματα αλλάζοντας την έκφραση των γονιδίων του πάσχοντος. Στις μέρες μας η προσέγγιση αυτή βρίσκεται σε εμβρυϊκό στάδιο και εφαρμόζεται πειραματικά σε πολλούς τύπους καρκίνου. Μια άλλη πολύ σημαντική εφαρμογή της βιοπληροφορικής είναι στην έρευνα του γονιδιώματος των μικροοργανισμών προς όφελος της ιατρικής, της βιομηχανίας και του περιβάλλοντος. Με τα προγράμματα πλήρους αποκρυπτογράφησης γονιδιωμάτων δόθηκε η δυνατότητα βαθύτερης κατανόησης της λειτουργίας των μικροοργανισμών και των αιτιών από τις οποίες προκύπτουν οι ευεργετικές τους ιδιότητες, όπως ανθεκτικότητα σε ακραίες συνθήκες. Για αυτό το λόγο, το 1994 το τμήμα ενέργειας (Department Of Energy- DOE) των Η.Π.Α. ξεκίνησε το πρόγραμμα MGP (Microbial Genome Project) που είχε ως στόχο την αποκρυπτογράφηση των γονιδιωμάτων μικροοργανισμών που βοηθούν στην παραγωγή ενέργειας, στον καθαρισμού του περιβάλλοντος και στην ανακύκλωση τοξικών αποβλήτων. Μελετώντας το γονιδίωμα αυτών των οργανισμών οι επιστήμονες απομονώνουν γονίδια τα οποία τους δίνουν τις μοναδικές ιδιότητες για τις οποίες ξεχωρίζουν. Το πιο χαρακτηριστικό παράδειγμα είναι το βακτήριο Deinococcus Radiodurans. Το βακτήριο αυτό είναι ο πιο ανθεκτικός οργανισμός απέναντι στη ραδιενεργό ακτινοβολία. Σήμερα γίνονται προσπάθειες για εκμετάλλευση του με σκοπό τον καθαρισμό περιοχών που έχουν μολυνθεί με ραδιενεργή ακτινοβολία. 4.7 Σύνοψη Συνοψίζοντας, θα μπορούσε να ειπωθεί ότι η βιοπληροφορική είναι ένας πολλά υποσχόμενος επιστημονικός κλάδος του οποίου η γένεση και η ανάπτυξη ήρθε μέσα από την ανάμιξη δύο επιστημών, της βιολογίας και τις επιστήμης των υπολογιστών, σε μία καίρια, και για τις δύο, χρονική στιγμή. Από την μία η βιολογία βρέθηκε μπροστά στο μεγαλύτερο μέχρι σήμερα επίτευγμά της, την αποκρυπτογράφηση του ανθρώπινου γο- -59-

70 νιδιώματος, και από την άλλη η επιστήμη των υπολογιστών, μετά την τρομακτική έ- κρηξη που γνώρισε στα τέλη της δεκαετίας του ενενήντα, βρέθηκε σε μία φάση αρκετά ώριμη για να εφαρμοστεί επιτυχώς πάνω σε άλλες επιστήμες. Τα μέχρι τώρα αποτελέσματα είναι ικανοποιητικά και επομένως η προοπτική του πεδίου της βιοπληροφορικής ευοίωνη. Με το ανερχόμενο ενδιαφέρον της επιστημονικής κοινότητας πιστεύεται ότι η ανάπτυξη της βιοπληροφορικής τα επόμενα χρόνια θα είναι ταχύτατη και θα καταφέρει σε μεγάλο βαθμό να επιτύχει τους στόχους τους οποίους έχει θέσει εξαρχής αλλά και να επεκταθεί και σε άλλους τομείς, όπου η εφαρμογή της θα έχει ουσιαστικά αποτελέσματα. -60-

71 5 Πολυαδενυλίωση Πολυαδενυλίωση είναι μια μετα-μεταγραφική διαδικασία που έχει σαν στόχο την προστασία του mrna από αποικοδόμηση ώστε αυτό να φτάσει άθικτο στην περιοχή της πρωτεϊνοσύνθεσης, μεταφέροντας έτσι αυτούσια την πληροφορία του DNA. Στις επόμενες παραγράφους θα μελετήσουμε εκτενέστερα την μεταγραφή και θα περιγράψουμε και την διαδικασία της πολυαδενυλίωσης. 5.1 Μεταγραφή Σε προηγούμενο κεφάλαιο έγινε περιγραφή γενικότερα της έκφρασης ενός γονιδίου. Στο πλαίσιο αυτής της περιγραφής μελετήθηκε και ο μηχανισμός της μεταγραφής. Συνοπτικά, η έκφραση ενός γονιδίου γίνεται με την μεταφορά των γενετικών πληροφοριών από το DNA στο RNA και από το RNA σε πρωτεΐνες. Το εκμαγείο για την σύνθεση του RNA είναι ο ένας κλώνος του DNA και η σύνθεση γίνεται από ένζυμα που ο- νομάζονται RNA πολυμεράσες. Ο μηχανισμός με τον οποίο γίνεται η έναρξη, η επιμήκυνση και ο τερματισμός της σύνθεσης του RNA ονομάζεται μεταγραφή. Ωστόσο, ο μηχανισμός της μεταγραφής στα ευκαρυωτικά κύτταρα παρουσιάζει σημαντικές διαφορές με τον αντίστοιχο στα προκαρυωτικά, γεγονός που οφείλεται στην ύπαρξη του πυρήνα και των οργανιδίων μέσα σε αυτόν. Στην παρακάτω υποπαράγραφο γίνεται αναφορά στις ουσιαστικότερες διαφορές που υπάρχουν στη διαδικασία της μεταγραφής μεταξύ των προκαρυωτικών και ευκαρυωτικών κυττάρων Διαφορές μεταξύ Προκαρυωτικών και Ευκαρυωτικών Κυττάρων κατά την Μεταγραφή Κατά την διάρκεια της σύνθεσης του το βακτηριακό mrna είναι προσιτό στα ριβοσώματα και στα άλλα στοιχεία του πρωτεϊνοσυνθετικού μηχανισμού. Έτσι στα βακτήρια η -61-

72 πρωτεϊνοσύνθεση αρχίζει πριν ακόμη ολοκληρωθεί η σύνθεση του mrna αφού η μεταγραφή γίνεται με κατεύθυνση 5 3 και συνεπώς το 5 άκρο του mrna είναι διαθέσιμο για μετάφραση. Τα βακτηριακά mrna δεν τροποποιούνται μετά την σύνθεσή τους και επομένως η μεταγραφή και η μετάφραση είναι συζευγμένες. Στα ευκαρυωτικά η μεταγραφή και η μετάφραση παρουσιάζουν μεγαλύτερη πολυπλοκότητα. Η μεταγραφή γίνεται στον πυρήνα ο οποίος περιέχει ριβοσωμικές πρόδρομες μορφές (στον πυρηνίσκο) αλλά όχι ώριμα ριβοσώματα ικανά για πρωτεϊνοσύνθεση και κατά συνέπεια η μεταγραφή και η μετάφραση δεν είναι συζευγμένες. Επιπλέον, τα πρόδρομα ευκαρυωτικά mrna πριν μεταφερθούν στο κυτόπλασμα για να μεταφραστούν από τα ριβοσώματα, τροποποιούνται στον πυρήνα. Οι τροποποιήσεις αυτές περιλαμβάνουν προσθήκη χημικών ομάδων στα δύο άκρα και σε αρκετές περιπτώσεις αφαίρεση ορισμένων περιοχών και συνένωση των υπολοίπων. Αυτές οι βιοχημικές και δομικές τροποποιήσεις των ευκαρυωτικών mrna είναι από τις πλέον σημαντικές διαφορές που τα ξεχωρίζουν από τα προκαρυωτικά. Τα προκαρυωτικά διαφέρουν από τα ευκαρυωτικά και στην τελική σκοπιμότητα της ρύθμισης της έκφρασης του γενετικού υλικού. Στα βακτήρια η ρύθμιση επιτρέπει την προσαρμογή τους στο περιβάλλον και συνεπώς στην επίτευξη των απώτερων στόχων τους: την ανάπτυξη και τον διπλασιασμό. Αντίθετα, στα ευκαρυωτικά ο πιο χαρακτηριστικός και βιολογικά σημαντικός ρόλος της γονιδιακής ρύθμισης, είναι η ρύθμιση του γενετικού προγραμματισμού που υπαγορεύει την εμβρυολογική ανάπτυξη και την διαφοροποίηση των ιστών Η Μεταγραφή στα Ευκαρυωτικά Η παραγωγή του ευκαρυωτικού mrna περιλαμβάνει επιπρόσθετα στάδια μετά την μεταγραφή. Η μεταγραφή γίνεται με τον συνήθη τρόπο, ξεκινώντας με την δημιουργία ενός μεταγράφου με 5 τριφωσφορικό άκρο. Ωστόσο, το 3 άκρο δημιουργείται αποκόπτοντας ένα τμήμα του μεταγράφου και όχι τερματίζοντας την μεταγραφή σε μία ορισμένη θέση. Όσα RNA προέρχονται από γονίδια που περιέχουν ιντρόνια πρέπει να υ- ποστούν μάτισμα (splicing), ώστε να αφαιρεθούν τα ιντρόνια και να παραχθεί ένα μικρότερο mrna που περιέχει άθικτη κωδική αλληλουχία. Και τα δύο άκρα του μεταγράφου τροποποιούνται με την προσθήκη επιπλέον νουκλεοτιδίων. Το 5 άκρο του RNA τροποποιείται αμέσως μετά την εμφάνισή του με -62-

73 την προσθήκη μίας καλύπτρας. Η τριφωσφορική ομάδα του αρχικού μεταγράφου αντικαθίσταται από ένα νουκλεοτίδιο που προστίθεται σε αντίθετο προσανατολισμό (3 5 ), σφραγίζοντας με αυτόν τον τρόπο το άκρο. Το 3 άκρο τροποποιείται εξαιτίας της προσθήκης μιας σειράς νουκλεοτιδίων αδενυλικού οξέος (πολυαδενυλικό οξύ ή πολύ(α) ή poly(a)) αμέσως μετά την αποκοπή του. Μόνο μετά την ολοκλήρωση όλων των τροποποιήσεων και της επεξεργασίας μπορεί το mrna να εξαχθεί από τον πυρήνα στο κυτταρόπλασμα. Κατά μέσο όρο, το mrna καθυστερεί περίπου 20 λεπτά για να εξαχθεί από τον πυρήνα. Μόλις το mrna εισέλθει στο κυτταρόπλασμα, αναγνωρίζεται από τα ριβοσώματα και μεταφράζεται. Η 3 τερματική αλληλουχία από κατάλοιπα Α συχνά περιγράφεται ως ουρά πολυ(α), ενώ το mrna που έχει αυτό το χαρακτηριστικό δηλώνεται ως πολυ(α) + (poly(a) + ). Όπως προαναφέρθηκε η αλληλουχία πολυ(α) δεν κωδικοποιείται στο DNA αλλά προστίθεται στο RNA, μέσα στον πυρήνα, μετά την μεταγραφή. Η προσθήκη της πολυ(α) καταλύεται από το ένζυμο πολυ(α) πολυμεράση (poly(a) polymerase), η οποία προσθέτει περίπου 200 κατάλοιπα Α στο ελεύθερο 3 -ΟΗ άκρο του mrna. Η αλληλουχία πολυ(α), τόσο του πυρηνικού RNA όσο και του mrna είναι συνδεδεμένη με μια πρωτεΐνη που ονομάζεται πολυ(α) συνδεόμενη πρωτεΐνη (PABP, Poly(A)-Binding Protein). Κάποιες από τις επιδράσεις της πολυ(α) στις ιδιότητες του mrna, όπως η σταθερότητα ή η ικανότητα να προστατεύεται από την αποικοδόμηση, σχετίζονται με την σύνδεση της πολυ(α) με την PABP. Τέλος είναι σημαντικό να αναφέρουμε ότι σχεδόν όλα τα κυτταρικά mrna περιέχουν πολυ(α). Μια σημαντική εξαίρεση αποτελούν τα mrna που κωδικοποιούν τις ιστόνες, που είναι μείζον δομικό συστατικό του χρωμοσωμικού υλικού. Αυτά τα mrna αποτελούν το μεγαλύτερο ή όλο το κλάσμα των πολυ(α) - RNA. Η σημασία της απουσίας της ουράς πολυ(α) από το mrna των ιστόνων δεν είναι κατανοητή. 5.2 Αποκοπή και Πολυαδενυλίωση Όπως προαναφέρθηκε το 3 άκρο του mrna παράγεται με αποκοπή και πολυαδενυλίωση. Στην εικόνα 5.1 φαίνεται σχηματικά η διαδικασία της αποκοπής και πολυαδενυλίωσης. Η RNA πολυμεράση μεταγράφει πέρα από την θέση που αντιστοιχεί στο 3 άκρο και κάποιες αλληλουχίες στο RNA αναγνωρίζονται ως στόχοι για ενδονουκλεοτιδική πέψη. Μετά την αποκοπή ακολουθεί η πολυαδενυλίωση. Ένα σύμπλοκο αναλαμ- -63-

74 βάνει τόσο την αποκοπή όσο και την πολυαδενυλίωση. Η πολυαδενυλίωση σταθεροποιεί το mrna, προστατεύοντας το από αποικοδόμηση από το 3 άκρο καθώς το 5 άκρο είναι ήδη προστατευμένο με την καλύπτρα. H RNA πολυμεράση συνεχίζει την μεταγραφή πέραν του σημείου αποκοπής, αλλά το 5 άκρο που δημιουργείται από την αποκοπή είναι απροστάτευτο, με συνέπεια το υπόλοιπο του μεταγράφου να αποικοδομείται γρήγορα. Αυτό δυσχεραίνει τον προσδιορισμό των γεγονότων που λαμβάνουν χώρα πέραν του σημείου αποκοπής [Lewin, 2004]. Εικόνα 5.1 Διαδικασία της Πολυαδενυλίωσης Ένα κοινό χαρακτηριστικό των μορίων mrna στους περισσότερους ανώτερους ευκαρυώτες, είναι παρουσία της αλληλουχίας AAUAAA σε μια περιοχή νουκλεοτιδίων ανοδικά της θέσης που θα προστεθεί η ουρά πολυ(α). Η διαγραφή ή μετάλ- -64-

75 λαξη του εξαμερούς AAUAAA εμποδίζει την παραγωγή του πολυαδενυλιωμένου 3 άκρου. Το σήμα χρειάζεται τόσο για την αποκοπή όσο και για την πολυαδενυλίωση. Το σύμπλοκο που αναλαμβάνει την αποκοπή και την πολυαδενυλίωση αποτελείται από μία σειρά εξειδικευμένων παραγόντων: Μια ενδονουκλεάση που αποτελείται από τους παράγοντες CFI και CFII (Cleavage Factor I και ΙΙ, παράγοντες αποκοπής Ι και ΙΙ), για την αποκοπή του RNA Μια πολυ(α) πολυμεράση (PAP, Poly(A) Polymerase), για να συνθέσει την ουρά πολύ(α) Τον παράγοντα ειδικότητας CPSF (Cleavage and Polyadenylation Specificity Factor), ο οποίος αναγνωρίζει την αλληλουχία AAUAAA και κατευθύνει τις άλλες ενέργειες. Ένας παράγοντας ενίσχυσης (CstF, Cleavage stimulatory Factor), που προσδένεται σε μια αλληλουχία πλούσια σε G-U καθοδικά της περιοχής αποκοπής. Τα δύο κυριότερα προβλήματα με τα οποία ασχολείται η Βιοπληροφορική, σε σχέση πάντα με την αποκοπή και πολυαδενυλίωση, είναι καταρχάς ο προσδιορισμός του σημείου στο οποίο θα γίνει η αποκοπή και κατά δεύτερον ο προσδιορισμός των ρυθμιστικών στοιχείων (cis-regulatory elements) που βρίσκονται πριν (upstream) και μετά (downstream) από το σημείο αυτό. Κάποιες από τις σημαντικότερες εργασίες στην περιοχή αυτή θα παρουσιαστούν σε επόμενη παράγραφο. 5.3 Εναλλακτική Πολυαδενυλίωση Πρόσφατες έρευνες έχουν δείξει ότι περισσότερα από τα μισά ανθρώπινα γονίδια έχουν πολλαπλά σημεία πολυαδενυλίωσης [Tian et al., 2005, Yan J. et al 2005]. Όπως είναι προφανές η Εναλλακτική Πολυαδενυλίωση (Alternative Polyadenylation) συμβάλει στην πολυπλοκότητα που παρουσιάζουν τα ανθρώπινα κύτταρα σε σχέση με τους άλλους ευκαρυωτικούς οργανισμούς με την παραγωγή mrna με διαφορετικές 3 αμετάφραστες περιοχές (3 UTRs) κωδικοποιώντας έτσι διάφορων ειδών πρωτεΐνες. Η εναλλακτική πολυαδενυλίωση μπορεί να έχει πολλές επιδράσεις στον μεταβολισμό του mrna καθώς τα 3 UTRs περιέχουν διάφορα ρυθμιστικά στοιχεία όπως στοιχεία πλούσια σε Αδενίνη και Γουανίνη (AU-rich elements) που είναι υπεύθυνα για την σταθερότητα του mrna ή άλλα στοιχεία απαραίτητα για την μετάφρασή του. Η επίδραση της εναλλακτικής πολυαδενυλίωσης στην διαδικασία της μετάφρασης είναι συνήθως συνδεδε- -65-

76 μένη με το εναλλακτικό μάτισμα (Alternative Splicing) [Edwalds-Gilbert G], πράγμα που έχει αποδειχθεί για διάφορα γονίδια. 5.4 Εργασίες Σχετικές με την Πολυαδενυλίωση Στην παρούσα παράγραφο θα περιγράψουμε συνοπτικά τις επιστημονικές εργασίες που έχουν γίνει σε σχέση με την πολυαδενυλίωση. Μια από τις πρώτες προσεγγίσεις στο πρόβλημα της πολυαδενυλίωσης ήταν η δουλειά του Salamov και Solovyev (1997) που ανέπτυξαν ένα πρόγραμμα με το όνομα POLYAH για την αναγνώριση των 3 processing sites of human mrna precursors. Ο αλγόριθμος βασιζόταν σε μια γραμμική συνάρτηση διάκρισης (Linear Discriminant Function LDF) η οποία εκπαιδεύτηκε για να ξεχωρίζει τα αληθινά σημεία πολυαδενυλίωσης από άλλες περιοχές του ανθρώπινου γονιδιώματος που περιείχαν την ακολουθία AATAAA. Η ακρίβεια της μεθόδου εκτιμήθηκε σε ένα σύνολο από 131 περιοχές πολυαδενυλίωσης και 1466 περιοχές ανθρώπινου γονδιώματος ου περιείχαν την ακολουθία ΑΑΤΑΑΑ. Όταν το κατώφλι τέθηκε για σωστή πρόβλεψη του 86% των περιοχών πολυαδενυλίωσης, επετεύχθη ιδιαιτερότητα (Specificity) 51%. To 1999 οι Tabaska και Zhang ανέπτυξαν ένα πρόγραμμα το polyadq, ένα πρόγραμμα για πρόβλεψη σημάτων πολυαδενυλίωσης από ανθρώπινο γονιδίωμα. Το πρόγραμμα βρίσκει τα σήματα πολυαδενυλίωσης χρησιμοποιώντας δύο γραμμικές συναρτήσεις διάκρισης (Linear Discriminant Function LDF). Μια συγκεκριμένη για τα σήματα που σχετίζονται με την ακολουθία ΑΑΤΑΑΑ και μια άλλη για τα σήματα που σχετίζονται με την ακολουθία ΑΤΤΑΑΑ. Το Polyadq προβλέπει σήματα πολυαδενυλίωσης συντελεστή συσχέτισης correlation coefficient σε ολόκληρα γονίδια και στα δύο τελευταία εξώνια των γονιδίων. Το 2000 οι Van Helden et al, προσέγγισαν το πρόβλημα της εύρεσης του σημείου πολυαδενυλίωσης με στατιστικές μεθόδους. Άλλες ενδιαφέρουσες προσεγγίσεις δόθηκαν από τους Graber et al., (2002) και Hajarnavis et al., (2004) που χρησιμοποίησαν Hidden Markov Models. To 2003 οι Liu et al. πρότειναν μια μέθοδο βασισμένη στην μηχανική μάθηση για την πρόβλεψη σημάτων πολυαδενυλίωσης σε αλληλουχίες ανθρώπινου RNA, αναλύοντας χαρακτηριστικά γύρω από αυτά. Η μέθοδος αποτελείτο από 3 στάδια: (1) Παραγωγή υποψήφιων χαρακτηριστικών από τις αρχικές ακολουθίες. (2) Επιλογή των σχετι- -66-

77 κών features χρησιμοποιώντας αλγόριθμο βασισμένο στην εντροπία. (3) Χρησιμοποίηση των χαρακτηριστικών που προέκυψαν για το χτίσιμο ενός μοντέλου που χρησιμοποιούσε τα SVM για την πρόβλεψη των σημείων πολυαδενυλίωσης. Το 2005 οι Hu et al., ανέπτυξαν ένα πρόγραμμα με την ονομασία PROBE (Polyadenylation- Related Oligonucleotide Bidimensional Enrichment) με σκοπό να εντοπίσουν ρυθμιστικά στοιχεία (Cis- elements) για την διαδικασία της πολυαδενυλίωσης. Αποτέλεσμα της εργασίας τους ήταν η ανακάλυψη πολλών νέων ρυθμιστικών στοιχείων κυρίως πλούσιων σε Γουανίνη (G) αλλά και η διαπίστωση ότι πολλά ρυθμιστικά στοιχεία σε φυτικά κύτταρα υπήρχαν ως ρυθμιστικά στοιχεία και σε ασθενή σημεία πολυαδενυλίωσης. Ασθενές σημείο πολυαδενυλίωσης στην διαδικασία της εναλλακτικής πολυαδενυλίωσης είναι το σημείο που δεν γίνεται συχνά αποκοπή σε σχέση με το ισχυρό. Έτσι γίνεται η υπόθεση ότι κάποια ρυθμιστικά στοιχεία υπάρχουν σε όλα τα ευκαρυωτικά κύτταρα και διατηρήθηκαν κατά την εξελικτική διαδικασία. Ένα χρόνο αργότερα (2006) οι Cheng et al, από το ίδιο εργαστήριο ερεύνησαν το αν αυτά τα ρυθμιστικά στοιχεία μπορούν να χρησιμοποιηθούν για να προβλεφτούν με επιτυχία σημεία πολυαδενυλίωσης. Έτσι ανέπτυξαν ένα πρόγραμμα που βασίστηκε στα SVM και χρησιμοποιούσε τα ρυθμιστικά στοιχεία της προηγούμενης μελέτης. Το πρόγραμμα ονομάστηκε polya_svm και κατάφερε καλύτερα sensitivity και specificity από το polyadq. Μια από τις πιο πρόσφατες εργασίες στην περιοχή που σχετίζεται με την πολυαδενυλίωση δημοσιεύθηκε το 2007 από τους Ji et al., οι οποίοι χρησιμοποίησαν συμπεράσματα άλλης εργασίας (Loke et al.,2005) και ανέπτυξαν ένα πρόγραμμα βασισμένο σε Generalized Hidden Markov Models για την πρόβλεψη σημείων πολυαδενυλίωσης σε βιολογικές αλληλουχίες Arabidopsis. Τέλος ακόμα μια πρόσφατη εργασία (Tzanis et al., 2008) δημοσιεύθηκε το 2008 και αφορά την εύρεση ακολουθιών πολυαδενυλίωσης. Στην συγκεκριμένη εργασία χρησιμοποιούνται τα Intresting Emerging Patters με σκοπό την ακριβή πρόβλεψη. -67-

78 -68-

79 6 Υλοποίηση Στο παρόν κεφάλαιο θα περιγράψουμε τα εισαγωγικά που είναι απαραίτητα για την κατανόηση της μεθόδου που αναπτύχθηκε στα πλαίσια της παρούσας διπλωματικής, θα γίνει αναλυτική περιγραφή της μεθόδου που αναπτύχθηκε και τέλος θα παρουσιαστούν τα πειράματα που διεξήχθησαν με σκοπό την σύγκριση της παρούσας μεθόδου με άλλες. 6.1 Εισαγωγικά Σε αυτή την ενότητα θα παρουσιαστεί η τεχνική ορολογία που είναι απαραίτητη για την κατανόηση της μεθόδου που αναπτύχθηκε στην παρούσα διπλωματική. Παρακάτω ορίζονται οι έννοιες των συχνών (frequent) και αναδυόμενων (emerging) προτύπων και η χρησιμοποίηση τους για την κατηγοριοποίηση Συχνά Σύνολα Αντικειμένων Ο όρος συχνό σύνολο αντικειμένων προτάθηκε στο πλαίσιο της εξόρυξης κανόνων συσχέτισης. Οι κανόνες συσχέτισης (Agrawal et al., 1993) μπήκαν στο επίκεντρο του ενδιαφέροντος από της αρχές του 90 σαν ένας τρόπος για εξερευνητική ανάλυση χωρίς επίβλεψη. Οι κανόνες συσχέτισης περιλαμβάνουν αναζήτηση συν - εμφανίσεων αντικειμένων σε συναλλακτικές βάσεις δεδομένων. Μια τέτοια συν - εμφάνιση μπορεί να υποδηλώνει κάποια συσχέτιση μεταξύ των αντικειμένων που συνδέει. Η διαδικασία της εξόρυξης κανόνων συσχέτισης περιλαμβάνει δύο μεγάλα βήματα. Το πρώτο αφορά την ανακάλυψη συχνών συνόλων αντικειμένων που υπάρχουν σε μια συναλλακτική βάση δεδομένων. Το δεύτερο βήμα αφορά την εξαγωγή κανόνων συσχέτισης από τα ανακαλυφθέντα συχνά σύνολα αντικειμένων. Ένας πιο τυπικός ορισμός του συχνού συνόλου αντικειμένων παρουσιάζεται παρακάτω. -69-

80 Έστω I = {i 1, i 2,, i N } είναι ένα πεπερασμένο σύνολο από δυαδικές μεταβλητές οι ο- ποίες ονομάζονται αντικείμενα και D είναι ένα πεπερασμένο σύνολο από συναλλαγές που ονομάζονται δεδομένα. Κάθε συναλλαγή T D είναι ένα σύνολο από αντικείμενα τέτοιο ώστε T I. Το μέγεθος ενός συνόλου αντικειμένων (Itemset) είναι ο αριθμός που των στοιχείων που περιέχει. Λέμε ότι μια συναλλαγή T D περιέχει ένα σύνολο αντικειμένων X I,αν X T. Η υποστήριξη ενός συνόλου αντικειμένων (Itemset) ορίζεται ο λόγος των συναλλαγών που περιέχει ένα σύνολο αντικειμένων Χ δια του συνολικού αριθμού των συναλλαγών στο D. supp ( X ) = D { T D T X} D (1) Θέτοντας ένα κατώφλι στην τιμή της υποστήριξης σ (0,1], ένα σύνολο αντικειμένων λέμε ότι είναι σ-συχνό (σ-frequent) ή απλά συχνό στο D, αν suppd ( X ) σ Αναδυόμενα Πρότυπα Αναδυόμενα πρότυπα (Emerging Patterns) (Dong & Li, 1999) ονομάζονται σύνολα α- ντικειμένων των οποίων η υποστήριξη μεγαλώνει σημαντικά από το ένα σύνολο δεδομένων στο άλλο. Δοθέντων δύο συνόλων δεδομένων D1, D2 ο ρυθμός αύξησης ενός συνόλου αντικειμένων ορίζεται ως (οι δείκτες 1 και 2, χρησιμοποιούνται αντί για D 1 και D 2 ): gr 1 2 0, if supp1( X ) = 0 and supp2( X ) = 0, if supp1( X ) = 0 and supp2( X ) > 0 ( X ) = supp2 ( X ), otherwise supp1 ( X ) (2) Θέτοντας κατώφλι στην τιμή του ρυθμού ανάπτυξης ρ > 1, ένα σύνολο αντικειμένων λέγεται ότι είναι ρ-αναδυόμενο πρότυπο ή απλά αναδυόμενο πρότυπο από το D 1 στο D 2, αν gr 1 2 ( X ) ρ. Το D 1 λέγεται σύνολο δεδομένων υπόβαθρο (background dataset) και το D 2 λέγεται σύνολο δεδομένων στόχος (target dataset). -70-

81 Η δύναμη (strength) ενός αναδυόμενου προτύπου από το D 1 στο D 2 ορίζεται ως: supp2( X ), if gr1 2( X ) = strength 1 2( X ) = gr1 2( X ) supp2 ( X ), otherwise gr 1 2( X ) + 1 (3) Τα αναδυόμενα πρότυπα σε αντίθεση με άλλα πρότυπα ή μοντέλα είναι εύκολο να ερμηνευτούν και να γίνουν κατανοητά. Ακόμα, τα αναδυόμενα πρότυπα, ιδίως εκείνα με μεγάλο ρυθμό αύξησης και δύναμη έχουν μεγάλη διακριτική ικανότητα. Αυτό το διπλό όφελος των αναδυόμενων προτύπων τα καθιστά ένα πολύ χρήσιμο εργαλείο για την ε- ξερεύνηση πεδίων που δεν είναι πλήρως κατανοητά, και δίνει τους τρόπους για περιγραφική ανάλυση και ανάλυση που αφορά την πρόβλεψη Ενδιαφέροντα Αναδυόμενα Πρότυπα Ένα μειονέκτημα των αναδυόμενων προτύπων είναι ότι ο αριθμός τους μπορεί να είναι πολύ μεγάλος, ιδίως όταν το κατώφλι υποστήριξης και το κατώφλι του ρυθμού αύξησης έχουν τεθεί πολύ χαμηλά. Το να αυξηθούν τα όρια δεν είναι απαραίτητα σωστή λύση καθώς υπάρχει κίνδυνος κάποια πολύτιμα αναδυόμενα πρότυπα να μην ανακαλυφθούν. Για παράδειγμα αν το κατώφλι της υποστήριξης τεθεί αρκετά ψηλά, τότε τα αναδυόμενα πρότυπα με χαμηλή υποστήριξη αλλά υψηλό ρυθμό αύξησης θα χαθούν. Από την άλλη αν το κατώφλι του ρυθμού αύξησης τεθεί ψηλά, τότε τα αναδυόμενα πρότυπα με χαμηλό ρυθμό αύξησης αλλά υψηλή υποστήριξη, θα χαθούν. Με βάση αυτό το πρόβλημα έχουν προταθεί κάποιες μετρικές ενδιαφέροντος με στόχο να μειώνεται ο αριθμός των προτύπων που ανακαλύπτονται χωρίς όμως να θυσιάζονται πολύτιμα πρότυπα ή τουλάχιστον να θυσιάζονται όσο το δυνατόν πιο λίγα. Μια τέτοια μετρική ενδιαφέροντος είναι η ονομάζεται Χι - Αναδυόμενα Πρότυπα Chi Emerging Patterns (Fan, 2004), και ορίζεται παρακάτω. Δοθέντος ενός συνόλου δεδομένων υπόβαθρο D 1 και ενός συνόλου δεδομένων στόχος D 2, ένα σύνολο αντικειμένων X λέγεται Χι αναδυόμενο πρότυπο, αν πληρούνται όλες οι παρακάτω προϋποθέσεις: 1) 2 ( ) supp X σ, όπου σ είναι το κατώφλι της υποστήριξης. 2) gr 1 2 ( X ) ρ, όπου ρ είναι το κατώφλι του ρυθμού αύξησης. 3) 1 2 < 1 2 Y X, gr ( Y) gr ( X) -71-

82 4) X 1 X >1 ( Y X Y = X -1 chi( X, Y) η), = όπου η = 3.84 is είναι ένα κατώφλι τιμής Χι και chi(x, Y) υπολογίζεται από το Χ 2 τεστ. Η πρώτη συνθήκη διασφαλίζει ότι τα πρότυπα που έχουν ανακαλυφθεί έχουν την ελάχιστη κάλυψη στο σύνολο δεδομένων εκπαίδευσης έτσι ώστε να μπορεί να γενικεύονται με ευκολία σε καινούρια δεδομένα. Η δεύτερη συνθήκη διασφαλίζει ότι τα πρότυπα που έχουν ανακαλυφθεί έχουν μια επαρκή διακριτική ικανότητα. Η τρίτη συνθήκη χρησιμοποιείται για να απομακρύνει εκείνα τα αναδυόμενα πρότυπα που έχουν ένα υποσύνολο με ίση ή μεγαλύτερη υποστήριξη και ίσο ή μεγαλύτερο ρυθμό ανάπτυξης. Από την στιγμή που τα υποσύνολα έχουν μικρότερο αριθμό αναδυόμενα πρότυπα, δεν υπάρχει λόγος να τα κρατήσουμε. Τέλος η τέταρτη συνθήκη διασφαλίζει ένα αναδυόμενο πρότυπο έχει σημαντικά (95%) διαφορετική κατανομή υποστήριξης στο σύνολο δεδομένων στόχος και στο σύνολο δεδομένων υπόβαθρο από τις κατανομές σε άμεσα υποσύνολα Ταξινόμηση με Αναδυόμενα Πρότυπα Τα αναδυόμενα πρότυπα ή τα ενδιαφέροντα (πχ τα Χι) αναδυόμενα πρότυπα, μπορούν να χρησιμοποιηθούν για να διαχωρίσουμε στιγμιότυπα διαφορετικών κλάσεων. Δοθέντων δύο συνόλων δεδομένων D + και D -, για παράδειγμα συναλλαγές που αναπαριστούν ακολουθίες που περιέχουν σημεία πολυαδενυλίωσης (θετικά στιγμιότυπα) και ακολουθίες που δεν περιέχουν σημεία πολυαδενυλίωσης (αρνητικά στιγμιότυπα) ανακαλύπτονται δύο σύνολα από αναδυόμενα πρότυπα Ε + Ε -. Για την εξόρυξη του Ε + το D - θα είναι το σύνολο δεδομένων υπόβαθρο και το D + θα είναι το σύνολο δεδομένων στόχος. Αντίθετα, για την εξόρυξη του Ε - το σύνολο δεδομένων υπόβαθρο θα είναι το D + και το σύνολο δεδομένων στόχος θα είναι το D - Όταν ένα νέο στιγμιότυπο (συναλλαγή) T πρέπει να ταξινομηθεί, υπολογίζονται οι δύο παρακάτω βαθμολογίες: score( T, + ) = strength ( e) e T, e E+ score( T, ) = strength ( e) e T, e E + + (4) -72-

83 Η πρώτη βαθμολογία καταδεικνύει αν η Τ είναι θετική και η δεύτερη αν η Τ είναι αρνητική. Η τελική απόφαση μπορεί να παρθεί με την σύγκριση των δυο τιμών και ταξινόμηση της ακολουθίας στην κλάση με το μεγαλύτερο σκορ. Παρόλα αυτά επειδή το μέγεθος των δύο συνόλων αναδυόμενων προτύπων μπορεί να διαφέρει σημαντικά τα σκορ πρέπει να υποστηριχθούν. Στην εργασία (Tzanis et al., 2008) έχουν παρουσιαστεί τρεις μέθοδοι: 1. Η πρώτη μέθοδος προτάθηκε από τον (Dong et al.,1999). Υπολογίζει δυο βασικές βαθμολογίες, base + και base - για την θετική και αρνητική κλάση αντίστοιχα. Η βαθμολογία base + βρίσκεται υπολογίζοντας το θετικό σκορ για κάθε θετική ακολουθία και θέτοντας ως base + τον μέσο όρο. Ομοίως συμβαίνει και με το base - 2. Μια άλλη μέθοδος χρησιμοποιεί τη πληροφοριακή εντροπία με σκοπό να επιλεγεί ένα κατώφλι για το κλάσμα score( T, + ) score( T, ). Αυτό το κλάσμα υπολογίζεται για κάθε ακολουθία (αρνητική ή θετική) στο σύνολο δεδομένων και βρίσκεται ένα σημείο entropy_threshold όπου μεγιστοποιείται το πληροφοριακό κέρδος. Μια νέα ακολουθία ταξινομείται στις θετικές αν το κλάσμα της υπερβαίνει τον entropy_threshold. 3. Τέλος μελετήθηκε ο συνδυασμός των δύο παραπάνω. Και προτάθηκε ένα άλλο κατώφλι για το κλάσμα στο 2. Το κατώφλι υπολογίζεται με τον παρακάτω τρόπο. base entropy _ threshold + base entropy _ base = 2 + (5) Η περίπτωση στο 1 ευνοεί την κλάση με τον μικρότερο αριθμό στιγμιότυπων στα δεδομένα εκπαίδευσης. Η περίπτωση στο 2 ευνοεί την κλάση με τα περισσότερα στιγμιότυπα στα δεδομένα εκπαίδευσης. Για αυτό τον λόγο προτάθηκε η περίπτωση στο 3 γιατί μετριάζει τις παρενέργειες των άλλων δύο περιπτώσεων Μετρικές Αξιολόγησης Ταξινόμησης Η αποτελεσματικότητα ενός ταξινομητή εκτιμάται με βάση κάποιες παγιωμένες μετρικές. Σε αυτή την εργασία χρησιμοποιούνται τρεις μετρικές. Η ευαισθησία (sensitivity) -73-

84 ή TP Rate ορίζεται ως η αναλογία των ορθά προβλεπόμενων ως θετικά προς το σύνολο των θετικών παραδειγμάτων. TP Sensitivity = TP + FN (6) Η άλλη μετρική είναι η ιδιαιτερότητα (Specifity) ή ΤΝ Rate που ορίζεται ως η αναλογία των ορθά προβλεπόμενων ως αρνητικά προς το σύνολο των αρνητικών παραδειγμάτων. TN Specificity = TN + FP (7) ΤΡ (True Positives) είναι τα θετικά προβλεπόμενα ως θετικά και FP (False Positives) είναι τα αρνητικά παραδείγματα που ταξινομήθηκαν ως θετικά. Κατ αναλογία ΤΝ (True Negatives) είναι αρνητικές ακολουθίες ταξινομημένες ως αρνητικές και FN (False Negatives) είναι οι θετικές ακολουθίες ταξινομημένες ως αρνητικές. Η ακρίβεια (Accuracy) ορίζεται ως ο λόγος των σωστά προβλεπόμενων παραδειγμάτων προς το σύνολο των παραδειγμάτων. Παρόλα αυτά η ακρίβεια μπορεί να είναι παραπλανητικό μέτρο όταν τα αρνητικά και θετικά δεδομένα δεν είναι περίπου ίδια στον αριθμό. Σε αυτή την περίπτωση χρησιμοποιείται σαν μέτρο η Προσαρμοσμένη Ακρίβεια (Adjusted Accuracy) που δίνεται από τον παρακάτω τύπο. Adjusted Accuracy = Sensitivity + Specificity 2 (8) Τα δεδομένα που χρησιμοποιήθηκαν υπαγόρευαν την χρήση της προσαρμοσμένης α- κρίβειας. -74-

85 6.2 Η Μέθοδος PolyA-iEP Στην παρούσα παράγραφο θα περιγράφει η μέθοδος (PolyA iep) που αναπτύχθηκε στα πλαίσια της παρούσας διπλωματικής με σκοπό τη προσέγγιση του προβλήματος της πρόβλεψης σημείων πολυαδενυλίωσης σε ακολουθίες Arabidopsis Thaliana. Παρόλο που η παρούσα διπλωματική επικεντρώνεται στα δεδομένα Arabidopsis, το πρόγραμμα PolyA-iEP είναι ένα πλήρως παραμετροποιήσιμο πρόγραμμα και μπορεί να εφαρμοστεί και σε δεδομένα άλλων οργανισμών όπως για παράδειγμα ανθρώπων. Η υλοποίηση του έγινε στην γλώσσα προγραμματισμού JAVA και αποτελείται από ένα αριθμό βημάτων που παρουσιάζονται στην παρακάτω εικόνα (εικόνα 6.1), και αναλύονται εκτενώς στις παρακάτω υποπαραγράφους. Είσοδος A C Εξαγωγή Εξαγωγή Δυαδική Εξόρυξη Χι T στοιχείων k-grams Διακριτοποίηση αναδυόμενων προτύπων T G Ταξινόμηση T G Βαθμολόγηση με T βάση την απόσταση C Εικόνα 6.1: Η αρχιτεκτονική του PolyA-iEP Έξοδος +/ Εξαγωγή Στοιχείων Η περιοχή γύρω από ένα σημείο πολυαδενυλίωσης χωρίζεται σε μια σειρά από «στοιχεία». Αυτά τα στοιχεία συνθέτονται από διαφορετικής συχνότητας νουκλεοτίδια, διαφορετικό αριθμό νουκλεοτιδίων και ως αποτέλεσμα αυτών περιέχουν και διαφορετικά είδη προτύπων (Patterns). Αυτό καταδεικνύει την ανάγκη αναζήτησης προτύπων σε κάθε στοιχείο ξεχωριστά. Παρόλα αυτά μια καλή ιδέα θα ήταν η αναζήτηση συσχετίσεων ανάμεσα στα πρότυπα των διαφορετικών στοιχείων. Αυτό θα μπορούσε να οδηγήσει σε νέα εκτενή πρότυπα που πιθανώς να περιέχουν περισσότερη πληροφορία και επομένως να χαρακτηρίζονται από μεγαλύτερη διακριτική ικανότητα σε σχέση με αυτά -75-

86 που βρίσκονται σε κάθε στοιχείο ξεχωριστά. Η ανακάλυψη και η χρησιμοποίηση αυτών των εκτενών προτύπων είναι βασικό στοιχείο της λειτουργίας του PolyA-iEP. Τρία είναι τα βασικά στοιχεία που έχουν προταθεί σε άλλες έρευνες (Looke et al., 2005) παίρνουν το όνομά τους από την θέση τους σε σχέση με το σημείο αποκοπής. Είναι τα «απομακρυσμένο άνωθεν στοιχείο» (Far Upstream Element FUE), «το εγγύς άνωθεν στοιχείο» (Near Upstream Element NUE) και το «στοιχείο αποκοπής» (Cleavage Element CE). Η περιοχή κάτωθεν του σημείου αποκοπής (Near Downstream Element NDE) δεν είναι τόσο βαρύνουσας σημασίας αλλά για λόγους πληρότητας έχει συμπεριληφθεί στην μέθοδο που θα παρουσιαστεί. Η εικόνα 6.2 συνοψίζει και σχηματικά τα στοιχεία γύρω από το σημείο πολυαδενυλίωσης. Poly(A) Site 5 FUE NUE CE NDE position Εικόνα 6.2: Τα στοιχεία γύρω από το σημείο πολυαδενυλίωσης Εξαγωγή των k-grams Κάθε ένα από τα στοιχεία τα οποία περιγράφηκαν πριν αναπαριστώνται από ένα διάνυσμα που περιέχει τις συχνότητες όλων των νουκλεοτιδικών προτύπων (k-grams). Τα πρότυπα περιλαμβάνουν όλους τους συνδυασμούς νουκλεοτιδικών μεγέθους k όπου το k ορίζεται από τον χρήστη. Ακόμα στο πρόγραμμα παράγονται ένας αριθμός από πρότυπα που περιέχουν χαρακτήρες διττής σημασίας σαν επέκταση των αρχικών προτύπων. Τα πρότυπα και αυτά έχουν μήκος k. Το αλφάβητο για την παραγωγή αυτών των προτύπων παρουσιάζεται στον παρακάτω πίνακα. Στις τελευταίες 6 γραμμές του πίνακα παρουσιάζονται όλα τα δυνατά μπαλαντέρ που χρησιμοποιούνται στην μέθοδο. Για παράδειγμα, το πρότυπο AWT είναι ένα έγκυρο πρότυπο και υποδηλώνει είτε την ύπαρξη του ΑΑΤ είτε του ΑΤΤ. Συνοψίζοντας τα παραπάνω έχουμε ότι κάθε αρχική ακολουθία στο πρόγραμμα θα αναπαρίσταται από έναν αριθμό από διανύσματα, όπου κάθε στοιχείο αυτών θα αντιστοιχεί στην συχνότητα ενός έγκυρου προτύπου. Ο αριθμός των διανυσμάτων για κάθε ακολουθία είναι συγκεκριμένος και ίσος με τον αριθμό των στοιχείων γύρω από το σημείο πολυαδενυλίωσης. -76-

87 Alphabet Letter Nucleotides A A Adenine C C Cytocine G G Guanine T T Thymine R A or G purine Y C or T pyrimidine M A or C amino K G or T Keto S C or G Strong (3 H bonds) W A or T Weak (2 H bonds) Πίνακας 6.1: Το αλφάβητο της εφαρμογής Δυαδική Διακριτοποίηση Η μέθοδος διακριτοποίησης που χρησιμοποιήθηκε στην μέθοδο βασίζεται στην πληροφοριακή εντροπία. Για δοθέν σύνολο από δεδομένα εκπαίδευσης S, η εντροπία entropy(e) δίνεται από τον παρακάτω τύπο. c ES ( ) = plog ( p ) (9) i= 1 i 2 i Όπου c είναι ο αριθμός των κλάσεων και p i είναι η αναλογία των παραδειγμάτων στο S που ανήκουν στην κλάση i. Εξ ορισμού αν p i είναι ίσο με το μηδέν τότε και ο όρος p log ( p ) είναι μηδέν. i 2 i Δοθέντος ενός συνόλου από υποψήφια Ν cut points T={t 1,,t N } για τις τιμές μιας μεταβλητής Α που χωρίζουν το σύνολο δεδομένων σε Ν+1 υποσύνολα (S 1,,S N+1 ), το πληροφοριακό κέρδος information gain (G) δίνεται από την ακόλουθη εξίσωση: N+ 1 S ( ;, ) = ( ) i GSAT ES ES ( i ) S i= 1 (10) -77-

88 Στο πρόγραμμα χρησιμοποιείται δυαδική διακριτοποίηση, και επομένως υπάρχει μόνο ένα cut point Εξόρυξη Ενδιαφέροντων Αναδυόμενων Προτύπων Τα συναλλακτικά δεδομένα που παράγονται στο προηγούμενο στάδιο μπορούν να εξορυχτούν για την ανακάλυψη interesting emerging patterns. Για τον σκοπό αυτό επεκτάθηκε ο αλγόριθμος FP-Growth (Han et al., 2000) που χρησιμοποιείται για εξόρυξη συχνών συνόλων. Ο επεκταμένος αλγόριθμος λαμβάνει σαν είσοδο δύο σύνολα δεδομένων, το σύνολο δεδομένων υπόβαθρο και το σύνολο δεδομένων στόχο, και ανακαλύπτει όλα τα Χι αναδυόμενα πρότυπα που προκύπτουν, βασισμένα πάντα στις παραμέτρους που δίνονται από το χρήστη (ελάχιστο όριο υποστήριξης και ρυθμό ανάπτυξης). Σε αυτό το σημείο αξίζει να αναφερθεί ότι τα πρότυπα που προκύπτουν από το PolyAiEP είναι «επεκταμένα» (extended), καθώς προκύπτουν από πρότυπα διαφορετικών στοιχείων. Σε αυτό το βήμα παράγονται δύο σύνολα από emerging patterns ένα για το θετικό σύνολο δεδομένων και ένα για το αρνητικό. Στην εργασία έχουμε θέσει το αρνητικό σύνολο δεδομένων να αποτελείται από τρία διαφορετικά είδη αρνητικών ακολουθιών (5 UTR, coding, Intronic), οι οποίες παρουσιάζουν τελείως διαφορετική κατανομή νουκλεοτιδίων. Αν οι αρνητικές ακολουθίες αντιμετωπιστούν σαν ένα σύνολο τότε η αποτελεσματικότητα της κατηγοριοποίησης είναι μέτρια. Για αυτό τον λόγο έγινε εξόρυξη σε τέσσερα ζευγάρια θετικών / αρνητικών δεδομένων, ένα για τον διαχωρισμό των θετικών δεδομένων από όλες τις αρνητικές και τρία μοντέλα για τον διαχωρισμό του κάθε είδους αρνητικού με το θετικό σύνολο δεδομένων. Ένα παράδειγμα από extended interesting emerging pattern, που μπορεί να ε- ξορυχτεί από το PolyA-iEP είναι το ακόλουθο: {FUE_TGGA, NUE_CT, NDE_CYG} : 0.32 Το παραπάνω πρότυπο σχετίζει την ύπαρξη του προτύπου TGGA στο στοιχείο FUE του προτύπου CT στο στοιχείο NUE και του προτύπου CYG στο στοιχείο NDE. Η δύναμη (strength) του εκτεταμένου αυτού προτύπου είναι

89 6.2.5 Βαθμολόγηση μέσω των Ενδιαφέροντων Αναδυόμενων Παραθύρων Όπως είδη περιγράφηκε η μέθοδος των αναδυόμενων προτύπων χρησιμοποιείται για να διαχωρίσει στιγμιότυπα διαφορετικών κλάσεων. Σε αυτό το βήμα τα ζευγάρια Ε + /Ε - των αναδυόμενων προτύπων που παρήχθησαν προηγουμένως χρησιμοποιούνται για να βαθμολογήσουν ένα στιγμιότυπο του συνόλου δεδομένων, δηλαδή μια ακολουθία, για το αν είναι θετική ή αρνητική. Για τον σκοπό αυτό υπολογίζονται ζευγάρια από σκορ σύμφωνα με τις εξισώσεις που έχουν περιγραφεί. Ο συνολικός αριθμός των σκορ που παράγονται σε αυτό το βήμα είναι οκτώ. Δύο βαθμολογίες (μια για την θετική κλάση και μια για την αρνητική κλάση) παράγονται για κάθε μια από τις παρακάτω περιπτώσεις δεδομένων: θετικά/όλα αρνητικά, θετικά/ 5 UTR αρνητικά, θετικά/ κωδικά αρνητικά, θετικά/ εσώνια αρνητικά Βαθμολόγηση με Βάση την Απόσταση Η βαθμολόγηση με βάση την απόσταση (Distance Βased Scoring) είναι τελείως ανεξάρτητη από τα προηγούμενα βήματα. Σε αυτό το βήμα υπολογίζονται οι συχνότητες του κάθε νουκλεοτιδίου σε κάθε θέση της ακολουθίας και δημιουργούνται δύο πίνακες συχνοτήτων, ένας για κάθε κλάση. Για παράδειγμα, το νουκλεοτίδιο Α έχει συχνότητα 0.15 στην θέση ένα των ακολουθιών και η συνχότητα αυτή είναι τέταρτη σε σειρά σε σχέση με τις συχνότητες των άλλων νουκλεοτιδίων στην θέση αυτή. Αντίστοιχα το νουκλεοτίδιο G έχει συχνότητα 0.40 και είναι πρώτο σε σχέση με τα νουκλεοτίδια στην θέση αυτή. Οι πίνακες που παράγονται περιέχουν αυτά τα στοιχεία. Ο πρώτος, τις συχνότητες του κάθε νουκλεοτιδίου για κάθε θέση της ακολουθίας και ο δεύτερος την θέση που κατέχει το νουκλεοτίδιο αυτό σε σχέση με τα άλλα νουκλεοτίδια για κάθε θέση της ακολουθίας. Παρακάτω δίνονται δύο παραδείγματα των πινάκων (πίνακας 6.2 κ 6.3). -79-

90 nucleotide position in sequence A C G T Πίνακας 6.2: Παράδειγμα πίνακα με τις συχνότητες των νουκλεοτιδίων nucleotide position in sequence A C G T Πίνακας 6.3: Παράδειγμα πίνακα με τις θέσεις των νουκλεοτιδίων Για να υπολογιστεί η απόσταση μίας ακολουθίας από μια κλάση ή υποκλάση (5 UTR, εσώνια ή κωδικές αλληλουχίες) αρχικά η ακολουθία μετατρέπεται σε ένα διάνυσμα που περιέχει τις θέσεις των νουκλεοτιδίων σύμφωνα με τον δεύτερο πίνακα για μια κλάση ή υποκλάση. Έπειτα υπολογίζεται η απόσταση από το μοναδιαίο διάνυσμα και στο τέλος αυτή διαιρείται με το μήκος της ακολουθίας. Για παράδειγμα, δοθέντος του δεύτερου πίνακα το διάνυσμα που αντιστοιχεί στην ακολουθία ATGGC είναι <4, 1, 2.5, 1, 2>. Η απόσταση (Μανχάταν) του διανύσματος αυτού από το μοναδιαίο διάνυσμα <1,1,1,1,1> είναι 5,5. Έπειτα διαιρείται η απόσταση αυτή με το μήκος του διανύσματος και η βαθμολογία που προκύπτει είναι 1.1. Αυτή είναι η μέση απόσταση των νουκλεοτιδίων της ακολουθίας από την κλάση ή υποκλάση στην οποία ανήκει ο πίνακας από τον οποίο πάρθηκαν οι τιμές. -80-

91 6.2.7 Ταξινόμηση Οι βαθμολογίες που προκύπτουν στα προηγούμενα βήματα χρησιμοποιούνται σαν είσοδοι σε έναν ταξινομητή ο οποίος παίρνει την τελική απόφαση για την κατάταξη μιας ακολουθίας στις θετικές ή τις αρνητικές (δηλαδή που περιέχουν ή όχι σημείο πολυαδενυλίωσης). Πιο συγκεκριμένα ένα σύνολο από 13 βαθμολογίες δίνονται σαν είσοδος στον ταξινομητή. Οι οκτώ βαθμολογίες προέρχονται από τα βήματα της εξόρυξης των αναδυόμενων προτύπων και οι 5 προέρχονται από το βήμα της βαθμολόγησης με βάση την απόσταση. Οποιοσδήποτε αλγόριθμος κατηγοριοποίησης μπορεί να χειριστεί πραγματικές τιμές αριθμητικών δεδομένων και δυαδικές κλάσεις μπορεί να χρησιμοποιηθεί για το χτίσιμο του μοντέλου. Στην παρούσα εργασία χρησιμοποιήθηκαν μια σειρά από αλγορίθμους κατηγοριοποίησης όπως νευρωνικά δίκτυα, μηχανές υποστήριξης διανυσμάτων, δέντρα κατηγοριοποίησης. 6.3 Δεδομένα και Πειράματα Σε αυτή την ενότητα θα παρουσιάσουμε τα σύνολα δεδομένων τα οποία χρησιμοποιήθηκαν και τα πειράματα που έγιναν με αυτά Δεδομένα Χρησιμοποιήσαμε τέσσερα σύνολα από ακολουθίες Arabidopsis Thaliana. Το ένα από αυτά περιέχει 6209 θετικά παραδείγματα που ονομάζονται mrna 3 end ακολουθίες οι οποίες περιέχουν σημείο πολυαδενυλίωσης, ενώ οι άλλες τρείς περιέχουν αρνητικά παραδείγματα (864-5 UTR, κωδικές (Coding) και ακολουθίες εσωνίων (intronic)). Τα δεδομένα αυτά έχουν χρησιμοποιηθεί σε προηγούμενες μελέτες (Ji et al., 2007; Koh & Wong, 2007; Tzanis et al., 2008). Το σύνολο των θετικών ακολουθιών θα αποκαλείται θετικό σύνολο δεδομένων και το σύνολο όλων των αρνητικών δεδομένων θα καλείται αρνητικό σύνολο δεδομένων. Όλες οι ακολουθίες έχουν μέγεθος 400 νουκλεοτιδίων. Όλες οι θετικές ακολουθίες έχουν ένα EST υποστηριζόμενο σημείο πολυαδενυλίωσης στην θέση 301. Κάθε ακολουθία του θετικού συνόλου δεδομένων -81-

92 έχει υποστεί σύγκριση με τις άλλες (Koh & Wong., 2007) έτσι ώστε να μειωθεί η ο- μοιότητα των ακολουθιών. Πιο συγκεκριμένα, δεν υπάρχουν δυο ακολουθίες στο θετικό σύνολο παραδειγμάτων που να έχουν πάνω από 70% ομοιότητα. Περισσότερες πληροφορίες για τα δεδομένα υπάρχουν στο (Ji et al., 2007) Ο πίνακας παρακάτω περιγράφει τα δεδομένα που χρησιμοποιήθηκαν. Για λόγους πειραματισμού το κάθε αρχικό σύνολο δεδομένων χωρίστηκε σε έναν αριθμό από σύνολα δεδομένων με βάση δύο κριτήρια. Το πρώτο κριτήριο που έχει αναφερθεί προηγουμένως είναι τα βιολογικά χαρακτηριστικά της κάθε ακολουθίας (αρνητικές ακολουθίες είναι οι 5 UTR, κωδικές και εσωνίων). Ο συγκεκριμένος διαχωρισμός των δεδομένων φαίνεται από τις γραμμές του παρακάτω πίνακα 6.4. All Sequences EP Mining Training Test Positive Sequences EST Supported UTR Negative Sequences Coding Intronic Total Negative Total Sequences (Positive + Negative) Πίνακας 6.4: Σύνολα δεδομένων Το δεύτερο κριτήριο είναι η διαδικασία που πρέπει να ακολουθηθεί για το χτίσιμο του μοντέλου και την εκτίμηση των δυνατοτήτων του. Για τον λόγο αυτό οι ακολουθίες έ- χουν χωριστεί με τυχαίο τρόπο σε τρία μέρη. Το πρώτο χρησιμοποιείται για την εξόρυξη ενδιαφέροντων αναδυόμενων προτύπων (EP Mining), ένα για την εκπαίδευση του ταξινομητή και ένα για την εκτίμηση της απόδοσης του ταξινομητή. Το ποσοστό των ακολουθιών που χρησιμοποιούνται για κάθε σκοπό αποφασίστηκε έτσι ώστε να υπάρχουν επαρκή δεδομένα για την εξαγωγή των αναδυόμενων προτύπων και την εκπαίδευση του ταξινομητή. Ο χωρισμός των δεδομένων κατά αυτόν τον τρόπο φαίνεται στις στήλες του πίνακα. -82-

93 6.3.2 Συνεισφορά των Wild chars Για να αποτιμήσουμε την συνεισφορά των k-gram προτύπων που περιέχουν wild chars, έγινε σύγκριση της μεθόδου PolyA-iEP με μια βασική μέθοδο που παράγει και χρησιμοποιεί πρότυπα χωρίς wildchars. Τα πιο δυνατά χι- αναδυόμενα πρότυπα και από τα αρνητικά αλλά και από τα θετικά παραδείγματα και των δύο μεθόδων ταξινομήθηκαν και παρουσιάζονται στα παρακάτω γραφήματα. Τα γραφήματα παρουσιάζουν τις εξής συγκρίσεις: Positive/5 UTR, positive /coding, positive/intronic, and positive/all negative. Όπως φαίνεται σε όλα τα γραφήματα η μέθοδος που περιλαμβάνει πρότυπα με wildchars, δίνει ισχυρότερα αναδυόμενα πρότυπα, όταν συγκρίνεται για τα πρώτα Ν πρότυπα. Αυτό σημαίνει ότι αν λάβουμε υπόψη μας μόνο τα Ν ισχυρότερα αναδυόμενα πρότυπα τότε η PolyA-iEP θα έχει ένα σύνολο από ισχυρότερα Χι- αναδυόμενα πρότυπα από την άλλη μέθοδο. Από τα παραπάνω γίνεται φανερό ότι η συνεισφορά των wildchars στην ποιότητα των αναδυόμενων προτύπων που προκύπτουν από το πρόγραμμα είναι μεγάλη. Strength Positive Chi Emerging Patterns Positive Chi Emerging Patterns (+ wildchars) Negative Chi Emerging Patterns Negative Chi Emerging Patterns (+ wildchars) Strength Positive Chi Emerging Patterns Positive Chi Emerging Patterns (+ wildchars) Negative Chi Emerging Patterns Negative Chi Emerging Patterns (+ wildchars) N th Strongest Chi Emerging Pattern N th Strongest Chi Emerging Pattern (α) positive/5 UTR (β) positive/coding 0.2 Positive Chi Emerging Patterns Positive Chi Emerging Patterns (+ wildchars) Negative Chi Emerging Patterns Negative Chi Emerging Patterns (+ wildchars) Positive Chi Emerging Patterns Positive Chi Emerging Patterns (+ wildchars) Negative Chi Emerging Patterns Negative Chi Emerging Patterns (+ wildchars) Strength 0.1 Strength N th Strongest Chi Emerging Pattern (N th Strongest Chi Emerging Pattern (γ) positive/intronic (δ) positive/all negative -83-

94 6.3.3 Εκτίμηση των Χι Αναδυόμενων Προτύπων. Για να εκτιμηθεί η δυνατότητα των Χι αναδυόμενων προτύπων για ταξινόμηση έγιναν μια σειρά από πειράματα που περιελάμβαναν διαφορετικό αριθμό από τα ισχυρότερα Χι αναδυόμενα πρότυπα. Τα αποτελέσματα φαίνονται στα παρακάτω διαγράμματα. Όπως γίνεται φανερό η ακρίβεια αυξάνεται όσο αυξάνεται ο αριθμός των χι αναδυόμενων προτύπων που παίρνουν μέρος στην ταξινόμηση. Παρόλα αυτά η αύξηση της ακρίβειας είναι μικρή μετά από έναν συγκεκριμένο αριθμό από πρότυπα (περίπου 500). 1 Positive/5 UTR Positive/Intronic Positive/Coding Positive/All Negative Adjusted Accuracy N Strongest Chi Emerging Ptterns Εικόνα 6.3: Απόδοση ταξινόμησης αναδυόμενων προτύπων Εκτίμηση της Βαθμολόγησης με Βάση την Απόσταση Το παρακάτω διάγραμμα παρουσιάζει την μέση απόσταση της θετικής κλάσης από όλες τις άλλες κλάσεις και υποκλάσεις. Πιο συγκεκριμένα δημιουργήθηκαν πέντε πίνακες κατάταξης νουκλεοτιδίων χρησιμοποιώντας πέντε διαφορετικά σύνολα δεδομένων εκπαίδευσης (positive, 5 UTR, coding, intronic, and all negative). Έπειτα χρησιμοποιώντας το θετικό σύνολο δεδομένων αξιολόγησης υπολογίστηκε η μέση απόσταση από κάθε κλάση. -84-

95 Mean Distance Positive 5 UTR Coding Intronic All Negative Εικόνα 6.4: Μέσες αποστάσεις της θετικής κλάσης από τις υπόλοιπες Όπως φαίνεται και από το διάγραμμα η κοντινότερη κλάση στα θετικά είναι τα θετικά. Η επόμενη πιο κοντινή υποκλάση είναι τα εσώνια (intronic) και η πιο απομακρυσμένη κλάση είναι οι κωδικές αλληλουχίες (Coding). Ένα άλλο αξιόλογο εύρημα είναι ότι η απόσταση των θετικών παραδειγμάτων από την κλάση των «Όλα αρνητικά» (All Negatives) είναι σχεδόν ίση με την απόσταση από την υποκλάση των εσωνίων (Intronic). Αυτό με άλλα λόγια μας δείχνει ότι ο διαχωρισμός των θετικών παραδειγμάτων από τα «Όλα αρνητικά» είναι της ίδιας δυσκολίας με τον διαχωρισμό των θετικών από τα εσώνια Εκτίμηση του Tαξινομητή Στην παρούσα υποπαράγραφο γίνεται εκτίμηση της απόδοσης της εφαρμογής PolyAiEP συνολικά. Ο ταξινομητής που κτίζεται χρησιμοποιεί τα σκορ που παράγονται από όλα τα προηγούμενα βήματα και βγάζει την τελική απόφαση. Τα πειράματα που διεξήχθησαν περιελάμβαναν μια αρκετά μεγάλη συλλογή από αλγορίθμους που είναι υλοποιημένοι στην βιβλιοθήκη Weka (Witten & Frank., 2005). Νευρωνικά Δίκτυα χωρίς κρυφά επίπεδα (ΝΝ 0). Νευρωνικά Δίκτυα με ένα κρυφό επίπεδο (ΝΝ 1). Μηχανές Υποστήριξης Διανυσμάτων (SMO 1) χρησιμοποιώντας γραμμικό πολυονυμικό πύρινα. Μηχανές Υποστήριξης Διανυσμάτων (SMO 2) χρησιμοποιώντας quadratic πολυονυμικό πυρήνα. -85-

96 Logistic Model Tree (LMT) C4.5. Αλγόριθμος παραγωγής δέντρων απόφασης. K Κοντινοί Γείτονες (k NN) Για αξιολογηθεί η σημαντικότητα του συνδυασμού όλων των επιμέρους συστημάτων της εφαρμογής έγιναν πειράματα ώστε να συγκριθεί με δύο μεθόδους. Η πρώτη δεν περιλαμβάνει την distance based scoring. Δηλαδή ο ταξινομητής τροφοδοτείται μόνο με τις βαθμολογίες που παράγονται από την εξόρυξη των αναδυόμενων προτύπων. Η δεύτερη δεν περιλαμβάνει τις βαθμολογίες από την εξόρυξη αναδυόμενων προτύπων και επομένως μόνο οι βαθμολογίες του distance based scoring τροφοδοτούνται στον ταξινομητή. Τέλος για να εκτιμηθεί η συνολική απόδοση του συστήματός έγιναν πειράματα και συγκρίθηκε με μια βασική μέθοδο η οποία περιλαμβάνει την χρησιμοποίηση ενός μεγάλου αριθμού χαρακτηριστικών που αναπαριστούν την συχνότητα των k-gram σε ένα στιγμιότυπο (ακολουθία). Πιο συγκεκριμένα, κάθε στιγμιότυπο αναπαρίσταται από ένα διάνυσμα που περιέχει τις συχνότητες των 5460 k-gram προτύπων. Η απόδοση της μεθόδου αυτής ήταν πάρα πολύ κακή (κανένας ταξινομητής δεν κατάφερε να δώσει προσαρμοσμένη ακρίβεια πάνω από 0.75). Για τον λόγο αυτό, προστέθηκε ένα βήμα επιλογής χαρακτηριστικών με σκοπό την απομάκρυνση των λιγότερο σχετικών στοιχείων και την αύξηση της απόδοσης. Η μέθοδος που χρησιμοποιήθηκε για την επιλογή χαρακτηριστικών είναι η correlation based (Hall, 1999) και τελικά επιλέχθηκαν121 χαρακτηριστικά. Στο παρακάτω γράφημα παρουσιάζονται τα αποτελέσματα όλων των μεθόδων με όλους τους ταξινομητές σε σχέση με την προσαρμοσμένη ακρίβεια. Τα συγκεκριμένα αποτελέσματα αφορούν το γενικό πρόβλημα positives/ all negatives. Όπως γίνεται φανερό η μέθοδος PolyA-iEP είναι εμφανώς καλύτερη από οποιαδήποτε άλλη μέθοδο, με το νευρωνικό δίκτυο με ένα κρυφό επίπεδο να έχει την μεγαλύτερη απόδοση φτάνοντας την προσαρμοσμένη ακρίβεια στο

97 Adjusted Accuracy Our approach Only emerging pattern scoring Only distance-based scoring Frequency of k-grams + CFS 0.70 NN-1 SMO-2 LMT NN-0 knn SMO-1 C4.5 Εικόνα 6.5: Απόδοση των ταξινομητών για positives/all negatives Ο παρακάτω πίνακας παρουσιάζει την ευαισθησία (sensitivity), την ιδιαιτερότητα (specificity) και την προσαρμοσμένη ακρίβεια (adjusted accuracy) της μεθόδου για κάθε έναν από τους ταξινομητές που χρησιμοποιήθηκαν. Μια άλλη μέθοδος που μπορεί να χρησιμοποιηθεί ώστε να συγκριθεί το PolyA-iEP είναι η χρησιμοποίηση του ταξινομητή χι αναδυόμενων προτύπων. Αυτή η προσέγγιση είναι διαφορετική γιατί οι βαθμολογίες που προκύπτουν από την εξόρυξη των αναδυόμενων προτύπων δεν χρησιμοποιούνται για την τροφοδότηση ενός ταξινομητή αλλά για την ταξινόμηση των στιγμιότυπων όπως έχει παρουσιαστεί σε προηγούμενες υποπαραγράφους. Παρόλα αυτά τη απόδοση του συγκεκριμένου ταξινομητή δεν ξεπερνάει το 0.80 και επομένως σε κάθε περίπτωση είναι χειρότερη από το PolyA-iEP. Classifier Sensitivity Specificity Adjusted Accuracy NN SMO LMT NN k-nn SMO C Πίνακας 6.5: Λεπτομερής απόδοση ταξινομητών για positives/all negatives -87-

98 -88-

99 7 Συμπεράσματα Η γένεση του πεδίου της βιοπληροφορικής μπορεί να αναζητηθεί στο 1968 και στην επιστημονική εργασία της Margaret Dayhoff η οποία συνέλλεξε πρωτεϊνικές ακολουθίες γνωστές ως Άτλας της ακολουθίας και της δομής των πρωτεϊνών. Ένα από τα πρώτα πειράματα στο χώρο στης βιοπληροφορικής ήταν η εφαρμογή ενός προγράμματος σύγκρισης ομοιότητας ακολουθιών σε ακολουθίες ιών. Στην προκειμένη εργασία οι επιστήμονες χρησιμοποίησαν ένα από τα πρώτα προγράμματα εύρεσης ομοιότητας α- κολουθιών (FASTP) και κατέληξαν στο συμπέρασμα ότι η v-sis μια ιική ακολουθία που προκαλεί καρκίνο ήταν σχεδόν όμοια με το γονίδιο PDGF το οποίο ρυθμίζει την ανάπτυξη και διαίρεση του κυττάρου. Το συμπέρασμα αυτό έδωσε μια ιδέα για το πώς α- κολουθίες ιών προκαλούν καρκίνο. Αν και τα επόμενα χρόνια υπήρχε επιστημονικό ενδιαφέρον για την βιοπληροφορική, η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος έφερε την επανάσταση στο πεδίο αυτό. Η βιοπληροφορική εξαρτάται άμεσα από την αποκρυπτογράφηση γονιδιωμάτων. Όπως στα τέλη του 1600 η ανακάλυψη του μικροσκοπίου έφερε την επανάσταση στην βιολογία και πιο συγκεκριμένα στην μοριακή βιολογία, έτσι και η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος έδωσε την ώθηση στην βιοπληροφορική και σήμερα είναι ένας από τους πιο ενεργούς επιστημονικούς κλάδους. Εικόνα 7.1: Αποκρυπτογράφηση και υπολογιστές -89-

100 Σήμερα η Βιοπληροφορική ασχολείται κυρίως με την γενωμική και την πρωτεωμική. Οι εφαρμογές και τα αποτελέσματα ήταν πολύ σημαντικά αν αναλογιστούμε τον ουσιαστικό χρόνο ύπαρξης του πεδίου αυτού. Κάποια από τα επιτεύγματα είναι η ανάπτυξη της μεθόδου της γονιδιακής θεραπείας, η εύρεση φαρμάκων που λειτουργούν πάνω στα αίτια της ασθένειας και απομόνωση χαρακτηριστικών από μικροοργανισμούς προς όφελος της γεωργίας και της προστασίας του περιβάλλοντος. Για παράδειγμα, η παράγωγή φυτών με εγγενή ανθεκτικότητα σε έντομα. Στον χώρο της γενωμικής ανήκει και η παρούσα διπλωματική. Σκοπός της είναι η εύρεση του σημείου πολυαδενυλίωσης σε βιολογικές αλληλουχίες. Για την πλήρη κατανόηση του προβλήματος και την άντληση χρήσιμων πληροφοριών το φαινόμενο της πολυαδενυλίωσης μελετήθηκε εκτενώς από βιολογικής πλευράς. Πολυαδενυλίωση είναι μια μετα-μεταγραφική διαδικασία που έχει σαν στόχο την προστασία του mrna από αποικοδόμηση ώστε αυτό να φτάσει άθικτο στην περιοχή της πρωτεϊνοσύνθεσης, μεταφέροντας έτσι αυτούσια την πληροφορία του DNA. Μετά την ολοκλήρωση της μεταγραφής του DNA ειδικά ένζυμα βρίσκουν το σημείο αποκοπής στο mrna και δημιουργούν μια τομή, χωρίζοντας το σε δύο μέρη. Στη συνέχεια προσθέτουν μια σειρά από 200 κατάλοιπα Αδενίνης (Α) στο πρώτο μέρος του mrna το οποίο μεταφέρει την χρήσιμη πληροφορία του DNA. Το φαινόμενο αυτό ονομάζεται πολυαδενυλίωση και προστατεύει για όσο χρόνο χρειάζεται, το mrna. Έπειτα μελετήθηκαν οι μέχρι τώρα προσεγγίσεις του θέματος από τους επιστήμονες τις βιοπληροφορικής. Κάποιες από αυτές αναφέρονται στο κεφάλαιο 5 Πολυαδενυλίωση. Η εφαρμογή που αναπτύχθηκε στα πλαίσια της παρούσας διπλωματικής ονομάζεται PolyA-iEP και αναπτύχθηκε σε γλώσσα JAVA. Για την διεξαγωγή κάποιων πειραμάτων χρησιμοποιήθηκε η βιβλιοθήκη μηχανικής μάθησης WEKA. Η μέθοδος μηχανικής μάθησης που χρησιμοποιήθηκε ήταν η εξόρυξη ενδιαφέροντων αναδυόμενων προτύπων (Interesting Emerging Pattern Mining). Η εφαρμογή περιελάμβανε μια σειρά από επιμέρους συστήματα τα οποία σε συνδυασμό δίνουν την τελική απόφαση του ταξινομητή για το αν μια ακολουθία περιέχει ή όχι σημείο πολυαδενυλίωσης. Μετά την ολοκλήρωση της ανάπτυξης του προγράμματος έγιναν μια σειρά από πειράματα με σκοπό την αξιολόγηση των επιμέρους τμημάτων και της γενικής απόδοσης του συνολικού συστήματος. Τα πειράματα για τα επιμέρους τμήματα της εφαρμο- -90-

101 γής έγιναν με σκοπό την αξιολόγηση της συμβολής του κάθε μέρους στην τελική απόδοση του συστήματος. Τα παραπάνω έχουν παρουσιαστεί λεπτομερώς στο κεφάλαιο 6 Υλοποίηση. Οι επεκτάσεις που θα μπορούσαν να γίνουν για την παρούσα διπλωματική είναι πολλές. Καταρχάς το σύστημά μας θα μπορούσε να θεωρηθεί σαν ένα αρχικό μέρος ενός συστήματος που βρίσκει με ακρίβεια το σημείο πολυαδενυλίωσης. Το αρχικό τμήμα θα αποφάσιζε για το αν η ακολουθία έχει ή όχι σημείο πολυαδενυλίωσης και έπειτα το υπόλοιπο σύστημα θα το προέβλεπε με ακρίβεια. Η διαδικασία αυτή θα μπορούσε να μειώσει κατά πολύ τα False Positives καθώς το σύστημα δεν θα έψαχνε καθόλου σε ακολουθίες που δεν έχουν σημείο πολυαδενυλίωσης. Μια άλλη επέκταση θα μπορούσε να γίνει είναι ο συνδυασμός των διαφορετικών τμημάτων του προγράμματος με κάποια μέθοδο όπως staking. Όπως περιγράφηκε στα προηγούμενα κεφάλαια τα τμήματα του προγράμματος μπορούν να δώσουν και αυτά αποφάσεις για την ύπαρξη ή όχι σημείου πολυαδενυλίωσης. Πιστεύουμε ότι η εφαρμογή του staking θα βελτίωνε κατά πολύ την τελική απόδοση του συστήματος. Μια παρόμοια εργασία που συνδυάζει τρία τμήματα με την μέθοδο του stacking έχει γίνει για την πρόβλεψη του σημείου TIS (Tzanis et al., 2007). Τέλος με αφορμή την εργασία των Tzanis και Berberidis 2007 που αναφέρεται στην εύρεση των αμοιβαίως αποκλειόμενων αντικειμένων θα μπορούσε να γίνει μια επέκταση. Πιο συγκεκριμένα εκτός από τα αναδυόμενα πρότυπα μπορούμε να ελέγξουμε κάποιες πιο εξειδικευμένες σχέσεις όπως είναι ο αμοιβαίος αποκλεισμός μεταξύ των προτύπων της θετικής και αρνητικής κλάσης. Η πρόβλεψη για το μέλλον της βιοπληροφορικής είναι δύσκολη. Το μόνο σίγουρο είναι ότι θα πρωτοστατήσει στις μεγάλες ανακαλύψεις στον χώρο της βιολογίας και της Βιοϊατρικής. Πολλοί επιστήμονες στις μέρες μας συμφωνούν ότι το μέλλον της βιοπληροφορικής βρίσκεται στην Βιολογία Συστημάτων (Systems Biology) μια προσέγγιση που πιστεύεται ότι θα δώσει απαντήσεις σε θεμελιώδη ερωτήματα της επιστήμης της βιολογίας [Fox J, 2007]. Η βιολογία συστημάτων είναι η ενοποίηση της γενωμικής, της πρωτεωμικής και άλλων πληροφοριών που προκύπτουν από την βιοπληροφορική για να δώσουν την εικόνα μιας βιολογικής οντότητας. -91-

102 Εικόνα 7.2: Πλήρης κατανόηση ενός οργανισμού μέσω της κατανόησης των επιστημονικών πεδίων που το περιβάλλουν. Για παράδειγμα, το πως λειτουργεί ο τρόπος ανάδρασης ενός κυττάρου (Cell Signaling). Η παραδοσιακή βιολογία μελετά συγκεκριμένα σημεία του δικτύου ώστε να δώσει απάντηση στο πρόβλημα αυτό. Η βιολογία συστημάτων προσπαθεί να δώσει α- παντήσεις εξετάζοντας τα γονίδια που αναμιγνύονται στην συγκεκριμένη διεργασία. Το πεδίο της βιοπληροφορικής είναι ταχύτατα αναπτυσσόμενο και εξαιρετικά ενδιαφέρον γιατί επιχειρεί να εξερευνήσει έναν κόσμο τελείως άγνωστο. Όπως προαναφέρθηκε η βιοπληροφορική ενδέχεται να δώσει κάποιες από τις μεγαλύτερες ανακαλύψεις στον χώρο της βιολογίας και της Βιοϊατρικής. Παρόλο που η τεχνολογία είναι το απαραίτητο στοιχείο για την βιοπληροφορική, η βιολογία είναι εκείνο που την κατευθύνει. Στα επόμενα χρόνια η βιοπληροφορική ενδέχεται να ξεπεράσει το επίπεδο της γενωμικής και πρωτεωμικής και να ασχοληθεί με άλλα πολυπλοκότερα προβλήματα. Το κλειδί για την συνέχιση της επιστήμης αυτής θα είναι να κατορθώσουν οι επιστήμονες να μοντελοποιήσουν βιολογικές παρατηρήσεις, όπως η έκφραση των γονιδίων, σε μορφή κατανοητή από τους υπολογιστές. Το πρόβλημα της ψηφιοποίησης των δεδομένων του φαινότυπου είναι εκείνο που θέτει τους νέους στόχους της βιοπληροφορικής. -92-

Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες

Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες Διπλωματική Εργασία του Ιωάννη Καβακιώτη (ΑΕΜ:

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών κεφάλαιο 1 Βασικές Έννοιες Επιστήμη 9 1Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ Στόχοι Στόχος του κεφαλαίου είναι οι μαθητές: να γνωρίσουν βασικές έννοιες και τομείς της Επιστήμης. Λέξεις κλειδιά Επιστήμη

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Εκτίμηση αξίας ακινήτων με χρήση Συλλογιστικής Βασισμένης σε Περιπτώσεις (Case Based

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

Βάσεις Δεδομένων Ενότητα 1

Βάσεις Δεδομένων Ενότητα 1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 1: Εισαγωγή στις Ιωάννης Μανωλόπουλος, Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη.

Διαβάστε περισσότερα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Φραγκίσκος Κολίσης Καθηγητής Βιοτεχνολογίας, Σχολή Χημικών Μηχανικών ΕΜΠ, Διευθυντής Ινστιτούτου Βιολογικών Ερευνών και Βιοτεχνολογίας, EIE

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Βασίλειος Κοντογιάννης ΠΕ19

Βασίλειος Κοντογιάννης ΠΕ19 Ενότητα2 Προγραμματιστικά Περιβάλλοντα Δημιουργία Εφαρμογών 5.1 Πρόβλημα και Υπολογιστής Τι ονομάζουμε πρόβλημα; Πρόβλημα θεωρείται κάθε ζήτημα που τίθεται προς επίλυση, κάθε κατάσταση που μας απασχολεί

Διαβάστε περισσότερα

Περί της Ταξινόμησης των Ειδών

Περί της Ταξινόμησης των Ειδών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Tel.: +30 2310998051, Ιστοσελίδα: http://users.auth.gr/theodoru Περί της Ταξινόμησης

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων Πληροφοριακά Συστήματα Διοίκησης Διοικητική Επιστήμη και Λήψη Αποφάσεων Η πολυπλοκότητα των αποφάσεων Αυξανόμενη πολυπλοκότητα λόγω: Ταχύτητας αλλαγών στο εξωτερικό περιβάλλον της επιχείρησης. Έντασης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1 Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1 Μια σύνοψη του Βιβλίου (ΟΠΙΣΘΟΦΥΛΛΟ): Η πλειοψηφία θεωρεί πως η Νόηση είναι μια διεργασία που συμβαίνει στον ανθρώπινο εγκέφαλο.

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ

ΚΕΦΑΛΑΙΟ 3 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΚΕΦΑΛΑΙΟ 3 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ Τα δεδομένα (data) είναι η αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της. Η συλλογή των ακατέργαστων δεδομένων και ο συσχετισμός

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΚΕΦΑΛΑΙΑ 3 και 9 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΕΣ Δεδομένα αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της δηλαδή.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας Βιοπληροφορική Ι Παντελής Μπάγκος Παν/µιο Στερεάς Ελλάδας Λαµία 2006 1 Βιοπληροφορική Ι Εισαγωγή: Ορισµός της Βιοπληροφορικής, Υποδιαιρέσεις της Βιοπληροφορικής, Τα είδη των δεδοµένων στη Βιοπληροφορική.

Διαβάστε περισσότερα

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρο-μεσαίες Επιχειρήσεις»

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρο-μεσαίες Επιχειρήσεις» ΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ, ΒΑΣΙΚΟΣ ΠΑΡΑΓΟΝΤΑΣ ΓΙΑ ΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΚΟΙΝΩΝΙΚΗ ΑΝΑΠΤΥΞΗ ΤΟΥ ΑΙΓΑΙΟΠΕΛΑΓΙΤΙΚΟΥ ΧΩΡΟΥ Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρο-μεσαίες

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Μεταπτυχιακό Δίπλωμα Ειδίκευσης Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Δρ. Κακαρόντζας Γεώργιος Επίκουρος Καθηγητής Τμ. Μηχανικών Πληροφορικής Τ.Ε. Μηχανική Λογισμικού για Διαδικτυακές

Διαβάστε περισσότερα

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή Το λογισμικό της εννοιολογικής χαρτογράυησης Inspiration Η τεχνική της εννοιολογικής χαρτογράφησης αναπτύχθηκε από τον καθηγητή Joseph D. Novak, στο πανεπιστήμιο του Cornell. Βασίστηκε στις θεωρίες του

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Η ΜΕΤΡΙΚΗ ΔΕΛΤΑ ΩΣ ΚΡΙΤΗΡΙΟ ΔΙΑΧΩΡΙΣΜΟΥ

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 η ΕΝΟΤΗΤΑ: ΤΟ ΓΡΑΦΕΙΟ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 η ΕΝΟΤΗΤΑ: ΤΟ ΓΡΑΦΕΙΟ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 η ΕΝΟΤΗΤΑ: ΤΟ ΓΡΑΦΕΙΟ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Η Γέννηση του Σύγχρονου Γραφείου: Στις αρχές του 19 ου αιώνα οι επιχειρήσεις ήταν κύρια

Διαβάστε περισσότερα

Οικονόμου Παναγιώτης.

Οικονόμου Παναγιώτης. Οικονόμου Παναγιώτης panawths@gmail.com poikonomou@teilam.gr Οικονόμου Παναγιώτης 1 Παπαγεωργίου. 2 Αθήνα-Ελλάδα χρόνου 460 π.χ.? Ένας νεαρός άνδρας σκεπτόμενος το ενδεχόμενο γάμου, ζητά από τον Σωκράτη

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Διδακτικές Τεχνικές (Στρατηγικές)

Διδακτικές Τεχνικές (Στρατηγικές) Διδακτικές Τεχνικές (Στρατηγικές) Ενδεικτικές τεχνικές διδασκαλίας: 1. Εισήγηση ή διάλεξη ή Μονολογική Παρουσίαση 2. Συζήτηση ή διάλογος 3. Ερωταποκρίσεις 4. Χιονοστιβάδα 5. Καταιγισμός Ιδεών 6. Επίδειξη

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες ΗΓεωπληροφορικήστα Τµήµατα Πληροφορικής Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής Πανεπιστήµιο Πειραιά Περιεχόµενα... Τι προσφέρουν τα Τµήµατα Πληροφορικής το Τµήµα Πληροφορικής του Παν/µίου Πειραιά... το

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης Κεφάλαιο 7 1. Σε τι διαφέρει ο Η/Υ από τις υπόλοιπες ηλεκτρικές και ηλεκτρονικές συσκευές; Που οφείλεται η δυνατότητά του να κάνει τόσο διαφορετικές

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο Θέματα Σκοπός της διπλωματικής

Διαβάστε περισσότερα

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας 215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας Το Τμήμα ασχολείται με τη διδασκαλία και την έρευνα στην επιστήμη και τεχνολογία των υπολογιστών και τη μελέτη των εφαρμογών τους. Το Τμήμα ιδρύθηκε το 1980 (ως

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Κεφάλαιο 4: Λογισμικό Συστήματος

Κεφάλαιο 4: Λογισμικό Συστήματος Κεφάλαιο 4: Λογισμικό Συστήματος Ερωτήσεις 1. Να αναφέρετε συνοπτικά τις κατηγορίες στις οποίες διακρίνεται το λογισμικό συστήματος. Σε ποια ευρύτερη κατηγορία εντάσσεται αυτό; Το λογισμικό συστήματος

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Συστήματα Πληροφοριών Διοίκησης

Συστήματα Πληροφοριών Διοίκησης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Συστήματα Πληροφοριών Διοίκησης Ενότητα 2: Γενική θεώρηση και κατάταξη συστημάτων πληροφοριών διοίκησης Διονύσιος Γιαννακόπουλος, Καθηγητής Τμήμα

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων Κεφάλαιο 11 Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων 11.1 Λήψη αποφάσεων και πληροφοριακά συστήματα Η επιχειρηματική αξία της βελτιωμένης λήψης αποφάσεων Είναι εφικτό να αποτιμηθεί σε κάποιον

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια) Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018 Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια) ΠΕΡΙΟΧΗ Α: ΕΦΑΡΜΟΓΕΣ ΜΕ ΑΙΣΘΗΤΗΡΕΣ ΓΙΑ ΕΠΙΓΝΩΣΗ ΣΥΓΚΕΙΜΕΝΟΥ Οι αισθητήρες μας δίνουν τη δυνατότητα

Διαβάστε περισσότερα

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Διάλεξη 2: Βασικές Έννοιες Τεχνολογίας Λογισμικού Ο Ρόλος του Τεχνολόγου Λογισμικού Επιστήμη Υπολογιστών Πελάτης 2 Θεωρίες Λειτουργίες Υπολογιστή Πρόβλημα Σχεδιασμός

Διαβάστε περισσότερα

Ημερομηνία Παράδοσης: 4/1/2013

Ημερομηνία Παράδοσης: 4/1/2013 Δράση 9.14 / Υπηρεσία εντοπισμού λογοκλοπής Κυρίως Παραδοτέο / Εκπαίδευση προσωπικού βιβλιοθηκών μελών Σ.Ε.Α.Β στο πληροφοριακό σύστημα εντοπισμού λογοκλοπής. Επιμέρους Παραδοτέο 9.14.3.2 / Πρότυπα εκπαίδευσης

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Τι είναι το FoundationOne ; Το FoundationOne είναι μια εξέταση που ανιχνεύει γενωμικές μεταβολές (π.χ. μεταλλάξεις) που είναι γνωστό ότι σχετίζονται με

Διαβάστε περισσότερα

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Διάλεξη 8: Σχεδίαση Συστήματος Σχεδίαση Συστήματος 2 Διεργασία μετατροπής του προβλήματος σε λύση. Από το Τί στο Πώς. Σχέδιο: Λεπτομερής περιγραφή της λύσης. Λύση:

Διαβάστε περισσότερα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΕΝΟΤΗΤΑ 1 : ΕΙΣΑΓΩΓΗ Διάλεξη 1: Γενικά για το ΓΣΠ, Ιστορική αναδρομή, Διαχρονική εξέλιξη Διάλεξη 2 : Ανάλυση χώρου (8/4/2013) Διάλεξη 3: Βασικές έννοιες των Γ.Σ.Π.. (8/4/2013)

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00) ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00) Πέτρος Ρούσσος ΔΙΑΛΕΞΗ 5 Έννοιες και Κλασική Θεωρία Εννοιών Έννοιες : Θεμελιώδη στοιχεία από τα οποία αποτελείται το γνωστικό σύστημα Κλασική θεωρία [ή θεωρία καθοριστικών

Διαβάστε περισσότερα

Εμβιομηχανική Βιοϊατρική Τεχνολογία. 6 o Κεφάλαιο Συστημικη Βιολογια (Systems Biology) Σχολή Μηχανολόγων Μηχανικών ΕΜΠ Αλεξόπουλος Λεωνίδας

Εμβιομηχανική Βιοϊατρική Τεχνολογία. 6 o Κεφάλαιο Συστημικη Βιολογια (Systems Biology) Σχολή Μηχανολόγων Μηχανικών ΕΜΠ Αλεξόπουλος Λεωνίδας Εμβιομηχανική Βιοϊατρική Τεχνολογία 6 o Κεφάλαιο Συστημικη Βιολογια (Systems Biology) Σχολή Μηχανολόγων Μηχανικών ΕΜΠ Αλεξόπουλος Λεωνίδας Άδεια Χρήσης Το παρόν υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Πρόκειται για την έρευνα που διεξάγουν οι επιστήμονες. Είναι μια πολύπλοκη δραστηριότητα που απαιτεί ειδικό ακριβό

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Μέθοδος : έρευνα και πειραματισμός

Μέθοδος : έρευνα και πειραματισμός 1 Ο ΓΥΜΝΑΣΙΟ ΠΕΥΚΩΝ Γ ΓΥΜΝΑΣΙΟΥ ΜΑΘΗΜΑ : ΤΕΧΝΟΛΟΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΣ : Τρασανίδης Γεώργιος, διπλ. Ηλεκ/γος Μηχανικός Μsc ΠΕ12 05 Μέθοδος : έρευνα και πειραματισμός Στόχος της Τεχνολογίας στην Γ Γυμνασίου

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. 4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. Η μετατροπή μιας εντολής επανάληψης σε μία άλλη ή στις άλλες δύο εντολές επανάληψης, αποτελεί ένα θέμα που αρκετές φορές έχει εξεταστεί σε πανελλαδικό

Διαβάστε περισσότερα

Σχεδίαση και Ανάπτυξη Ιστότοπων

Σχεδίαση και Ανάπτυξη Ιστότοπων Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου

Διαβάστε περισσότερα