Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες Διπλωματική Εργασία του Ιωάννη Καβακιώτη (ΑΕΜ: 738) Επιβλέπων Καθηγητής: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΘΕΣΣΑΛΟΝΙΚΗ ΙΟΥΛΙΟΣ 2007

2

3 Πρόλογος Η παρούσα διπλωματική εργασία πραγματεύεται θέματα από το επιστημονικό πεδίο της Βιοπληροφορικής. Πιο συγκεκριμένα, το αντικείμενο της εργασίας αυτής είναι η εύρεση του σημείου Πολυαδενυλίωσης (PAS PolyAdenylation Site) σε βιολογικές αλληλουχίες. Η ενασχόληση με την πολυαδενυλίωση είναι ένα θέμα που απασχολεί την επιστημονική κοινότητα καθώς ο προσδιορισμός του μηχανισμού της θα δώσει μια βαθύτερη γνώση για τον μηχανισμό της μεταγραφής και μετάφρασης των γονιδίων, γνώση εξαιρετικά πολύτιμη για τομείς όπως η Βιοϊατρική και γενικότερα για τα επιστημονικά πεδία που ασχολούνται με την Βιοτεχνολογία. Η μελέτη εκπονήθηκε κατά το ακαδημαϊκό έτος στο εργαστήριο Γλωσσών Προγραμματισμού και Τεχνολογίας Λογισμικού (Programming Languages and Software Engineering Laboratory - PLaSE Laboratory) του τμήματος πληροφορικής του Α.Π.Θ., σε συνεργασία με την ομάδα Μηχανικής Μάθησης και Ανακάλυψης Γνώσης (Machine Learning and Knowledge Discovery Group MLKD Group). Η εκπόνηση της εργασίας έγινε υπό την επίβλεψη του καθηγητή κ. Ιωάννη Βλαχάβα, στον οποίο εκφράζω την ευγνωμοσύνη μου για την εμπιστοσύνη που μου έδειξε τόσο κατά την ανάθεση, όσο και κατά την ολοκλήρωση της παρούσας διπλωματικής. Ιδιαίτερες ευχαριστίες εκφράζω προς τον υποψήφιο διδάκτορα Γιώργο Τζανή για την βοήθειά του και τις ουσιαστικές του υποδείξεις από την αρχή μέχρι την ολοκλήρωση της συνεργασίας μας. Τέλος θα ήθελα να ευχαριστήσω τους ανθρώπους που ήταν κοντά μου και με στήριξαν καθ όλη την διάρκεια εκπόνησης της διπλωματικής εργασίας. Ιωάννης Καβακιώτης Ιούλιος i-

4 -ii-

5 Περιεχόμενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Επαγωγή Κατηγορίες Μεθόδων Μηχανικής Μάθησης ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Η Διαδικασία Ανακάλυψης Γνώσης Προβλήματα στην Ανακάλυψη Γνώσης Είδη Δεδομένων Κατανεμημένη και Απανταχού Εξόρυξη από Δεδομένα Εφαρμογές Ανακάλυψης Γνώσης ΜΟΡΙΑΚΗ ΒΙΟΛΟΓΙΑ ΤΟ ΚΥΤΤΑΡΟ Κυτταρική Θεωρία Η Δομή του Κυττάρου Η ΖΩΗ ΣΤΟ ΜΟΡΙΑΚΟ ΕΠΙΠΕΔΟ Πρωτεΐνες DNA RNA ΓΟΝΙΔΙΑ ΚΑΙ ΓΟΝΙΔΙΩΜΑ ΤΟ ΚΕΝΤΡΙΚΟ ΔΟΓΜΑ ΤΗΣ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Αντιγραφή του DNA Μεταγραφή Μετάφραση ΜΕΤΑΛΛΑΞΕΙΣ iii-

6 3.6 Η ΑΠΟΚΡΥΠΤΟΓΡΑΦΗΣΗ ΤΟΥ ΑΝΘΡΩΠΙΝΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ ΠΡΟΚΛΗΣΕΙΣ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΟΡΙΣΜΟΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΟΧΟΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΕΥΝΗΤΙΚΕΣ ΠΕΡΙΟΧΕΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ Ανάλυση Αλληλουχιών Συγκριτική Γενωμική Μέτρηση Επιπέδων Γονιδιακής Έκφρασης Πρωτεωμική Υπολογιστική Εξελικτική Βιολογία ΒΙΟΛΟΓΙΚΕΣ ΤΡΑΠΕΖΕΣ ΔΕΔΟΜΕΝΩΝ ΕΡΓΑΛΕΙΑ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ Κατηγορίες Εργαλείων Βιοπληροφορικής Κατάλογος Δημοφιλέστερων Εργαλείων Προοπτικές και Εξέλιξη Εργαλείων Βιοπληροφορικής ΕΦΑΡΜΟΓΕΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΣΥΝΟΨΗ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΜΕΤΑΓΡΑΦΗ Διαφορές μεταξύ Προκαρυωτικών και Ευκαρυωτικών Κυττάρων κατά την Μεταγραφή Η Μεταγραφή στα Ευκαρυωτικά ΑΠΟΚΟΠΗ ΚΑΙ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΕΝΑΛΛΑΚΤΙΚΗ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΕΡΓΑΣΙΕΣ ΣΧΕΤΙΚΕΣ ΜΕ ΤΗΝ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΚΑΙ ΤΗΝ ΕΝΑΛΛΑΚΤΙΚΗ ΠΟΛΥΑΔΕΝΥΛΙΩΣΗ ΥΛΟΠΟΙΗΣΗ ΜΑΡΚΟΒΙΑΝΕΣ ΑΛΥΣΙΔΕΣ ΔΕΔΟΜΕΝΑ ΠΕΡΙΓΡΑΦΗ ΥΛΟΠΟΙΗΣΗΣ ΛΕΠΤΟΜΕΡΕΙΕΣ ΥΛΟΠΟΙΗΣΗΣ- ΕΠΕΞΗΓΗΣΗ ΚΩΔΙΚΑ iv-

7 6.5 ΑΠΟΤΕΛΕΣΜΑΤΑ- ΠΕΙΡΑΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ...85 ΒΙΒΛΙΟΓΡΑΦΙΑ...89 ΠΑΡΑΡΤΗΜΑ - ΚΩΔΙΚΑΣ v-

8 -vi-

9 1 Εισαγωγή Η ανάπτυξη της βιολογίας το δεύτερο μισό του 20 ου αιώνα ήταν αλματώδης και έδωσε σπουδαία επιτεύγματα στον χώρο. Πιο συγκεκριμένα, η ανακάλυψη της διπλής έλικας του DNA το 1953 από τους James Watson και Francis Crick και η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος πάνω στην αλλαγή του 20 ου αιώνα, όχι μόνο έδωσαν τρομερή ώθηση στην μοριακή βιολογία αλλά και άνοιξαν νέους ορίζοντες επιστημονικής έρευνας σε άλλες επιστήμες με χαρακτηριστικό παράδειγμα την Βιοπληροφορική. Πιο ειδικά, τα δύο αυτά επιτεύγματα οδήγησαν σε μεγάλη συσσώρευση βιολογικών δεδομένων, όπου η χρήση των υπολογιστών κρίθηκε απαραίτητη για την αποτελεσματική και αποδοτική διαχείριση τους. Αυτή είναι μια πρώτη ιδέα του όρου Βιοπληροφορική (Bioinformatics). Μια επιστημονική περιοχή, κράμα της επιστήμης της βιολογίας και των υπολογιστών. Η παρούσα διπλωματική εργασία ανήκει στον χώρο της Βιοπληροφορικής. Το αντικείμενο της εργασίας είναι η εύρεση του σημείου Πολυαδενυλίωσης (PAS PolyAdenylation Site) σε βιολογικές ακολουθίες. Πολυαδενυλίωση είναι μια διεργασία που λαμβάνει χώρα αμέσως μετα την μεταγραφή του DNA σε RNA. Κύριος στόχος της πολυαδενυλίωσης είναι να προστατέψει το RNA και κατ επέκταση την κωδικοποιημένη πληροφορία του DNA που μεταφέρεται μέσω αυτού, ώστε να φτάσει άθικτο στην περιοχή της πρωτεϊνοσύνθεσης. Η ανακάλυψη του σημείου πολυαδενυλίωσης καθώς και η ανακάλυψη άλλων σημείων μέσα στις βιολογικές ακολουθίες είναι καθοριστικής σημασίας για την επιστημονική κοινότητα και κυρίως για την βιοτεχνολογία. Τα τελευταία χρόνια κλάδοι όπως η βιοϊατρική έχουν να επιδείξουν σπουδαία επιτεύγματα, που στηρίζονται κατά βάση στην ανάπτυξη μεθόδων Βιοπληροφορικής. Το αντικείμενο της εργασίας είναι η ανάπτυξη ενός προγράμματος για την πρόβλεψη του σημείου πολυαδενυλίωσης. Το πρόγραμμα αναπτύχθηκε στην γλώσσα προγραμματισμού Java και η μέθοδος μηχανικής μάθησης που χρησιμοποιήθηκε ήταν οι αλυσίδες Μαρκόφ. -1-

10 Δομή του Κειμένου Το παρόν κείμενο είναι χωρισμένο σε επτά κεφάλαια. Το πρώτο από αυτά είναι η Εισαγωγή. Το δεύτερο κεφάλαιο με τίτλο Μηχανική Μάθηση και Ανακάλυψη Γνώσης, παρέχει το βασικό θεωρητικό υπόβαθρο της επιστημονικής περιοχής, από πλευράς πληροφορικής, στην οποία κινείται η εργασία. Το κεφάλαιο ξεκινάει με την μηχανική μάθηση. Θίγονται θέματα όπως από πού προέρχεται, που στηρίζεται και τέλος γίνεται μία κατηγοριοποίηση των μεθόδων της μηχανικής μάθησης. Το δεύτερο μέρος του κεφαλαίου ασχολείται με την ανακάλυψη γνώσης σε βάσεις δεδομένων. Ποια είναι η διαδικασία της ανακάλυψης γνώσης, ποια τα προβλήματα που αντιμετωπίζει ως επιστημονική περιοχή και τέλος περιγράφονται κάποια σύγχρονα θέματα πάνω στην ανακάλυψη γνώσης όπως η εξόρυξη σε κινητές συσκευές. Το τρίτο κεφάλαιο με τίτλο Μοριακή Βιολογία, παρέχει το βασικό υπόβαθρο της επιστημονικής περιοχής, από πλευράς βιολογίας. Στο κεφάλαιο αυτό περιγράφονται τόσο οι βασικές έννοιες όπως κύτταρο, πυρήνας, DNA και RNA, όσο και πιο εξειδικευμένες λειτουργίες οι οποίες είναι το θεωρητικό υπόβαθρο του προβλήματος που θα απασχολήσει την παρούσα διπλωματική εργασία. Το τέταρτο κεφάλαιο με τίτλο Βιοπληροφορική, παρουσιάζει την επιστημονική περιοχή της Βιοπληροφορικής. Παρουσιάζονται θέματα όπως οι στόχοι της, εργαλεία που χρησιμοποιούνται καθώς και εφαρμογές της. Το πέμπτο κεφάλαιο με τίτλο Πολυαδενυλίωση, δίνει μια πιο εκτενή και ακριβή περιγραφή της πολυαδενυλίωσης. Επίσης παρουσιάζονται και τα επιτεύγματα του τομέα της Βιοπληροφορικής στον χώρο της πολυαδενυλίωσης. Το έκτο κεφάλαιο με τίτλο Υλοποίηση είναι το κεφάλαιο στο οποίο γίνεται παρουσίαση του προγράμματος που υλοποιήθηκε. Περιγράφονται τα δεδομένα που χρησιμοποιήθηκαν, διασαφηνίζονται κάποια τμήματα κώδικα και τέλος παρουσιάζονται και αναλύονται τα αποτελέσματα και τα συμπεράσματα των πειραμάτων που διεξήχθησαν. Τέλος, το έκτο κεφάλαιο με τίτλο Συμπεράσματα, αποτελεί τον επίλογο του κειμένου και παρουσιάζει συμπεράσματα και σχόλια σχετικά με τα πεπραγμένα της εργασίας. -2-

11 2 Μηχανική Μάθηση & Ανακάλυψη Γνώσης Από αρχαιοτάτων χρόνων, οι άνθρωποι μελέτησαν τον τρόπο σκέψης, τον τρόπο μάθησης, το τι είναι γνώση, αν προϋπάρχει ή αν αποκτάται από τον άνθρωπο στα διάφορα στάδια της ζωής του. Στις μέρες μας τα ερωτήματα αυτά έχουν κατά το πλείστον απαντηθεί και πλέον η πρόκληση, μετά την ραγδαία εξέλιξη της τεχνολογίας, έχει μεταφερθεί στο να μεταχειρίζονται άψυχες μηχανές τη γνώση, με ευφυή τρόπο και να μαθαίνουν από αυτή. Κατά τους Witten & Frank (1999) Κάτι μαθαίνει όταν αλλάζει η συμπεριφορά του κατά τέτοιο τρόπο ώστε να αποδίδει καλύτερα στο μέλλον. Αυτός είναι και ο σκοπός της μηχανικής μάθησης (Machine Learning) ενός επιστημονικού πεδίου που ασχολείται με τους τρόπους που μαθαίνουν οι μηχανές. Στο κεφάλαιο που ακολουθεί θα εξετάσουμε την μηχανική μάθηση καθώς και την ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases- KDD) η οποία είναι μια ειδική περίπτωση της μηχανικής μάθησης όπου το περιβάλλον μοντελοποιείται μέσω μιας βάσης δεδομένων. 2.1 Μηχανική Μάθηση Η μηχανική μάθηση (machine learning) είναι ένας από τους παλαιότερους τομείς της τεχνητής νοημοσύνης. Για πολλούς επιστήμονες ο όρος μηχανική μάθηση ταυτίζεται με τον όρο τεχνητή νοημοσύνη, καθώς η δυνατότητα μάθησης αποτελεί το βασικότερο χαρακτηριστικό μιας οντότητας που καλείται νοήμων, με την ευρύτερη έννοια του όρου. Σκοπός της μηχανικής μάθησης είναι η κατασκευή υπολογιστικών συστημάτων που μπορούν να προσαρμοστούν και να μάθουν από την εμπειρία τους. [Wilson & Keil, 1999]. Παρακάτω δίνεται ένας ορισμός της μηχανικής μάθησης καθώς και η επεξήγηση των όρων που εμπεριέχει [Βλαχάβας κ.α.,2005] -3-

12 Μηχανική μάθηση είναι η δημιουργία μοντέλων ή προτύπων από ένα σύνολο δεδομένων από ένα υπολογιστικό σύστημα. Μοντέλο ονομάζεται η απλοποιημένη εκδοχή που δημιουργεί ο άνθρωπος προσπαθώντας να κατανοήσει το περιβάλλον του. Πρότυπα ονομάζονται νέες δομές που δημιουργεί ο άνθρωπος μέσα από τον συσχετισμό και την οργάνωση των εμπειριών του. Η μηχανική μάθηση στηρίζεται κατά κύριο λόγο στις αρχές της επαγωγής η οποία αναλύεται στην παρακάτω υποπαράγραφο Επαγωγή Η επαγωγή είναι Αριστοτελικός όρος που σημαίνει γενικά την διαδικασία διατύπωσης μιας γενικής πρότασης στηριζόμενοι σε ειδικές συνθήκες που η αλήθεια τους αποδεικνύεται. Η επαγωγή μαζί με την παραγωγή είναι οι δύο θεμελιώδεις μορφές του συλλογισμού. Διαφέρουν στο ότι στην παραγωγή κατευθυνόμαστε από το γενικό στο ειδικό και επομένως έχουμε σίγουρα συμπεράσματα, ενώ στην επαγωγή κατευθυνόμαστε από το ειδικό στο γενικό, πράγμα που εισάγει κάποιας μορφής αβεβαιότητα για το συμπέρασμα που θα εξαχθεί. Οι υποθέσεις (το ειδικό μέρος) στηρίζουν το αποτέλεσμα, αλλά δεν το κατοχυρώνουν. Παρόλα αυτά, η επαγωγή έχει μεγαλύτερη αξία από την παραγωγή κατά την επιστημονική έρευνα και πολλές φορές τείνει να αποτελεί τον σημαντικότερο παράγοντά της, καθώς είναι το σημείο το οποίο την κατευθύνει. Για παράδειγμα, η επαγωγή ανακαλύπτει πολλές φορές μη προφανή γνώση. Δεδομένο: Αυτοί οι άνθρωποι έχουν αναπνευστικά προβλήματα Δεδομένο: Αυτοί οι άνθρωποι ζουν στην Πτολεμαΐδα Υπόθεση: Όλοι στην Πτολεμαΐδα έχουν αναπνευστικά προβλήματα Το συμπέρασμα μπορεί να μην ισχύει καθολικά, άλλα αν ισχύει σε ένα μεγάλο ή ασυνήθιστο ποσοστό τότε μπορεί να προσανατολίσει μια ιατρική έρευνα στην κατεύθυνση αυτή, η οποία ενδέχεται να οδηγήσει σε ανακάλυψη. Η εγκυρότητα της επαγωγικής συλλογιστικής ήταν ανέκαθεν ένα πρόβλημα που απασχολούσε τους φιλοσόφους. Θεωρείται ότι μια επαγωγική λογική δεν θα ήταν ποτέ εφικτή καθώς ο επαγωγικός λογισμός δεν μας οδηγεί απαραίτητα σε συμπεράσματα τα οποία είναι εξίσου βέβαια όσο και οι προκείμενες προτάσεις. Για παράδειγμα, το συ- -4-

13 μπέρασμα ότι όλοι οι κύκνοι είναι λευκοί θεωρούνταν ορθό από τους βιολόγους του 17 ου αιώνα, μέχρι τον εποικισμό της Αυστραλίας όπου και η ύπαρξη των μαύρων ανέτρεψε τον ισχυρισμό. Ο πρώτος σύγχρονος φιλόσοφος που έδωσε μία σημαντική ερμηνεία της επαγωγής ήταν ο Σερ Francis Bacon τον 16 ο αιώνα, ο οποίος, μεταξύ άλλων, πρότεινε να προσδιορίζονται οι αλήθειες με μια σταδιακή άνοδο, από τον μικρότερο στο μεγαλύτερο βαθμό καθολικότητας [Bacon, 1994]. Η σημαντικότερη όμως φιλοσοφική ανάλυση του προβλήματος της επαγωγής πραγματοποιήθηκε από τον Σκώτο φιλόσοφο David Hume τον 18 ο αιώνα. Βασικό παράδειγμα στην μελέτη του ήταν ότι το ψωμί μας θρέφει και θα μας θρέφει αφού έχει συμβεί επανειλημμένα στο παρελθόν.[hume, 1988]. Κατά τον Hume η πίστη στην ύπαρξη αυτής της αναγκαιότητας δεν έχει καμία βάση και είναι απλά μια συνήθεια που έχουμε αποκτήσει παρατηρώντας το γεγονός να επαναλαμβάνεται συχνά και δεν μας δείχνει κανένα μυστικό δεσμό που καθιστά τα γεγονότα αδιαχώριστα. Επομένως υπάρχει τουλάχιστον το θεωρητικό ενδεχόμενο το ψωμί να μας δηλητηριάσει κάποτε στο μέλλον [Fearn, 2001]. Στα προβλήματα της επαγωγής αναφέρθηκε εκτενώς και ο Bertrand Russell στο βιβλίο του The problems of Philosophy [Russel 1912]. Αν και η επαγωγή χρησιμοποιείται κυρίως για πρόβλεψη μελλοντικών καταστάσεων από παρελθοντικές, στην ευρύτερή της έννοια περιλαμβάνει σχηματισμούς συμπερασμάτων σχετικά με τα μη παρατηρημένα, με βάση όσα έχουν παρατηρηθεί. Για το λόγο αυτό δεν χρησιμοποιείται ως επιστημονική μέθοδος μόνο σε θετικές επιστήμες αλλά και σε άλλες όπως η Αρχαιολογία Κατηγορίες Μεθόδων Μηχανικής Μάθησης Στην παράγραφο αυτή θα γίνει μια κατηγοριοποίηση των μεθόδων της μηχανικής μάθησης καθώς και μια συνοπτική παρουσίαση των σημαντικότερων από αυτές. Μάθηση Συνάρτησης Στην μάθηση συνάρτησης το σύστημα πρέπει να μάθει επαγωγικά μια συνάρτηση που ονομάζεται συνάρτηση στόχος (target function) και αποτελεί έκφραση του μοντέλου που περιγράφει τα δεδομένα. Η συνάρτηση στόχος χρησιμοποιείται για την πρόβλεψη της τιμής μιας μεταβλητής που ονομάζεται εξαρτημένη μεταβλητή ή μεταβλητή εξόδου, βάσει των τιμών ενός συνόλου μεταβλητών που ονομάζονται ανεξάρτητες μεταβλητές ή -5-

14 μεταβλητές εισόδου ή χαρακτηριστικά. Το σύνολο των δυνατών τιμών εισόδου της συνάρτησης, δηλαδή το πεδίο ορισμού της, ονομάζεται σύνολο περιπτώσεων ή στιγμιοτύπων και συμβολίζεται με Χ. Κάθε περίπτωση περιγράφεται από ένα σύνολο χαρακτηριστικών (attributes ή features). Ένα υποσύνολο του συνόλου των περιπτώσεων για τα οποία γνωρίζουμε την τιμή της μεταβλητής εξόδου, ονομάζεται σύνολο δεδομένων εκπαίδευσης ή παραδείγματα και συμβολίζεται με D. Το σύστημα μάθησης για να προσεγγίσει καλύτερα την συνάρτηση στόχο, δοθέντος ενός συνόλου εκπαίδευσης, εξετάζει διάφορες εναλλακτικές συναρτήσεις οι οποίες ονομάζονται υποθέσεις και συμβολίζονται με h. Το σύνολο όλων των δυνατών υποθέσεων που το σύστημα μάθησης ενδέχεται να εξετάσει, ονομάζεται σύνολο υποθέσεων και συμβολίζεται με H. Στη μάθηση συνάρτησης διακρίνονται δύο είδη προβλημάτων (learning tasks), τα προβλήματα ταξινόμησης και τα προβλήματα παλινδρόμηση. Η ταξινόμηση ή αλλιώς κατηγοριοποίηση (classification) αφορά στη δημιουργία πρόβλεψης μοντέλων διακριτών τάξεων, όπως για παράδειγμα η ομάδα αίματος, ενώ η παλινδρόμηση (regression) αφορά στη δημιουργία πρόβλεψης αριθμητικών τιμών. Οι κυριότερες τεχνικές μάθησης συνάρτησης είναι: Μάθηση εννοιών (Concept Learning) Δένδρα ταξινόμησης ή απόφασης (Classification or Decision Trees) Μάθηση κανόνων (Rule Learning) Μάθηση με βάση τις περιπτώσεις (Instance Based Learning) Μάθηση κατά Bayes Γενετικοί αλγόριθμοι (Genetic Algorithms) Νευρωνικά δίκτυα (Neural Networks) Μηχανές διανυσμάτων υποστήριξης (Support Vector Machines- SVMs) Εξόρυξη Κανόνων Συσχέτισης Η ανακάλυψη ή εξόρυξη κανόνων συσχέτισης (Association Rule Mining) εμφανίστηκε αρκετά αργότερα από την μηχανική μάθηση και έχει περισσότερες επιρροές από την ερευνητική περιοχή των βάσεων δεδομένων. Προτάθηκε στις αρχές της δεκαετίας του 1990 από τον Rakesh Agrawal ως τεχνική ανάλυσης καλαθιού αγορών (market basket analysis) όπου το ζητούμενο είναι η εύρεση συσχετίσεων μέσα στα αντικείμενα μίας βάσης δεδομένων. Με βάση το παράδειγμα του καλαθιού αγορών οι κανόνες συσχέτι- -6-

15 σης είναι της μορφής {Χ 1,...,Χ n } Y, που σημαίνει ότι αν βρεθούν όλα τα Χ 1,...,Χ n στο καλάθι τότε είναι πιθανό να βρεθεί και το Y. Ο όρος πιθανό συνοδεύεται από δύο ποσοτικά μεγέθη που μετρούν την ποιότητα και την αληθεία των ευρεθέντων κανόνων συσχέτισης. Τα μεγέθη αυτά είναι η υποστήριξη (Support) και η εμπιστοσύνη (Confidence) και ορίζονται ως εξής: Η υποστήριξη (Support) ή κάλυψη (Coverage) εκφράζει την πιθανότητα να βρεθεί ένα συγκεκριμένο καλάθι στη βάση δεδομένων Η εμπιστοσύνη (Confidence) ή ακρίβεια (accuracy) που εκφράζει την πιθανότητα να βρεθεί ένα προϊόν Υ σε ένα καλάθι που περιέχει κάποια συγκεκριμένα προϊόντα Χ 1,...,Χ n. Η επιλογή των κανόνων που έχουν πρακτική αξία από το σύνολο των κανόνων που προκύπτουν από μία βάση δεδομένων, γίνεται θέτοντας κάποιο κάτω όριο στις τιμές των μεγεθών που προαναφέρθηκαν. Ο πιο κλασσικός αλγόριθμος ανακάλυψης κανόνων συσχέτισης είναι ο Apriori που προτάθηκε το 1994 από τον Rakesh Agrawal [Agrawal R et al.1994]. Ομαδοποίηση Οι ομάδες (Clusters) είναι πρότυπα πληροφόρησης που προκύπτουν με ομαδοποίηση δηλαδή διαχωρισμό ενός συνόλου δεδομένων σε ομάδες έτσι ώστε τα σημεία που ανήκουν στην ίδια ομάδα να μοιάζουν όσο το δυνατόν περισσότερο και σημεία που ανήκουν σε διαφορετικές ομάδες να διαφέρουν όσο το δυνατόν περισσότερο. Οι αλγόριθμοι ομαδοποίησης ταξινομούνται σε τρεις γενικές κατηγορίες: Οι αλγόριθμοι βασισμένοι σε διαχωρισμούς (Partition Based), που προσπαθούν να βρουν τον καλύτερο διαχωρισμό ενός συνόλου δεομένων σε ένα συγκεκριμένο αριθμό ομάδων. Ο πιο γνωστός αλγόριθμος αυτής της κατηγορίας είναι ο αλγόριθμος των Κ-μέσων (K-means). Οι ιεραρχικοί αλγόριθμοι, που προσπαθούν με ιεραρχικό τρόπο να ανακαλύψουν τον αριθμό και την δομή των ομάδων. Σημαντικότερη εφαρμογή των ιεραρχικών αλγορίθμων είναι στην βιολογία και πιο συγκεκριμένα στην οργάνωση των ειδών της χλωρίδας και της πανίδας. Με βάση την κατεύθυνση ανάπτυξης της ιεραρχίας που ακολουθούν, οι ιεραχικοί αλγόριθμοι ομαδοποίησης χω- -7-

16 ρίζονται στους αλγορίθμους συγχώνευσης (agglomerative) και στους αλγορίθμους διαίρεσης (divisive). Οι πιθανοκρατικοί (probabilistic) αλγόριθμοι, που βασίζονται σε μοντέλα πιθανοτήτων, όπως η θεωρία του Bayes. Ενισχυτική Μάθηση Ο όρος ενισχυτική μάθηση (Reinforcement Learning) είναι ένας γενικός όρος που έχει δοθεί σε μία οικογένεια τεχνικών στις οποίες το σύστημα προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Η βασική ιδέα είναι ότι το σύστημα μάθησης αξιολογείται με βάση μια βαθμωτή ποσότητα που ονομάζεται σήμα ενίσχυσης. Σκοπός του συστήματος μάθησης είναι η μεγιστοποίηση της συνάρτησης του ενισχυτικού σήματος. Είναι σημαντικό να αναφέρουμε ότι το σύστημα δεν έχει καμία εκ των προτέρων γνώση για την συμπεριφορά του περιβάλλοντος και ο μόνος τρόπος για να την ανακαλύψει είναι μέσω της δοκιμής και αποτυχίας (trial and error). Η ενισχυτική μάθηση εφαρμόζεται κυρίως σε αυτόνομα συστήματα πράγμα που πηγάζει από την α- νεξαρτησία που δείχνει η τεχνική αυτή σε σχέση με το αρχικό περιβάλλον. 2.2 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Η ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases- KDD) είναι μια ειδική περίπτωση της μηχανικής μάθησης όπου το περιβάλλον μοντελοποιείται μέσω μίας βάσης δεδομένων. Το μέγεθος της βάσης συνήθως είναι πολύ μεγάλο για το λόγο ότι τα δεδομένα έχουν συγκεντρωθεί για διάφορους σκοπούς. Άμεση συνέπεια αυτού είναι η αρχική οργάνωση των δεδομένων σε βάσεις να μην εξυπηρετεί τη μηχανική μάθηση. Στις επόμενες παραγράφους θα εξετάσουμε αναλυτικότερα τα προβλήματα που προκύπτουν από την εφαρμογή της μηχανικής μάθησης στις βάσεις δεδομένων καθώς και τις διαδικασίες που εφαρμόζονται ώστε να λυθούν τα προβλήματα αυτά και τέλος να εξαχθεί η πολύτιμη γνώση. -8-

17 2.2.1 Η Διαδικασία Ανακάλυψης Γνώσης Πριν αρχίσει οποιαδήποτε εργασία είναι απαραίτητος ο καθορισμός του προβλήματος και η κατανόηση του τομέα στον οποίο θα εφαρμοστεί η αναζήτηση της γνώσης. Πρέπει να καθοριστούν οι στόχοι και να ληφθούν υπόψη όλοι οι διαθέσιμοι πόροι, οικονομικοί και ανθρώπινοι, καθώς και οι περιορισμοί που υπάρχουν. Η συνεργασία του ειδικού επί θεμάτων ανακάλυψης γνώσης με τον ειδικό του τομέα του προβλήματος είναι απαραίτητη προϋπόθεση για τον καθορισμό των παραπάνω λεπτομερειών και για τον έλεγχο του κατά πόσο οι στόχοι είναι εφικτοί και αξιοποιήσιμοι. Πρέπει να σημειωθεί ότι πολλές φορές κάποια από τα βήματα της ανακάλυψης γνώσης είναι αναγκαίο να ε- παναληφθούν, λόγω προβλημάτων (που δεν μπορούν να ανιχνευτούν από την αρχή) τα οποία ενδέχεται να εμφανιστούν εξαιτίας των αρχικών επιλογών. Τα επιμέρους στάδια της διαδικασίας ανακάλυψης γνώσης απεικονίζονται στην Εικόνα 2.2 και περιγράφονται παρακάτω σύμφωνα με τα [Βλαχάβας κ.α.2005, Dunham 2002]. Επιλογή Προεπεξεργασία Μετασχηματισμός Εξόρυξη Ερμηνεία - Αξιολόγηση... Δεδομένα Επιλεγμένο Υποσύνολο Προεπεξεργασμένα Δεδο- Μετασχηματισμένα Δε- Πρότυπα Γνώση Εικόνα 2.2: Τα βασικά στάδια της διαδικασίας ανακάλυψης γνώσης. Επιλογή Τα δεδομένα μπορούν να ληφθούν από διαφορετικές και ετερογενείς πηγές. Συνήθως προέρχονται από σχεσιακές βάσεις δεδομένων. Επειδή τις περισσότερες φορές δεν είναι οργανωμένα με τρόπο που να διευκολύνει τη διαδικασία ανακάλυψης γνώσης και επειδή οι περισσότεροι αλγόριθμοι δεν μπορούν να εργαστούν με πολλαπλούς πίνακες α- παιτείται η εξαγωγή των δεδομένων και η οργάνωσή τους σε απλούστερες δομές. Η παραπάνω διαδικασία μπορεί να αποφευχθεί αν τα δεδομένα βρίσκονται σε μια αποθήκη δεδομένων (data warehouse), η οποία παρέχει στους αλγόριθμους ανακάλυψης γνώσης μια ευκολότερα προσβάσιμη όψη (view) των δεδομένων. Εκτός από τα τεχνικής φύσε- -9-

18 ως προβλήματα στο στάδιο αυτό μπορούν να αντιμετωπισθούν και νομικής φύσεως προβλήματα, όπως για παράδειγμα κωλύματα που αφορούν την προστασία προσωπικών δεδομένων. Προεπεξεργασία Τα δεδομένα μπορεί να είναι ελλιπή ή λανθασμένα. Μπορεί να υπάρχουν διαφορετικοί τύποι δεδομένων και μονάδες μέτρησης για ποιοτικά ίδια πληροφορία. Υπάρχει λοιπόν, η ανάγκη της διόρθωσης ή απομάκρυνσης των λανθασμένων δεδομένων και της απόκτησης ή πρόβλεψης των δεδομένων που λείπουν. Το στάδιο αυτό, λόγω της φύσεως των εργασιών που λαμβάνουν χώρα, ονομάζεται και στάδιο καθαρισμού των δεδομένων (data cleaning). Μετασχηματισμός Τα δεδομένα μετασχηματίζονται με σκοπό να διευκολύνουν τη διαδικασία της εξόρυξης και να παρέχουν πιο κατανοητά αποτελέσματα. Δεδομένα από διαφορετικές πηγές πρέπει να μετατραπούν σε μια κοινή μορφή που θα επιτρέπει την επεξεργασία τους. Ε- πίσης, κάποιοι αλγόριθμοι εξόρυξης μπορεί να απαιτούν συγκεκριμένες δομές δεδομένων. Παραδείγματα μετασχηματισμών που μπορούν να γίνουν είναι τα εξής: Ενοποίηση πεδίων, ώστε να μειωθεί η πολυπλοκότητα των δεδομένων. Για παράδειγμα τα πεδία τρέχουσα ημερομηνία και ημερομηνία γέννησης θα μπορούσαν να αντικατασταθούν από το πεδίο ηλικία. Αντικατάσταση ενός πεδίου από κάποιο άλλο. Για παράδειγμα αντικατάσταση της ακολουθίας τιμών ενός πεδίου από τις διαφορές των διαδοχικών τιμών. Μετατροπή συνεχόμενων πραγματικών τιμών σε κατηγορικές τιμές. Απομάκρυνση σπάνια εμφανιζόμενων ακραίων τιμών, όπως είναι τα παράτυπα σημεία (outliers). Αξίζει να σημειωθεί ότι ενώ σε κάποιες εφαρμογές τα παράτυπα σημεία μπορεί να θεωρηθούν θόρυβος και να απορριφθούν, σε άλλες ε- φαρμογές μπορούν να αποκαλύψουν σημαντική γνώση, και κατά συνέπεια η ανάλυσή τους να είναι πολύτιμη. Μετασχηματισμός με εφαρμογή κάποιας συνάρτησης στις τιμές ενός πεδίου. Συνηθισμένες περιπτώσεις τέτοιων συναρτήσεων είναι οι λογαριθμικές. -10-

19 Όλες οι παραπάνω τεχνικές διευκολύνουν τη διαδικασία εξόρυξης, είτε μειώνοντας τον αριθμό των πεδίων (dimensionality reduction), είτε μειώνοντας τον αριθμό των τιμών που παίρνει ένα πεδίο (variability reduction). Εξόρυξη σε Δεδομένα Σε αυτό το βήμα εφαρμόζεται ο κατάλληλος αλγόριθμος πάνω στα μετασχηματισμένα δεδομένα, ώστε να παραχθούν τα επιθυμητά αποτελέσματα. Ανάλογα με το είδος της γνώσης που αναζητείται επιλέγεται ο κατάλληλος αλγόριθμος. Υπάρχουν δύο γενικές κατηγορίες προτύπων που προκύπτουν από τη διαδικασία ανακάλυψης γνώσης: τα πρότυπα πληροφόρησης (informative patterns) και τα πρότυπα πρόβλεψης (predictive patterns), τα οποία περιγράφονται στην επόμενη ενότητα. Αξίζει να σημειωθεί ότι πολλές φορές προτιμούνται αλγόριθμοι που έχουν ισχυρά χαρακτηριστικά πληροφόρησης, αν και έχουν χειρότερη δυνατότητα πρόβλεψης, επειδή τα αποτελέσματά τους γίνονται πιο εύκολα αντιληπτά από τον ειδικό του τομέα. Ερμηνεία Αξιολόγηση Διάφορες τεχνικές οπτικής αναπαράστασης (visualization) χρησιμοποιούνται στο στάδιο αυτό για την παρουσίαση των δεδομένων. Η κατανόηση της χρησιμότητας των αποτελεσμάτων εξαρτάται σε μεγάλο βαθμό από τον τρόπο παρουσίασής τους. Οι παραπάνω τεχνικές, δίνουν στο χρήστη τη δυνατότητα να συνοψίζει και να εξάγει πιο πολύπλοκα αποτελέσματα από ότι με μαθηματικές ή βασισμένες σε κείμενο περιγραφές των αποτελεσμάτων. Είναι πιθανό η γνώση που προέκυψε να καταγραφεί σε μια βάση γνώσης (knowledge base) και ίσως να χρειαστεί η επίλυση συγκρούσεων με προϋπάρχουσα γνώση. Συνήθως τα αποτελέσματα μετά από ένα κύκλο της διαδικασίας δίνουν ερέθισμα για νέες αναζητήσεις, δηλαδή επανάληψη ολόκληρης της διαδικασίας Προβλήματα στην Ανακάλυψη Γνώσης Όπως προαναφέρθηκε στην εισαγωγή, η διαδικασία της ανακάλυψης γνώσης βασίζεται σε βάσεις δεδομένων που συνήθως είτε τα δεδομένα τους είναι ακατάλληλα για να υ- ποστηρίξουν τις μεθόδους της μηχανικής μάθησης είτε η αναπαράστασή τους περιέχει προβλήματα που δυσκολεύουν την μηχανική μάθηση. Στις παραγράφους που ακολουθούν περιγράφονται τα σημαντικότερα από αυτά. -11-

20 Περιορισμένη Πληροφορία Οι βάσεις δεδομένων συνήθως δεν είναι σχεδιασμένες για ανακάλυψη γνώσης. Συχνά κάποια πεδία που θα απλοποιούσαν τη διαδικασία ανακάλυψης γνώσης λείπουν ή και είναι αδύνατο να συλλεχθούν από το χρήστη. Γι αυτό το λόγο δεν είναι πάντοτε εφικτή η κατασκευή κανόνων που κατηγοριοποιούν σωστά κάθε παράδειγμα, βάσει των γνωστών μόνο πεδίων. Υπάρχουν δύο τρόποι αντιμετώπισης του παραπάνω προβλήματος. Μπορούν να κατασκευαστούν κανόνες μόνο όταν όλα τα σχετικά χαρακτηριστικά είναι γνωστά (deterministic rules). Το μειονέκτημα της αντιμετώπισης αυτής είναι ότι πολύτιμη πληροφορία που βρίσκεται «κρυμμένη» στη βάση δεδομένων είναι πολύ πιθανό να μη βρεθεί. Εναλλακτικά, κατασκευάζονται κανόνες που κατηγοριοποιούν τα αντικείμενα σε κλάσεις με βάση κάποια πιθανότητα (probabilistic rules). Αυτοί οι κανόνες συνήθως παρέχουν σημαντικές πληροφορίες για συσχετίσεις μέσα στο περιβάλλον. Για παράδειγμα, η συσχέτιση καπνίσματος και καρκίνου δεν είναι ορθή, καθώς το κάπνισμα δεν αποτελεί ούτε ικανή, ούτε αναγκαία συνθήκη για την εμφάνιση καρκίνου. Ω- στόσο, η συσχέτιση αυτή δεν παύει να είναι πολύ σημαντική. Αραιά Δεδομένα Όταν ένα σύστημα ανακάλυψης γνώσης κατασκευάζει κανόνες, πρέπει να ανακαλύψει τα όρια των κλάσεων. Η ακριβής θέση των ορίων μπορεί να βρεθεί μόνο αν υπάρχουν παραδείγματα που εντοπίζονται μόλις μέσα και μόλις έξω από την κλάση (near hits και near misses). Με άλλα λόγια, τα παραδείγματα πρέπει να αναπαριστούν μεγάλη ποικιλία συμπεριφοράς του περιβάλλοντος. Δυστυχώς όμως, σε μια βάση δεδομένων υπάρχει μόνο ένα μικρό υποσύνολο της πιθανής συμπεριφοράς. Έτσι τα όρια των κλάσεων δεν μπορούν να καθοριστούν με ακρίβεια. Μια προσπάθεια λύσης του παραπάνω προβλήματος είναι η αναζήτηση παραδειγμάτων με ιδιαίτερο ενδιαφέρον μέσα στη βάση δεδομένων. Δείγματα Για τη δημιουργία των κανόνων απαιτείται η λήψη ενός δείγματος (σύνολο εκπαίδευσης) από τη βάση δεδομένων. Ωστόσο, χρειάζεται μεγάλη προσοχή και εφαρμογή στατιστικών τεχνικών κατά την επιλογή του δείγματος, ώστε αυτό να αντιπροσωπεύει ικανοποιητικά τη βάση δεδομένων. Οι πραγματικές βάσεις δεδομένων έχουν τεράστιο α- -12-

21 ριθμό εγγραφών, ενώ πολλοί αλγόριθμοι ανακάλυψης γνώσης απαιτούν, για λόγους α- πόδοσης, την παρουσία όλων των δεδομένων εκπαίδευσης στη μνήμη. Επειδή το μέγεθος της μνήμης είναι περιορισμένο, επιβάλλεται η χρήση δείγματος. Θόρυβος Τα πεδία ενός πίνακα βάσης δεδομένων μπορεί να προέρχονται από μετρήσεις ή από υποκειμενικές κρίσεις με αποτέλεσμα να υπάρχουν καταχωρημένες λανθασμένες τιμές. Μια τέτοια περίπτωση μπορεί να οδηγήσει σε εσφαλμένη κατηγοριοποίηση των παραδειγμάτων. Τέτοια λάθη στις τιμές των πεδίων ή στην περιγραφή των κλάσεων είναι γνωστά ως θόρυβος (noise). Το πρόβλημα που δημιουργεί ο θόρυβος μπορεί να εντοπιστεί σε δύο σημεία: Κατά τη διαδικασία δημιουργίας περιγραφών κλάσεων με χρήση συνόλου εκπαίδευσης με θόρυβο. Ο θόρυβος που αφορά την περιγραφή μιας κλάσης έχει αρνητικές επιπτώσεις στη δυνατότητα ακριβούς κατηγοριοποίησης των παραγόμενων κανόνων. Έχει λοιπόν, ιδιαίτερη σημασία η απομάκρυνση του θορύβου από το σύνολο εκπαίδευσης που χρησιμοποιείται για τη δημιουργία των περιγραφών κλάσεων. Κατά τη διαδικασία κατηγοριοποίησης παραδειγμάτων με χρήση περιγραφών που παράχθηκαν με θόρυβο. Σύμφωνα με τους Holsheimer και Siebes [Holsheimer & Siebes. 1994], πειράματα σε κάποια συστήματα έχουν δείξει ότι η προσθήκη θορύβου στα δεδομένα οδηγεί σε χαμηλά επίπεδα εσφαλμένης κατηγοριοποίησης των παραδειγμάτων, ακόμη και αν ο θόρυβος είναι σημαντικός. Ιδιαίτερο ενδιαφέρον παρουσιάζει το εξής φαινόμενο: κανόνες που παράγονται από ένα σύνολο εκπαίδευσης με θόρυβο, λειτουργούν καλύτερα όταν εφαρμόζονται σε δεδομένα με θόρυβο εν συγκρίσει με κανόνες που έχουν προκύψει από το ίδιο «αθόρυβο» σύνολο δεδομένων. Το συμπέρασμα που προκύπτει είναι ότι δεν αξίζει τον κόπο να προσπαθεί κανείς για την εξάλειψη του θορύβου από τις ιδιότητες των αντικειμένων του συνόλου εκπαίδευσης, αν ο κανόνας κατηγοριοποίησης που θα παραχθεί εφαρμόζεται σε δεδομένα με σημαντική ποσότητα θορύβου. Πεδία χωρίς Τιμή Ένα πρόβλημα που σχετίζεται με τη χρήση των βάσεων δεδομένων είναι η ενδεχόμενη απουσία τιμής σε κάποια πεδία. Όπως και στην περίπτωση του θορύβου, το πρόβλημα μπορεί να εντοπιστεί σε δύο σημεία: -13-

22 Κατά τη διαδικασία δημιουργίας περιγραφών των κλάσεων. Τα παραδείγματα με κενά πεδία μπορούν είτε απλά να παραλειφθούν είτε να χρησιμοποιηθούν, αφού γίνει αντικατάσταση των κενών πεδίων με κάποιες από τις πιο πιθανές τιμές. Μπορούν να κατασκευαστούν κανόνες που προβλέπουν την τιμή ενός πεδίου με βάση τις τιμές των άλλων πεδίων του παραδείγματος και τις πληροφορίες για την κλάση. Έτσι αντικαθίστανται τα κενά πεδία και το νέο σύνολο που προκύπτει χρησιμοποιείται για τη δημιουργία περιγραφών κλάσεων. Μια άλλη προσέγγιση είναι η θεώρηση των άγνωστων τιμών σαν μια ξεχωριστή τιμή, για παράδειγμα μπορεί να προστεθεί η τιμή άγνωστο στο σύνολο τιμών κάθε πεδίου και να χρησιμοποιηθεί στις περιγραφές. Κατά τη διαδικασία κατηγοριοποίησης παραδειγμάτων με κενά πεδία. Όταν στις συνθήκες ενός κανόνα περιλαμβάνονται πεδία χωρίς τιμή, τότε ο κανόνας δεν μπορεί να εφαρμοστεί. Μια λύση στο πρόβλημα αυτό είναι ο υπολογισμός της πιθανότητας εφαρμογής ενός κανόνα. Η πιθανότητα να έχει ένα πεδίο μια συγκεκριμένη τιμή μπορεί να υπολογιστεί λαμβάνοντας υπόψη τις σχετικές συχνότητες των διάφορων τιμών του πεδίου στα παραδείγματα του συνόλου εκπαίδευσης. Έτσι, δεδομένου ενός συνόλου κανόνων, υπολογίζεται η πιθανότητα εφαρμογής του κάθε κανόνα και στη συνέχεια αθροίζονται οι πιθανότητες για κάθε κλάση. Τελικά, το παράδειγμα κατηγοριοποιείται στην κλάση με τη μεγαλύτερη τιμή πιθανότητας. Έχει βρεθεί ότι η παραπάνω τεχνική οδηγεί σε μικρή μείωση της ικανότητας κατηγοριοποίησης, καθώς ο αριθμός των άγνωστων τιμών αυξάνει. Μέγεθος της Βάσης Δεδομένων Οι βάσεις δεδομένων συνήθως αποθηκεύουν μεγάλες ποσότητες δεδομένων. Το πρόβλημα μπορεί να εντοπιστεί σε δύο σημεία: Στο πλήθος των πεδίων μιας εγγραφής. Πρώτιστα, πρέπει να σημειωθεί ότι η μεγάλη ποσότητα πληροφορίας για ένα αντικείμενο είναι ένα πλεονέκτημα, α- φού είναι πιθανότερη η εμφάνιση πραγματικών συσχετίσεων. Ωστόσο, η μεγάλη ποσότητα πληροφορίας οδηγεί και σε αύξηση του αριθμού των περιγραφών και του μεγέθους του χώρου αναζήτησης περιγραφών. Η λύση του προβλήματος εί- -14-

23 ναι η χρήση περιορισμών και ευριστικών μηχανισμών στην αναζήτηση, που ο- δηγούν σε σχεδόν βέλτιστες λύσεις. Στο πλήθος των εγγραφών. Κατά τη διάρκεια αναζήτησης περιγραφών κλάσεων πρέπει να πιστοποιείται η ποιότητα κάθε περιγραφής που έχει παραχθεί. Για το λόγο αυτό χρειάζονται κάποιες στατιστικές δοκιμασίες που απαιτούν πληροφορίες όπως τον αριθμό των παραδειγμάτων που καλύπτονται από την περιγραφή ή την κατανομή των τιμών στο σύνολο των δεδομένων. Όπως γίνεται αντιληπτό για τον υπολογισμό της ποιότητας ενός κανόνα είναι απαραίτητη η προσπέλαση της βάσης δεδομένων. Ως λύση μπορούν να χρησιμοποιηθούν οι παρακάτω τεχνικές: Πολλαπλές περιγραφές μπορούν να κατασκευαστούν σε μια επανάληψη της διαδικασίας αναζήτησης με ταυτόχρονο υπολογισμό της ποιότητας τους. Στην πράξη απαιτείται μόνο μία, σύνθετη όμως, προσπέλαση στη βάση δεδομένων. Η ποιότητα μιας περιγραφής μπορεί να υπολογιστεί με χρήση ενός αντιπροσωπευτικού δείγματος της βάσης δεδομένων, που είναι γνωστό ως παράθυρο (window). Ένα μικρό υποσύνολο της βάσης χρησιμοποιείται για την κατασκευή των περιγραφών. Οι καλύτερες περιγραφές ελέγχονται στο σύνολο της βάσης δεδομένων, για περαιτέρω πιστοποίηση της ποιότητας. Ενημέρωση της Βάσης Δεδομένων Οι βάσεις δεδομένων ενημερώνονται συχνά. Νέα δεδομένα προστίθενται, κάποια τροποποιούνται και κάποια άλλα απομακρύνονται. Οποιαδήποτε γνώση είχε εξαχθεί από τη μη ενημερωμένη βάση, ενδέχεται να μην είναι συνεπής με τα νέα δεδομένα. Είναι προφανές ότι ένα σύστημα που μαθαίνει θα πρέπει να προσαρμόζεται σε τέτοιου είδους αλλαγές. Επιπλέον, η αξιοπιστία ενός κανόνα μεγαλώνει, καθώς το μέγεθος του συνόλου εκπαίδευσης αυξάνει. Έτσι αν ένας κανόνας έχει παραχθεί από μια μικρή βάση δεδομένων, η οποία στη συνέχεια επεκτάθηκε, είναι επιθυμητή η διατήρηση της συνέπειας του κανόνα με την εκτεταμένη βάση. Μάλιστα, είναι σημαντική η διατήρηση της συνέπειας των κανόνων με τα πιο πρόσφατα δεδομένα, καθώς τα χαρακτηριστικά των αντικειμένων μπορεί να αλλάζουν με το χρόνο εξαιτίας τάσεων που κυριαρχούν και δι- -15-

24 εργασιών που εκτελούνται στο περιβάλλον. Η ανακατασκευή ενός κανόνα μπορεί να γίνει από την αρχή, όμως είναι πιο βολικό να χρησιμοποιηθεί ένα είδος αυξητικής μάθησης (incremental learning). Κατά τη διαδικασία αυτή χρησιμοποιείται γνώση που έχει παραχθεί προηγουμένως για την ανακατασκευή του κανόνα Είδη Δεδομένων Τα δεδομένα τα οποία βρίσκονται μέσα σε βάσεις δεδομένων είναι προφανές ότι έχουν μια πλήρως ορισμένη δομή. Τα δεδομένα αυτά ονομάζονται δομημένα και σε αυτά α- ναφέρονται οι τεχνικές και τα προβλήματα που αναφέρθηκαν προηγουμένως στο κεφάλαιο. Με την εξέλιξη της πληροφορικής προέκυψαν νέοι, σύνθετοι τύποι δεδομένων που απαιτούν ιδιαίτερο χειρισμό από την αποθήκευση και αναπαράσταση, μέχρι και το τελικό στάδιο της ερμηνείας και αξιολόγησης καθώς οι παραδοσιακές βάσεις αδυνατούν να ανταποκριθούν. Τέτοιοι είναι τα δεδομένα πολυμέσων, όπως ήχος και εικόνα, ακόμα και οι ιστοσελίδες του παγκόσμιου ιστού και διακρίνονται σε ημιδομημένα και αδόμητα δεδομένα. Στις παρακάτω παραγράφους θα δούμε τους σημαντικότερους σύνθετους τύπους δεδομένων καθώς και τα κατανεμημένα δεδομένα, κατηγορία που προέκυψε από την ραγδαία εξάπλωση των δικτύων υπολογιστών. Παγκόσμιος Ιστός Ο Παγκόσμιος Ιστός (World Wide Web) μπορεί να θεωρηθεί ως η μεγαλύτερη διαθέσιμη βάση δεδομένων, ενώ αποτελεί μεγάλη πρόκληση η αποτελεσματική σχεδίαση και προσπέλασή του. Η χρήση του όρου βάση δεδομένων γίνεται αυθαίρετα, καθώς δεν παρουσιάζεται συγκεκριμένη δομή ή σχήμα στον Ιστό. Τα δεδομένα του Ιστού μπορούν να ταξινομηθούν στις εξής κατηγορίες: Τα περιεχόμενα των ιστοσελίδων. Την εσωτερική δομή των ιστοσελίδων που περιλαμβάνει τον κώδικα των ιστοσελίδων σε HTML ή XML. Τη δομή που δημιουργείται από τη διασύνδεση των ιστοσελίδων μέσω των συνδέσμων. Τα δεδομένα χρήσης, που περιγράφουν τον τρόπο προσπέλασης των ιστοσελίδων από τους χρήστες. -16-

25 Τα προφίλ των χρηστών που προκύπτουν από δημογραφικές πληροφορίες ή πληροφορίες που μπορούν να βρεθούν στα cookies. Οι διεργασίες της εξόρυξης στον Παγκόσμιο Ιστό (Web mining) μπορούν να χωριστούν σε κατηγορίες ανάλογα με την κατηγορία δεδομένων στην οποία εφαρμόζονται. Μια από τις εφαρμογές της εξόρυξης στον Παγκόσμιο Ιστό είναι η διαφήμιση. Η συγκέντρωση πληροφοριών που αφορούν τους χρήστες δίνει τη δυνατότητα στις εταιρείες να διαφημίζουν τα προϊόντα τους σε ένα υποσύνολο των χρηστών. Με αυτόν τον τρόπο μειώνεται το κόστος διαφήμισης του προϊόντος σε χρήστες για τους οποίους δεν υπάρχει μεγάλη πιθανότητα αγοράς του. Επίσης, ο διαχειριστής ενός δικτυακού τόπου επιθυμεί τη δημιουργία του καλύτερου συνόλου ιστοσελίδων για την επίτευξη των επιθυμητών στόχων. Οι μέθοδοι εξόρυξης βοηθούν το διαχειριστή στην εξαγωγή συμπερασμάτων σχετικά με το περιεχόμενο, τη δομή, αλλά και την ευκολία χρήσης των ιστοσελίδων του δικτυακού τόπου. Χωρικά Δεδομένα Τα χωρικά δεδομένα (spatial data) μπορούν να θεωρηθούν ως δεδομένα σχετικά με α- ντικείμενα που βρίσκονται σε κάποιο φυσικό χώρο. Αποθηκεύονται στις χωρικές βάσεις δεδομένων (spatial databases), οι οποίες υποστηρίζουν την αποτελεσματική αποθήκευση των χωρικών και των μη χωρικών δεδομένων που αφορούν τα αντικείμενα. Τα χωρικά δεδομένα μπορούν να προσπελαστούν με ερωτήματα που περιέχουν χωρικούς τελεστές, όπως κοντά, βόρεια, νότια, γειτονικά και περιέχεται σε. Για παράδειγμα ένα τέτοιο ερώτημα θα μπορούσε να είναι: «Βρες όλα τα περίπτερα κοντά στο Λευκό Πύργο». Η αποθήκευση των χωρικών δεδομένων απαιτεί ειδικές δομές και καταλόγους που χτίζονται με βάση πληροφορίες απόστασης ή τοπολογίας. Ανάμεσα στις εφαρμογές των χωρικών βάσεων δεδομένων είναι και τα γεωγραφικά συστήματα πληροφοριών (Geographic Information Systems GIS), που αποθηκεύουν γεωγραφικές πληροφορίες (π.χ. χάρτες). Η εξόρυξη σε χωρικά δεδομένα (spatial mining ή spatial data mining) αποτελεί την εφαρμογή μεθόδων εξόρυξης σε χωρικές βάσεις δεδομένων. Μερικές εφαρμογές της είναι στις περιοχές της Γεωλογίας, της Περιβαλλοντολογίας, της Διαχείρισης Πό- -17-

26 ρων, της Γεωργίας, της Ιατρικής και της Ρομποτικής. Αρκετές από τις τεχνικές που παρουσιάστηκαν σε προηγούμενες ενότητες εφαρμόζονται σε χωρικά δεδομένα, αλλά υ- πάρχουν και νέες τεχνικές που αναπτύχθηκαν ειδικά για την εξόρυξη σε χωρικά δεδομένα. Χρονικά Δεδομένα Παραδοσιακά οι βάσεις δεδομένων δεν περιέχουν χρονικά δεδομένα. Αντίθετα, τα δεδομένα που αποθηκεύονται αναπαριστούν την κατάσταση του περιβάλλοντος σε ένα συγκεκριμένο σημείο του χρόνου. Σε μια χρονική βάση δεδομένων (temporal database), διατηρούνται δεδομένα για πολλές χρονικές στιγμές. Οι χρονικές βάσεις δεδομένων δε δέχονται τους ίδιους τύπους ενημερώσεων και ερωτημάτων με τις συνηθισμένες βάσεις δεδομένων. Στην πράξη τροποποιήσεις των εγγραφών δεν επιτρέπονται. Αντί αυτού μπορεί να προστεθεί μια νέα εγγραφή με διαφορετική χρονική τιμή. Τα ερωτήματα μπορεί να περιέχουν σύνθετα κριτήρια χρονικής επιλογής, όπως το ακόλουθο ερώτημα: «Βρες τα ονόματα των υπαλλήλων που είχαν μισθό μεγαλύτερο από μεταξύ 1/1/01 και 31/12/01». Υπάρχουν αρκετά παραδείγματα χρονικών δεδομένων. Οι δορυφόροι συλλέγουν διαρκώς εικόνες και δεδομένα από μετρήσεις αισθητήρων. Οι πληροφορίες αυτές είναι χρονικές και σχετίζονται με συγκεκριμένες χρονικές στιγμές (τη στιγμή που τα δεδομένα συλλέχθηκαν). Σε ένα νοσοκομείο ενδέχεται να διατηρούνται καταγραφές των καρδιακών παλμών από κάποιους ασθενείς, αναπαριστώντας μια συνεχή όψη των χρονικών δεδομένων. Όπως και στην περίπτωση των χωρικών δεδομένων, έχουν προταθεί ειδικές δομές για να διευκολύνουν την εξόρυξη σε χρονικά δεδομένα (temporal mining ή temporal data mining). Στο σημείο αυτό αξίζει να σημειωθεί ότι είναι δυνατός και ο συνδυασμός των προηγούμενων τεχνικών, όπως για παράδειγμα εξόρυξη σε χωροχρονικά δεδομένα. Δεδομένα Πολυμέσων Στην κατηγορία των πολυμέσων ανήκουν δεδομένα όπως κείμενο, γραφικά, εικόνες, κινούμενες εικόνες, βίντεο, ήχος ή ακόμη και συνδυασμοί των παραπάνω. -18-

27 Κάποια θέματα που σχετίζονται με τις βάσεις δεδομένων πολυμέσων (multimedia databases) είναι τα εξής [Silberschaltz et al 2001]: Οι βάσεις δεδομένων θα πρέπει να παρέχουν την υποστήριξη μεγάλων αντικειμένων, καθώς τα δεδομένα πολυμέσων, όπως το βίντεο, μπορεί να καταλαμβάνουν χώρο της τάξης των gigabytes. Απαιτείται η ανάκτηση των δεδομένων με βάση τις ομοιότητες τους. Για παράδειγμα σε βάσεις δεδομένων που αποθηκεύουν εικόνες με δακτυλικά αποτυπώματα, μπορεί να παρέχεται σε ερώτημα μια εικόνα δακτυλικού αποτυπώματος και να ανακτώνται όλες οι εικόνες των αποτυπωμάτων που είναι όμοιες με αυτή του ερωτήματος. Απαραίτητη είναι η χρήση ειδικών δομών και καταλόγων. Η ανάκτηση κάποιων τύπων δεδομένων, όπως ο ήχος και το βίντεο απαιτεί την ε- πεξεργασία με εγγυημένο, σταθερό ρυθμό. Για παράδειγμα αν ο ήχος δεν παρέχεται στο σωστό χρόνο, ενδεχομένως να υπάρχουν κενά στην αναπαραγωγή του ή αν παρέχεται πολύ γρήγορα μπορεί να συμβεί υπερχείλιση του ενδιάμεσου αποθηκευτικού χώρου. Μερικές από τις περιοχές στις οποίες βρίσκουν εφαρμογή οι βάσεις δεδομένων πολυμέσων είναι η Ιατρική, το Μάρκετινγκ, η εκπαίδευση, η διαφήμιση, και η διασκέδαση Κατανεμημένη και Απανταχού Εξόρυξη από Δεδομένα Η τεχνολογία δικτύων είναι μια από τις πιο ραγδαία εξελισσόμενες περιοχές της πληροφορικής. Το διαδίκτυο (internet), τοπικά δίκτυα, δίκτυα κινητής τηλεφωνίας, ομότιμα δίκτυα (Peer-to-peer) είναι μόνο ορισμένα από τα πιο δημοφιλή και καθώς η έρευνα στον τομέα αυτό συνεχίζεται, στο εγγύς μέλλον αναμένεται να παρουσιαστούν νέα δίκτυα, ασύρματα και μη, πιο πολύπλοκα και με περισσότερες δυνατότητες από τα υπάρχοντα. Η εξάπλωση των δικτύων όχι μόνο έφερε πολλές αλλαγές σε θεμελιώδη ζητήματα των υπολογιστών αλλά θέσπισε και νέα. Ένα τέτοιο παράδειγμα είναι η εμφάνιση κατανεμημένων αρχείων, δηλαδή αρχείων που μπορεί να βρίσκονται τμηματικά σε διάφορα μέρη ανά τον κόσμο. Επόμενο είναι λοιπόν η εξόρυξη σε τέτοιου είδους δεδομένα να χρειάζεται μια εντελώς διαφορετική προσέγγιση από την παραδοσιακή. Αυτή η προσέγγιση είναι η κατανεμημένη και απανταχού εξόρυξη σε δεδομένα (Distributed and Ubiquitous Data Mining). Πιο συγκεκριμένα, το απανταχού αναφέρεται στην εφαρμογή της εξόρυξης σε δεδομένα από καθολικά (Ubiquitous) συστήματα. Η προφανής -19-

28 λύση της συσσώρευσης των δεδομένων σε ένα κεντρικό υπολογιστικό σύστημα, καταρρίπτεται εύκολα αν αναλογιστούμε το απαγορευτικό κόστος ενός τέτοιου συστήματος λόγω μεγάλης χωρητικότητας και τεράστιας υπολογιστικής ισχύος, ή ακόμα το ότι είναι πρακτικά αδύνατο να γίνει συλλογή όλων των πληροφοριών που θα χρειαστούν για τεχνικούς λόγους, για παράδειγμα το εύρος των δικτύων, είτε για λόγους προστασίας δικαιωμάτων. Στις παραγράφους που ακολουθούν θα δούμε ενδεικτικά και με συντομία κάποιες μεθόδους εξόρυξης σε δεδομένα που εφαρμόζονται σε κατανεμημένα και απανταχού, καθολικά συστήματα. Εξόρυξη σε Ομότιμα Δίκτυα Στον χώρο της πληροφορικής ο όρος peer-to-peer έχει ταυτιστεί με τον διαμοιρασμό αρχείων με την γνωστή σύνδεση σημείου προς σημείου χωρίς την ύπαρξη εξυπηρέτη (server). Η ταχύτατη διάδοση και χρησιμοποίηση αυτού του είδους σύνδεσης των υπολογιστών έγινε αφενός λόγω της συνεχώς αυξανόμενης ταχύτητας των δικτύων και αφετέρου λόγω των φθηνών αποθηκευτικών συσκευών. Όπως είναι προφανές τα δεδομένα που είναι αποθηκεμένα σε διάφορους υπολογιστές ανά τον κόσμο, ενοποιημένα δημιουργούν μια σημαντική πηγή δεδομένων που μετά από εξόρυξη θα μπορούσε να εξαχθεί πολύτιμη πληροφορία. Η συλλογή των αρχείων αυτών σε ένα κεντρικό υπολογιστικό σύστημα είναι αδύνατη και επομένως στην ανακάλυψη γνώσης συμμετέχουν διαφορετικοί υπολογιστές με τα δεδομένα που έχει ο καθένας να προσφέρει. Εξόρυξη με Προστασία Προσωπικών Δεδομένων Η εξόρυξη με προστασία δεδομένων (Privacy Preserving Data Mining) προσπαθεί να λύσει ένα από τα σημαντικότερα προβλήματα που αντιμετωπίζει η Ανακάλυψη Γνώσης ως επιστημονικό πεδίο. Την παραβίαση προσωπικών δεδομένων και κατ επέκταση την παραβίαση των δικαιωμάτων του ανθρώπου. Γίνεται αμέσως κατανοητό ότι στο συγκεκριμένο θέμα, συνεργάζονται και άλλες επιστήμες όπως η κοινωνιολογία και μαζί πραγματεύονται θέματα ηθικής φύσεως, που τα όριά τους τις περισσότερες φορές δεν είναι ευδιάκριτα όπως τα ζητήματα των θετικών επιστημών. Σαν παράδειγμα θα μπορούσε να δοθεί η διατήρηση προσωπικών δεδομένων ασθενών, από διαφορετικά νοσοκομεία, που πήραν μέρος σε κάποια έρευνα, κάνοντας χρήση κάποιου φαρμάκου. -20-

29 Εξόρυξη σε Κινητές Συσκευές Πρόσφατα εμφανίστηκαν στην αγορά αρκετές προηγμένες εφαρμογές για κινητά τηλέφωνα όπως σύστημα παρακολούθησης υγείας ή ανιχνευτής οχήματος. Αν και βρίσκονται σε εμβρυικό ακόμα στάδιο αναμένεται να τελειοποιηθούν και να εξαπλωθούν στο άμεσο μέλλον. Η εξόρυξη σε δεδομένα που θα προκύψουν από τις εφαρμογές αυτές ί- σως δώσουν πολύτιμη γνώση σε εξειδικευμένα θέματα. Αυτός είναι και ο τομέας της εξόρυξης από κινητές συσκευές (Data Mining in Mobile and Embedded Devices). Η ε- ξόρυξη σε δεδομένα τέτοιου είδους είναι για πολλούς λόγους πρόκληση. Κανάλια μικρού εύρους ζώνης, μικρής χωρητικότητας μνήμες και τέλος αργής ταχύτητας επεξεργαστές είναι κάποια από τα προβλήματα που υπάρχουν και θα πρέπει να ληφθούν υπόψη κατά τον σχεδιασμό των κατάλληλων αλγορίθμων που θα χρησιμοποιηθούν στην εξόρυξη Εφαρμογές Ανακάλυψης Γνώσης Όπως είναι φυσικό, οι περισσότερες εφαρμογές της περιοχής της ανακάλυψης γνώσης βρίσκονται στο εμπόριο. Πιο συγκεκριμένα πολλές εταιρίες χρησιμοποιούν την ανακάλυψη γνώσης σε θέματα όπως απόκτηση νέων πελατών, αύξηση κερδών από τους υ- πάρχοντες πελάτες καθώς και την διατήρηση καλών πελατών. Ακόμα ο καθορισμός και η εύρεση των χαρακτηριστικών που χαρακτηρίζουν ένα πελάτη καλό, μπορεί να κατευθύνει ορθότερα την διαφημιστική εκστρατεία της εταιρίας. Οι ιατρικές εφαρμογές είναι μία άλλη πολύ σπουδαία περιοχή στην οποία εφαρμόζεται με επιτυχία η ανακάλυψη γνώσης. Για παράδειγμα η ανακάλυψη συσχετίσεων μεταξύ ασθενειών και άλλων χαρακτηριστικών όπως ο τόπος διαμονής ή οι διατροφικές συνήθειες, μπορούν να οδηγήσουν σε νέα, πολύτιμη γνώση για την ιατρική επιστήμη. Ολοκληρώνοντας θα αναφερθούμε εφαρμογή της ανακάλυψης γνώσης στην επιστήμη της βιολογίας. Στο σημείο αυτό θα αρκεστούμε στο να αναφέρουμε ότι είναι ένας συγκερασμός επιστημών που έχει δώσει αρκετά αποτελέσματα και η ραγδαία εξέλιξη του προμηνύει ακόμα περισσότερα στο μέλλον σε θέματα που αφορούν για παράδειγμα α- νάλυση αλληλουχιών γονιδιωμάτων. Το θέμα της Βιοπληροφορικής (Bioinformatics) εξετάζεται διεξοδικά στο τέταρτο κεφάλαιο της παρούσας διπλωματικής. -21-

30 -22-

31 3 Μοριακή Βιολογία O εικοστός αιώνας σημαδεύτηκε με μεγάλες ανακαλύψεις σε όλους σχεδόν τους επιστημονικούς τομείς. Αναμφίβολα μία από τις επιστήμες με την μεγαλύτερη ανάπτυξη υπήρξε και η μοριακή βιολογία (molecular biology). Πιο συγκεκριμένα, η ανακάλυψη της διπλής έλικας του DNA το 1953 από τους James Watson και Francis Crick (εικόνα 3.1) και η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος πάνω στην αλλαγή του 20 ου αιώνα, όχι μόνο έδωσαν τρομερή ώθηση στην μοριακή βιολογία αλλά και άνοιξαν νέους ορίζοντες επιστημονικής έρευνας σε άλλες επιστήμες με χαρακτηριστικό παράδειγμα την Βιοπληροφορική. Μοριακή βιολογία είναι η μελέτη της βιολογίας σε μοριακό επίπεδο. Το πεδίο αυτό είναι ουσιαστικά τομή δύο επιστημών, της βιολογίας και της χημείας και πιο συγκεκριμένα των πιο εξειδικευμένων τομέων τους, τη Γενετική (genetics) και τη Βιοχημεία (Biochemistry) αντίστοιχα. Η μοριακή βιολογία ασχολείται κυρίως με τη μελέτη του κύτταρου, του DNA, του RNA, των λειτουργιών και της δομής τους. Αυτά είναι σε γενικές γραμμές και τα ζητήματα που θα μας απασχολήσουν στο κεφάλαιο αυτό. Εικόνα 3.1: Περιγραφή του μοντέλου της διπλής έλικας του DNA από τους Watson και Crick. -23-

32 3.1 Το Κύτταρο Ως κύτταρο εννοείται μια συστηματικά οργανωμένη ομάδα μορίων που βρίσκονται σε δυναμική αλληλεπίδραση μεταξύ τους. Το κύτταρο διαθέτει μορφολογική, φυσική και χημική οργάνωση και την ικανότητα της αφομοίωσης, της ανάπτυξης και της αναπαραγωγής. Είναι μια μονάδα της ζωής ανεξάρτητη ως προς την αυτορρύθμιση και την προσαρμοστικότητά της σε σχέση με το περιβάλλον [wiki]. Στην παράγραφο αυτή θα μελετήσουμε τα κυριότερα θέματα που σχετίζονται με το κύτταρο Κυτταρική Θεωρία Είναι πλέον γνωστό σε όλους ότι οι οργανισμοί αποτελούνται από κύτταρα. Αυτό είναι το βασικό συμπέρασμα της κυτταρικής θεωρίας που ασχολείται με την περιγραφή της δομής και των ιδιοτήτων της έμβιας ύλης. Η κυτταρική θεωρία περιλαμβάνει αποτελέσματα μιας σειράς μελετών, παρατηρήσεων και συμπερασμάτων τα οποία διήρκησαν περισσότερο από 170 χρόνια. Η αρχή σηματοδοτείται το 1665 όταν ο Robert Hooke ανέφερε για πρώτη φορά τη λέξη κύτταρο, παρατηρώντας με το δικής του κατασκευής μικροσκόπιο, λεπτές τομές φελλού και όχι ζωντανά κύτταρα [Hooke, 1665]. Η εικόνα 3.2 δείχνει την παρατήρηση του Hooke. Εικόνα 3.2: Παρατήρηση με το μικροσκόπιο του Hooke Η κυτταρική θεωρία διατυπώθηκε πολύ αργότερα το από τους Schleiden και Schwann, που υποστήριξαν ότι η θεμελιώδης δομική και λειτουργική μονάδα όλων -24-

33 των οργανισμών είναι το κύτταρο που σημαίνει ότι το κύτταρο είναι η μικρότερη δομή στη φύση όπου εμφανίζεται το φαινόμενο της ζωής. Συνοπτικά η κυτταρική θεωρία στη σύγχρονη μορφή της υποστηρίζει ότι: Όλοι οι οργανισμοί αποτελούνται από κύτταρα και κυτταρικά παράγωγα. Όλα τα κύτταρα δομούνται από τις ίδιες χημικές ενώσεις και εκδηλώνουν παρόμοιες μεταβολικές διεργασίες. Η λειτουργία των οργανισμών είναι το αποτέλεσμα της συλλογικής δράσης και αλληλεπίδρασης των κυττάρων που τους αποτελούν. Κάθε κύτταρο προέρχεται από την διαίρεση προϋπάρχοντος κυττάρου Η Δομή του Κυττάρου Τα κύτταρα με βάση την πολυπλοκότητα της κατασκευής τους και κυρίως την ύπαρξη ή όχι μεμβράνης που περιβάλλει το γενετικό τους υλικό διακρίνονται σε προκαρυωτικά και ευκαρυωτικά. Η μεμβράνη αυτή μαζί με το γενετικό υλικό σχηματίζει τον πυρήνα. Θεωρείται ότι τα προκαρυωτικά κύτταρα κατά την εξελικτική διαδικασία, προϋπήρξαν των ευκαρυωτικών. Τα κύτταρα δεν είναι όλα ίδια. Στον άνθρωπο για παράδειγμα υπάρχουν περίπου 100 είδη κυττάρων. Για τον λόγο αυτό η περιγραφή του κυττάρου γίνεται μέσα από ένα ανύπαρκτο ουσιαστικά κύτταρο, το οποίο συγκεντρώνει όλα τα κοινά γνωρίσματα των κυττάρων και ονομάζεται τυπικό κύτταρο (εικόνα 3.3). Το τυπικό κύτταρο οριοθετείται από το εξωτερικό περιβάλλον με την πλασματική μεμβράνη. Παρακάτω θα παρουσιάσουμε την πλασματική μεμβράνη καθώς και τα σημαντικότερα οργανίδια του κυττάρου. -25-

34 Εικόνα 3.3: Το τυπικό ευκαρυωτικό κύτταρο Πλασματική Μεμβράνη Πλασματική μεμβράνη ονομάζεται η μεμβράνη που οριοθετεί το κύτταρο σε σχέση με το εξωτερικό του περιβάλλον. Εκτός όμως από την προφανή αυτή χρησιμότητά της ε- κτελεί και δύο άλλες βασικότατες λειτουργίες. Καταρχάς ελέγχει τις ουσίες που εξέρχονται και εισέρχονται στο κύτταρο. Εδώ αξίζει να αναφερθεί ότι ο κύριος χαρακτηρισμός της είναι επιλεκτικά διαπερατή. Η δεύτερη πολύ σημαντική λειτουργία της πλασματικής μεμβράνης είναι η υποδοχή και ερμηνεία μηνυμάτων από το περιβάλλον του κυττάρου. Τα μηνύματα αυτά εξυπηρετούν με διάφορους τρόπους τα κύτταρα όπως να αναγνωρίζονται μεταξύ τους αν είναι όμοια, να συντονίζουν την δράση τους έτσι ώστε το όργανο ή ο ιστός στο οποίο ανήκουν να εμφανίζει ενιαία λειτουργία και τέλος να τροποποιούν την λειτουργία τους κατά τις μεταβολές του περιβάλλοντος. -26-

35 Πυρήνας Ο πυρήνας είναι το πιο ευδιάκριτο οργανίδιο των ευκαρυωτικών κυττάρων. Περιβάλλεται από τον πυρηνικό φάκελο ή αλλιώς πυρηνική μεμβράνη που τον διαχωρίζει από το κυτταρόπλασμα. Η πυρηνική μεμβράνη εκτελεί κατ αναλογία, τις ίδιες λειτουργίες με την κυτταρική μεμβράνη. Πιο συγκεκριμένα, ανταλλάσει μηνύματα με τα οργανίδια που βρίσκονται στο κυτταρόπλασμα και ακόμα ελέγχει τα μακρομόρια που ανταλλάσσονται μεταξύ τους. Το εσωτερικό του πυρήνα καταλαμβάνεται από το πυρηνόπλασμα, μια ημίρρευστη ουσία στην οποία περιέχονται το σύνολο σχεδόν του DNA του ευκαρυωτικού κυττάρου, ένας ή περισσότεροι πηρυνίσκοι και διάφορες χημικές ενώσεις όπως νουκλεοτίδια ένζυμα και πρωτεΐνες. Ο πυρηνίσκος είναι μια δομή που βρίσκεται στο κέντρο του πυρήνα και διακρίνεται εύκολα στο μικροσκόπιο από το σφαιρικό σχήμα της και την πυκνή υφή της. Αποτελείται κυρίως από DNA και RNA και δεν περιβάλλεται από στοιχειώδη μεμβράνη. Στον πυρηνίσκο συντίθεται και το rrna (ριβοσωμικό RNA). Ο ρόλος του πυρήνα για την ζωή του κυττάρου είναι πολύ σημαντικός καθώς είναι το οργανίδιο που φυλάσσει το γενετικό υλικό, που διασφαλίζει τον διπλασιασμό του και τέλος στο εσωτερικό του συντίθενται τα διάφορα είδη RNA από τις πληροφορίες που φέρει το DNA. Ένα παράδειγμα που δείχνει την σημαντικότητα του πυρήνα για την ζωή του κυττάρου είναι το γεγονός ότι τα κύτταρα τα οποία έχασαν τον πυρήνα τους κατά την διαφοροποίησή τους όπως τα ερυθρά αιμοσφαίρια, δεν αναπαράγονται και εμφανίζουν μικρό αριθμό μεταβολικών διεργασιών και περιορισμένη διάρκεια ζωής. 3.2 Η Ζωή στο Μοριακό Επίπεδο Στην παράγραφο αυτή θα ασχοληθούμε με τα σημαντικότερα βιομόρια (Biomolecules). Όπως φανερώνει και η ονομασία τους, είναι τα μόρια που σχετίζονται με το φαινόμενο της ζωής. Πιο συγκεκριμένα θα ασχοληθούμε με τα νουκλεϊκά οξέα (DNA και RNA) και τις πρωτεΐνες. Και τα τρία αυτά βιομόρια ανήκουν στα μακρομόρια (macromolecules) (μεγάλα μόρια), τα οποία αποτελούνται από μικρά μόρια (small molecules). Μικρά μόρια είναι τα νουκλεοτίδια και τα αμινοξέα στα οποία δεν θα γίνει ιδιαίτερη αναφορά, παρά μόνο ως δομικά στοιχεία κατά την περιγραφή του αντίστοιχου μακρομορίου. -27-

36 3.2.1 Πρωτεΐνες Οι πρωτεΐνες (proteins) παίζουν σημαντικούς ρόλους σε όλες σχεδόν τις βιολογικές διεργασίες. Ο όρος πρωτεΐνη προέρχεται από την λέξη πρώτος και χρησιμοποιήθηκε για πρώτη φορά από τον J. Berzelius το 1838 για να τονίσει την σημασία αυτής της τάξης των μορίων, παρόλο που ακόμα δεν ήταν πλήρως γνωστό το εύρος της χρησιμότητας τους. Οι πρωτεΐνες δομούνται από είκοσι μόνο αμινοξέα. Παρόλα αυτά υπάρχει μια τεράστια ποικιλία στις δράσεις τους. Οι κυριότερες από αυτές αναφέρονται παρακάτω [Stryer, 1997]: Ενζυμική κατάλυση. Σχεδόν όλες οι χημικές αντιδράσεις στα βιολογικά συστήματα καταλύονται από ειδικά μακρομόρια που λέγονται ένζυμα. Σχεδόν όλα τα γνωστά ένζυμα είναι πρωτεΐνες και εμφανίζουν τεράστια καταλυτική δύναμη, αφού συνήθως αυξάνουν το ρυθμό μιας αντίδρασης τουλάχιστον κατά ένα εκατομμύριο φορές. Μεταφορά και αποθήκευση. Πολλά μικρά μόρια και ιόντα μεταφέρονται από ειδικές πρωτεΐνες. Για παράδειγμα, η αιμοσφαιρίνη μεταφέρει οξυγόνο στα ερυθροκύτταρα, ενώ η μυοσφαιρίνη, μια συγγενής πρωτεΐνη, μεταφέρει οξυγόνο στους μύες. Ο σίδηρος μεταφέρεται στο πλάσμα του αίματος από την τρανσφερρίνη και αποθηκεύεται στο ήπαρ ως σύμπλοκο με μια άλλη πρωτεΐνη, την φερριτίνη. Συνδυασμένη κίνηση. Οι μύες αποτελούνται κυρίως από πρωτεΐνες. Η κίνηση των μυών επιτυγχάνεται με την διολίσθηση μεταξύ δύο πρωτεϊνικών ινών. Μηχανική στήριξη. Η μεγάλη αντοχή του δέρματος και των οστών σε διάφορες κακώσεις, είναι αποτέλεσμα της ύπαρξης κολλαγόνου, μιας ινώδους πρωτεΐνης. Ανοσολογική προφύλαξη. Τα αντισώματα είναι και αυτά ιδιαίτερα εξειδικευμένες πρωτεΐνες που παίζουν σημαντικό ρόλο στην προφύλαξη του ανθρώπινου οργανισμού. Επίπεδα Οργάνωσης των Πρωτεϊνών Υπάρχουν τέσσερα επίπεδα οργάνωσης (conformation) των πρωτεϊνών [Brazma et al. 2001]: -28-

37 Οι πρωτεΐνες είναι αλυσίδες των 20 διαφορετικών αμινοξέων, τα οποία μπορούν να ενωθούν σε οποιαδήποτε γραμμική διάταξη. Οι αλυσίδες αυτές καλούνται πολυπεπτίδια (polypeptides) ή πολυπεπτιδικές αλυσίδες (polypeptide chains). Αυτή η αλληλουχία των αμινοξέων στην πολυπεπτιδική αλυσίδα αποτελεί την πρωτοταγή δομή (primary structure) και μπορεί να αναπαρασταθεί ως συμβολοσειρά από το συνδυασμό 20 διαφορετικών συμβόλων. Η δευτεροταγής δομή (secondary structure) οφείλεται στην αναδίπλωση της πολυπεπτιδικής αλυσίδας. Υπάρχουν δύο υποδομές που φαίνονται συχνά μέσα στις διπλωμένες αλυσίδες, οι α-έλικες (α-helices) και οι β-κλώνοι (β-strands). Ενώνονται τυπικά από λιγότερο κανονικές δομές, αποκαλούμενες βρόχους (loops). Ως αποτέλεσμα του διπλώματος, τα μέρη του πρωτεϊνικού μορίου πλησιάζουν μεταξύ τους και οι διάφορες ελκτικές ή απωστικές δυνάμεις (δεσμοί υδρογόνου, δισουλφιδικές γέφυρες, έλξεις μεταξύ θετικών και αρνητικών φορτίων, υδρόφοβες και υδρόφιλες δυνάμεις) μεταξύ αυτών των μερών αναγκάζουν το μόριο να αποκτήσει μια σχετικά σταθερή τρισδιάστατη δομή. Αυτή είναι η τριτοταγής δομή (tertiary structure). Σε πολλές περιπτώσεις αυτή η τρισδιάστατη δομή είναι αρκετά συμπαγής. Η τεταρτοταγής δομή (quaternary structure) είναι η τελική τρισδιάστατη μορφή που παίρνει η πρωτεΐνη, όταν αποτελείται από περισσότερες της μίας πολυπεπτιδικές αλυσίδες. Τα τέσσερα επίπεδα οργάνωσης καθορίζονται τόσο από την πρωτοταγή δομή όσο και από το φυσικοχημικό περιβάλλον στο οποίο βρίσκεται το μόριο της πρωτεΐνης. Η πρόβλεψη της δομής της πρωτεΐνης από την αλληλουχία των αμινοξέων είναι ένα από τα σημαντικότερα προβλήματα που αντιμετωπίζει η Βιοπληροφορική. Στην Εικόνα 3.4 παρουσιάζονται τα τέσσερα επίπεδα της πρωτεϊνικής δομής. -29-

38 Πρωτοταγής δομή Δευτεροταγής δομή Τριτοταγής δομή Τεταρτοταγής δομή Εικόνα 3.4: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών DNA Το δεοξυριβονουκλεϊκό οξύ (deoxyribonucleic acid), ή αλλιώς DNA αποτελεί το γενετικό υλικό όλων των κυττάρων και των περισσότερων ιών. Παρόλα αυτά πολλοί ιοί έχουν σαν γενετικό υλικό το RNA (RNA ιοί) με χαρακτηριστικότερο παράδειγμα τον ιό HIV. Το DNA είναι ένα πολύ επίμηκες μόριο που μοιάζει με νήμα και αποτελείται από ένα μεγάλο αριθμό δεοξυριβονουκλεοτιδίων, το καθένα από τα οποία έχει μία αζωτούχο βάση, μία πεντόζη και μία φωσφορική ομάδα. Οι βάσεις του DNA μεταφέρουν την γενετική πληροφορία, ενώ η πεντόζη και η φωσφορική ομάδα έχουν δομικό ρόλο [Stryer, 1997]. Οι κυριότερες λειτουργίες του γενετικού υλικού συνοψίζονται στα παρακάτω: Η αποθήκευση της γενετικής πληροφορίας. Στο DNA περιέχονται οι πληροφορίες που καθορίζουν όλα τα χαρακτηριστικά ενός οργανισμού και οργανώνονται σε λειτουργικές μονάδες, τα γονίδια. Η διατήρηση και μεταβίβαση της γενετικής πληροφορίας από κύτταρο σε κύτταρο και από οργανισμό σε οργανισμό. Η έκφραση των γενετικών πληροφοριών, που επιτυγχάνεται με τον έλεγχο της σύνθεσης των πρωτεϊνών. -30-

39 Νουκλεοτίδια και Σύσταση του DNA Το DNA είναι ένα μακρομόριο που αποτελείται από νουκλεοτίδια. Κάθε νουκλεοτίδιο του DNA αποτελείται από μία πεντόζη, την δεοξυριβόζη, ενωμένη με μια φωσφορική ομάδα και μια αζωτούχο βάση. Στα νουκλεοτίδια του DNA αζωτούχος βάση μπορεί να είναι μία από τις Αδενίνη/Α (Adenine), Γουανίνη/G (Guanine), Θυμίνη/T (Thymine), Κυτοσίνη/C (Cytosine). Στον πίνακα 3.1 δίνονται τέσσερις βάσεις μαζί με ακόμα μια την Ουρακίλη/U (Uracil) η οποία όπως θα δούμε παρακάτω είναι συστατικό του RNA. Όνομα Συμβολισμός Μοριακή Δομή Αδενίνη Adenine A Γουανίνη Guanine G Θυμίνη Thymine T Κυτοσίνη Cytosine C Ουρακίλη Uracil U Πίνακας 3.1: Οι 5 νουκλεοτιδικές βάσεις. Γκρι: Άνθρακας, Κόκκινο: Οξυγόνο, Λευκό: Υδρογόνο, Μπλε: Άζωτο. -31-

40 Η εικόνα 3.5 παρουσιάζει μία αναλυτικότερη άποψη του DNA. Σε κάθε νουκλεοτίδιο η αζωτούχος βάση συνδέεται με τον 1 άνθρακα της δεοξυριβόζης και η φωσφορική ομάδα με τον 5 άνθρακα. Μια πολυνουκλεοτιδική αλυσίδα σχηματίζεται από την ένωση πολλών νουκλεοτιδίων με ομοιοπολικό δεσμό. Ο δεσμός αυτός δημιουργείται μεταξύ του υδροξυλίου του 3 άνθρακα της πεντόζης του πρώτου νουκλεοτιδίου και της φωσφορικής ομάδας που είναι συνδεδεμένη στον 5 άνθρακα της πεντόζης του επόμενου νουκλεοτιδίου. Ο δεσμός αυτός ονομάζεται 3-5 φωσφοδιεστερικός δεσμός. Ανεξάρτητα από τον αριθμό τον νουκλεοτιδίων που αποτελούν την πολυνουκλεοτιδική αλυσίδα, το πρώτο της νουκλεοτίδιο έχει πάντα μια ελεύθερη φωσφορική ομάδα συνδεδεμένη στο 5 άνθρακα της πεντόζης του και το τελευταίο νοκλεοτίδιο της έχει ελεύθερο το υδροξύλιο του 3 άνθρακα της πεντόζης του. Γι αυτό τον λόγο αναφέρεται ότι ο προσανατολισμός της πολυνουκλεοτιδικής αλυσίδας είναι 5 3. Εικόνα 3.5: Αναλυτικότερη άποψη του δίκλωνου μορίου του DNA. Δομή του DNA Αν και η χημική σύσταση του DNA ήταν γνωστή από πειράματα, δεν υπήρχε κάποια αποδεκτή πρόταση για την δομή του DNA στο χώρο μέχρι το Τη χρονιά εκείνη, οι James Watson και Francis Crick ανέλυσαν φωτογραφίες περίθλασης ακτίνων X από ίνες DNA που είχαν πάρει η Rosalind Franklin και ο Maurice Wilkins και πρότειναν ένα δομικό μοντέλο, το μοντέλο της διπλής έλικας του DNA, που αποδείχτηκε μετέπειτα -32-

41 αληθινό. Τα κυριότερα σημεία αυτού είναι τα παρακάτω [Stryer L. 1997, Αλεπόρου- Μαρίνου κ.α., 2003] : Δύο ελικοειδής πολυνουκλεοτιδικές αλυσίδες με αντίθετες κατευθύνσεις περιστρέφονται γύρω από ένα κοινό άξονα. Η διπλή έλικα έχει ένα σταθερό σκελετό, που αποτελείται από επαναλαμβανόμενα μόρια φωσφορικής ομάδας-δεοξυριβόζης ενωμένων με φωσφοδιεστερικό δεσμό. Ο σκελετός αυτός είναι υδρόφιλος και βρίσκεται στο εξωτερικό του μορίου. Προς το εσωτερικό του σταθερού αυτού σκελετού βρίσκονται οι αζωτούχες βάσεις που είναι υδρόφοβες. Οι αζωτούχες βάσεις της μιας αλυσίδας συνδέονται με δεσμούς υδρογόνου με τις αζωτούχες βάσεις της απέναντι αλυσίδας με βάση τον κανόνα της συμπληρωματικότητας. Η αδενίνη συνδέεται μόνο με θυμίνη και αντίστροφα, ενώ η κυτοσίνη συνδέεται μόνο με γουανίνη και αντίστροφα. Οι δεσμοί υδρογόνου που αναπτύσσονται μεταξύ των βάσεων σταθεροποιούν τη δευτεροταγή δομή του μορίου. Οι δύο αλυσίδες ενός μορίου DNA είναι συμπληρωματικές. Αυτό υποδηλώνει ότι η αλληλουχία της μιας καθορίζει την αλληλουχία της άλλης. Η συμπληρωματικότητα καθιστά το DNA το καταλληλότερο μόριο για τη διατήρηση και την μεταβίβαση της γενετικής πληροφορίας. Οι δύο αλυσίδες είναι αντιπαράλληλες, δηλαδή το 3 άκρο της μιας είναι απέναντι από το 5 άκρο της άλλης. Η αλληλουχία των βάσεων κατά μήκος της πολυνουκλεοτιδικής αλυσίδας δεν έχει κανένα περιορισμό. Η ακριβής αλληλουχία των βάσεων μεταφέρει τις γενετικές πληροφορίες -33-

42 Εικόνα 3.6: Αλυσίδα DNA RNA Όπως προαναφέρθηκε, τα γονίδια όλων των προκαρυωτικών και ευκαρυωτικών οργανισμών αποτελούνται από DNA. Στους ιούς τα γονίδια αποτελούνται είτε από DNA ή από RNA (ριβονουκλεϊκό οξύ). Παρόλα αυτά οι κύριες λειτουργίες του RNA σχετίζονται με την πρωτεϊνοσύνθεση. Το RNA, όπως το DNA, είναι ένα πολυμερές που αποτελείται από νουκλεοτίδια ενωμένα με 3-5 φωσφοδιεστερικούς δεσμούς. Η δομή του RNA διαφέρει από αυτή του DNA σε δυο σημεία. Η πρώτη διαφορά είναι ότι η πεντόζη στο RNA είναι η ριβόζη και όχι η δεοξυριβόζη. Η δεύτερη διαφορά είναι ότι μια από τις τέσσερις κύριες βάσεις στο RNA είναι η ουρακίλη/u αντί της θυμίνης/t. Υπάρχουν τέσσερα είδη RNA που σχετίζονται με την διαδικασία της πρωτεϊνοσύνθεσης: Το Αγγελιαφόρο RNA (messenger RNA- mrna), το οποίο μεταφέρει την πληροφορία του DNA για την παραγωγή μιας πολυπεπτιδικής αλυσίδας. Το ριβοσωμικό RNA (ribosomal RNA- rrna), το οποίο συνδέεται με πρωτεΐνες και σχηματίζει το ριβόσωμα, που είναι απαραίτητο για την πρωτεϊνοσύνθεση. Μεταφορικό RNA (transfer RNA- trna), το οποίο μεταφέρει τα αμινοξέα στην περιοχή της πρωτεϊνοσύνθεσης. Μικρό πυρηνικό RNA (small nuclear RNA- snrna), το οποίο συνδέεται με πρωτεΐνες και σχηματίζει ριβονουκλεοπρωτεΐνικά σωματίδια, τα οποία καταλύουν την διαδικασία της ωρίμανσης του mrna. -34-

43 Στην παράγραφο αυτή ήταν απαραίτητο να γίνει αναφορά σε κάποιες διεργασίες όπως πρωτεϊνοσύνθεση ή ωρίμανση mrna, χωρίς καμία επεξήγηση, οι οποίες θα αναλυθούν στις παρακάτω παραγράφους. 3.3 Γονίδια και Γονιδίωμα Το γενετικό υλικό των προκαρυωτικών κυττάρων είναι ένα δίκλωνο κυκλικό μόριο DNA. Αντίθετα με τα προκαρυωτικά, τα ευκαρυωτικά κύτταρα περιέχουν πολλά γραμμικά μόρια DNA, ο αριθμός και το μήκος των οποίων είναι χαρακτηριστικά για τα διάφορα είδη των οργανισμών. Τα μόρια αυτά καλούνται χρωμοσώματα (chromosomes). [Brazma A. et al 2001, Hunter 1993] Σε κάποιους οργανισμούς που καλούνται διπλοειδείς (diploids), κάθε χρωμόσωμα περιέχεται σε δύο αντίγραφα, τα οποία καλούνται ο- μόλογα χρωμοσώματα (homologous chromosomes). Οργανισμοί με ένα αντίγραφο του DNA στα χρωμοσώματά τους, καλούνται απλοειδείς (haploids). Ο άνθρωπος είναι διπλοειδής και έχει 23 ζεύγη χρωμοσωμάτων. Οι προκαρυωτικοί οργανισμοί είναι απλοειδείς [Αλεπόρου- Μαρίνου κ.α., 2003]. Η απεικόνιση του συνόλου των χρωμοσωμάτων ενός ατόμου ταξινομημένων σε μια πρότυπη μορφή στην οποία φαίνεται ο αριθμός, το μέγεθος και το σχήμα των χρωμοσωμάτων καλείται καρυότυπος (karyotype) [HyperDictionary]. Τα χρωμοσώματα που είναι μορφολογικά ίδια στο αρσενικό και το θηλυκό άτομο καλούνται αυτοσωμικά (autosomes). Τα χρωμοσώματα που καθορίζουν το φύλλο ενός οργανισμού καλούνται φυλετικά χρωμοσώματα (sex chromosomes). Για παράδειγμα στον άνθρωπο υπάρχουν 22 ζεύγη αυτοσωμικών χρωμοσωμάτων και δύο χρωμοσώματα τα X και Y, που καθορίζουν το θηλυκό και το αρσενικό άτομο αντίστοιχα. Τα θηλυκά άτομα περιλαμβάνουν το ζεύγος ΧΧ, ενώ τα αρσενικά το ζεύγος XY. Η Εικόνα 3.7 παρουσιάζει τον καρυότυπο ενός φυσιολογικού αρσενικού ατόμου και η Εικόνα 3.8 τον καρυότυπο ενός φυσιολογικού θηλυκού ατόμου. -35-

44 Εικόνα 3.7: Καρυότυπος αρσενικού ατόμου. Εικόνα 3.8: Καρυότυπος θηλυκού ατόμου. Στα ευκαρυωτικά κύτταρα το γενετικό υλικό κατανέμεται στον πυρήνα, στα μιτοχόνδρια και στους χλωροπλάστες. Το γενετικό υλικό σε όλα τα κύτταρα ενός οργανισμού είναι το ίδιο (με λίγες ειδικές εξαιρέσεις). Το σύνολο του γενετικού υλικού ενός οργανισμού καλείται γονιδίωμα ή γένωμα (genome). Το γονίδιο (gene) είναι ένα συνεχές τμήμα μορίου χρωμοσωμικού DNA στο οποίο περιέχονται πληροφορίες που καθορίζουν τη σύνθεση ενός συγκεκριμένου τύπου πρωτεΐνης ή ενός μικρού αριθμού διαφορετικών πρωτεϊνών. Υπάρχουν, επίσης, γονίδια που περιέχουν πληροφορίες για τη σύνθεση μορίων RNA [Brazma A. et al 2001]. Το γονίδιο είναι η βασική μονάδα κληρονομι- -36-

45 κότητας. Η εικόνα 3.9 δείχνει την σχέση μεγέθους από την αλυσίδα του DNA ως το χρωμόσωμα. Εικόνα 3.9: Από το DNA στο Χρωμόσωμα Σημαντικές στη Μοριακή Βιολογία και τη Γενετική (Genetics) είναι οι έννοιες του γονότυπου (genotype) και του φαινότυπου (phenotype). O γονότυπος είναι η συγκεκριμένη γενετική σύσταση ενός ατόμου, ενώ ο φαινότυπος είναι, είτε η συνολική φυσική του εμφάνιση, είτε η συγκεκριμένη εκδήλωση ενός χαρακτηριστικού (π.χ. χρώμα ματιών). Συνήθως η έννοια του γονότυπου χρησιμοποιείται για να περιγράψει ένα συγκεκριμένο γονίδιο που συγκεντρώνει το ενδιαφέρον ή έναν αριθμό γονιδίων. Στην περίπτωση των διπλοειδών οργανισμών ο γονότυπος αναφέρεται στα γονίδια που βρίσκονται στην ίδια θέση των ομόλογων χρωμοσωμάτων και ελέγχουν την ίδια ιδιότητα, με τον ίδιο ή διαφορετικό ενδεχομένως τρόπο. Τα γονίδια αυτά καλούνται αλληλόμορφα γονίδια (alleles). Η σχέση μεταξύ γονότυπου και φαινότυπου δεν είναι άμεση. Κάποια γονίδια μπορεί να εκφράσουν ένα συγκεκριμένο φαινότυπο αν βρεθούν στις κατάλληλες περιβαλλοντικές συνθήκες. Συνεπώς η σχέση γονότυπου και φαινοτύπου μπορεί να περιγραφεί ως εξής: γονότυπος + περιβάλλον φαινότυπος. -37-

46 3.4 Το κεντρικό Δόγμα της Μοριακής Βιολογίας Όπως προαναφέραμε το DNA περιέχει αποθηκευμένες ακριβείς οδηγίες οι οποίες καθορίζουν την δομή και την λειτουργία του οργανισμού. Ταυτόχρονα περιέχει και την οδηγία για τον αυτοδιπλασιασμό του, μέσω της αντιγραφής (replication), εξασφαλίζοντας έτσι την μεταβίβαση των γενετικών οδηγιών από το ένα κύτταρο στα θυγατρικά του και από έναν οργανισμό στους απογόνους. Το πρώτο βήμα για την έκφραση της πληροφορίας που υπάρχει στο DNA είναι η μεταφορά της στο RNA με την διαδικασία της μεταγραφής (transcription). Το RNA μεταφέρει με την σειρά του, μέσω της διαδικασίας της μετάφρασης (translation), την πληροφορία στις πρωτεΐνες που είναι υπεύθυνες για την δομή και λειτουργία των κυττάρων και κατ επέκταση και των οργανισμών. Η σχέση αυτή αποτελεί το Κεντρικό Δόγμα της Βιολογίας (Central Dogma of Molecular Biology) όπως ονομάστηκε από τον Francis Crick το Σχηματικά το κεντρικό δόγμα έχει ως εξής: DNA RNA Πρωτεΐνες Εικόνα 3.10: Κεντρικό δόγμα της Μοριακής Βιολογίας (Francis Crick) Όπως προαναφέρθηκε σε προηγούμενη παράγραφο η γενετική πληροφορία υπάρχει σε τμήματα DNA με συγκεκριμένη ακολουθία και ονομάζονται γονίδια. Αυτά διαμέσου της αντιγραφής και της μετάφρασης, καθορίζουν την σειρά των αμινοξέων στην πρωτεΐνη. Οι πορείες της μεταγραφής και της μετάφρασης αποτελούν την γονιδιακή έκφραση. Στην εικόνα 3.11 δίνεται μια πιο λεπτομερής περιγραφή του κεντρικού δόγματος της μοριακή βιολογίας. -38-

47 Εικόνα 3.11: Αναλυτικότερη άποψη του Κεντρικού Δόγματος της Βιολογίας (Francis Crick) Η παραπάνω πρόταση για το κεντρικό δόγμα της μοριακής βιολογίας έχει πλέον αντικατασταθεί από μία πιο σύγχρονη που λαμβάνει υπόψη της ότι κάποιοι ιοί έχουν RNA ως γενετικό υλικό. Ένα ένζυμο, η αντίστροφη μεταγραφάση, χρησιμοποιεί ως καλούπι το RNA για να συνθέσει DNA. Επί πλέον το RNA έχει την ικανότητα να αυτοδιπλασιάζεται. Σχηματικά το σύγχρονο κεντρικό δόγμα της μοριακής βιολογίας έχει ως εξής: Αντιγραφή DNA Μεταγραφή Αντίστροφη Αντιγραφή RNA Μετάφραση Πρωτεΐνες Μεταγραφή Εικόνα 3.12: Το Σύγχρονο Κεντρικό Δόγμα της Μοριακής Βιολογίας -39-

48 Στις παρακάτω παραγράφους θα παρουσιάσουμε συνοπτικά της διαδικασίες της αντιγραφής, μεταγραφής και μετάφρασης του DNA Αντιγραφή του DNA Από το 1953 και μετά αρκετές υποθέσεις είχαν γίνει για τον τρόπο αντιγραφής του DNA. Οι Watson και Crick βασισμένοι στο ειδικό ζευγάρωμα των βάσεων πίστευαν ότι ο μηχανισμός αντιγραφής του θα είναι πολύ απλός. Εξαρχής είχαν κυριαρχήσει τρία υποθετικά μοντέλα για τον τρόπο αντιγραφής του DNA [wiki, web.mit.edu, Bates K], (εικόνα 3.13): Ο συντηρητικός (conservative), κατά τον οποίο το μητρικό μόριο DNA διατηρεί την αρχική μορφή του, ενώ το θυγατρικό αποτελείται από δύο νέες αλυσίδες. Ο ημισυντηρητικός (semi conservative), κατά τον οποίο τα δύο μόρια που προκύπτουν αποτελούνται από μια παλιά και μια νέα αλυσίδα. Ο διασπαρτικός (dispersive), σύμφωνα με τον οποίο τα δύο μόρια περιέχουν τυχαίες περιοχές και των παλιών και των νέων αλυσίδων. Εικόνα 3.13: Υποθετικά Μοντέλα Αντιγραφής DNA Το 1957 οι Matthew Meselson και Franklin Stahl απέδειξαν μέσω πειραματικής διαδικασίας ότι ο τρόπος αντιγραφής του DNA είναι ο ημισυντηρητικός. -40-

49 Τα Ένζυμα της Αντιγραφής του DNA Κατά την αντιγραφή του DNA διάφορα ένζυμα βοηθούν στις επιμέρους εργασίες τα κυριότερα είναι [Stryer L. 1997, web.mit.edu]: DNA ελικάσες (Helicase). Σπάζουν τους υδρογονικούς δεσμούς μεταξύ των δύο αλυσίδων. DNA πολυμεράσες (Polymerase). Υπάρχουν τρία είδη DNA πολυμεράσης και θεωρούνται τα κύρια ένζυμα της αντιγραφής του DNA. Οι λειτουργίες τους είναι ποικίλες από η επιμήκυνση της αλυσίδας μέχρι την διόρθωση λαθών που οι ίδιες έχουν κάνει. Πριμάση (Primase). Είναι το κύριο ένζυμο ενός σύμπλοκου ενζύμων που καλείται πριμόσωμα (primosome), το οποίο συνθέτει στις θέσεις έναρξης αντιγραφής μικρά τμήματα RNA συμπληρωματικά προς τις μητρικές αλυσίδες, τα πρωταρχικά τμήματα. DNA δεσμάσες (Ligase). Αναλαμβάνουν να ενώσουν τα ασυνεχή τμήματα DNA των νέων αλυσίδων. Ο Μηχανισμός Αντιγραφής του DNA Για να αρχίσει η αντιγραφή του DNA, οι δύο αλυσίδες του μητρικού μορίου ξετυλίγονται με την βοήθεια της DNA ελικάσης και ταυτόχρονα ειδικές πρωτεΐνες εμποδίζουν τους δύο κλώνους του DNA να ξαναενωθούν. Η DNA πολυμεράση το κύριο ένζυμο της αντιγραφής, αντιγράφει πάντα με κατεύθυνση 5 3. Συνεπώς τη μία αλυσίδα την α- ντιγράφει συνεχώς, ακολουθώντας την πορεία της DNA ελικάσης και την άλλη ασυνεχώς συνθέτοντας μικρά τμήματα DNA κάθε φορά αντίθετα από την πορεία της DNA ελικάσης. Επειδή η DNA πολυμεράση αδυνατεί να ξεκινήσει την αντιγραφή, το πριμόσωμα είναι εκείνο που την βοηθά συνθέτοντας μικρά τμήματα RNA, τα πρωταρχικά τμήματα, τα οποία αργότερα επιμηκύνει η DNA πολυμεράση τοποθετώντας τα κατάλληλα δεσοξυριβονουκλεοτίδια απέναντι από τις μητρικές αλυσίδες. Η ίδια είναι που ε- λέγχει και διορθώνει τυχόν λάθη που έκανε η ίδια τοποθετώντας λάθος δεσοξυριβονουκλεοτίδια κατά παράβαση του κανόνα της συμπληρωματικότητας. Ακόμα η ίδια είναι που αντικαθιστά τα πρωταρχικά τμήματα (RNA) με DNA. Τελικά τα διάφορα μέρη της ασυνεχούς αλυσίδας συνδέονται με το ένζυμο DNA δεσμάση. Το ίδιο ένζυμο -41-

50 συνδέει και όλα τα τμήματα που προκύπτουν απ τις διαφορές θέσεις έναρξης αντιγραφής Μεταγραφή Μεταγραφή (transcription) είναι η διαδικασία σύνθεσης RNA με καλούπι ένα γονίδιο του DNA. Η μεταγραφή καταλύεται από ένα μόνο ένζυμο, την RNA πολυμεράση, το οποίο εκτελεί όλες τις βασικές λειτουργίες της μεταγραφής. Το DNA περιέχει κωδικοποιημένη την γενετική πληροφορία στην αλληλουχία των βάσεων της μίας αλυσίδας η οποία ονομάζεται κωδική. Το γονίδιο αυτό είναι ένα τμήμα του DNA που περιλαμβάνει την κωδικοποιούσα περιοχή, την αλληλουχία λήξης όπου τελειώνει, και τον υποκινητή (promoter) από όπου αρχίζει η μεταγραφή. Ο Μηχανισμός Μεταγραφής DNA Κατά την έναρξη της μεταγραφής ενός γονιδίου, το ένζυμο RNA πολυμεράση προσδένεται στον υποκινητή, με τη βοήθεια πρωτεϊνών που ονομάζονται μεταγραφικοί παράγοντες, και προκαλεί τοπικό ξετύλιγμα της διπλής έλικας. Καθώς κινείται κατά μήκος του DNA χωρίζει τις δύο αλυσίδες και χρησιμοποιεί τη μη κωδική αλυσίδα ως καλούπι για τη σύνθεση ενός μορίου RNA το οποίο θα είναι ακριβές αντίγραφο της κωδικής α- λυσίδας, δηλαδή του γονιδίου. Η σύνθεση του RNA γίνεται με κατεύθυνση 5 3, ό- πως και η αντιγραφή, και σταματάει στο τέλος του γονιδίου, όπου ειδικές αλληλουχίες επιτρέπουν την απελευθέρωσή του. Ωρίμανση του mrna Το 1977 ανακαλύφθηκε, από δύο ξεχωριστές ερευνητικές ομάδες, του Richard Roberts και του Phillip Sharp, η ύπαρξη περιοχών στα γονίδια που δεν μεταφράζονται σε αμινοξέα, των εσωνίων. Για την εργασία τους αυτή τιμήθηκαν το 1993 με το βραβείο Nobel. Ανακάλυψαν δηλαδή ότι οι αλληλουχίες που μεταφράζονται σε αμινοξέα, και ονομάζονται εξώνια (exon), διακόπτονται από άλλες που δεν μεταφράζονται και λέγονται εσώνια (intron). Η διαδικασία ωρίμανσης του mrna είναι ουσιαστικά η διαδικασία απομάκρυνσης των εσωνίων. Η εικόνα 3.14 δείχνει ένα γονίδιο με εσώνια και εξώνια καθώς και την μεταγραφή και μετάφραση ενός τέτοιου γονιδίου. -42-

51 Εικόνα 3.14: Εξώνια και Εσώνια Όταν ένα γονίδιο μεταγράφεται, δημιουργείται το πρόδρομο mrna που περιέχει και εσώνια και εξώνια. Την διαδικασία της ωρίμανσης την αναλαμβάνουν ριβονουκλεοπρωτεϊνικά σωματίδια που αποτελούνται από snrna και πρωτεΐνες και λειτουργούν ως ένζυμα: κόβουν τα εσώνια και συρράπτουν τα εξώνια μεταξύ τους. Έτσι σχηματίζεται το ώριμο mrna. Παρόλο που αυτό αποτελείται αποκλειστικά από εξώνια, έχει δύο περιοχές που δεν μεταφράζονται. Μια στο 5 άκρο και μια στο 3 άκρο. Οι περιοχές αυτές ονομάζονται 3 και 5 αμετάφραστες περιοχές αντίστοιχα. -43-

52 3.4.3 Μετάφραση Μετάφραση είναι η διαδικασία με την οποία η πληροφορία που περιέχεται στο mrna χρησιμοποιείται για την σύνθεση της πολυπεπτιδικής αλυσίδας μιας πρωτεΐνης. Η μετάφραση γίνεται στα ριβοσώματα με την βοήθεια των μεταφορικών RNA (trna) και την συμμετοχή αρκετών πρωτεϊνών και ενέργειας. Όπως γίνεται φανερό από την ονομασία, η διαδικασία της μετάφρασης είναι ουσιαστικά η μετάφραση από την γλώσσα των βάσεων στην γλώσσα των αμινοξέων. Η μετάφραση αυτή γίνεται με βάση κάποιον κώδικα που ονομάζεται γενετικός κώδικας (genetic code). Γενετικός Κώδικας Όπως προαναφέρθηκε η αλληλουχία των βάσεων καθορίζει την αλληλουχία των αμινοξέων στην πολυπεπτιδική αλυσίδα σύμφωνα με τον γενετικό κώδικα (εικόνα 3.15). Τα κύρια χαρακτηριστικά του γενετικού κώδικα είναι τα εξής [Αλεπόρου-Μαρίνου Β. 2003]: Ο γενετικός κώδικας είναι κώδικας τριπλέτας δηλαδή μια τριάδα νουκλεοτιδίων, το κωδικόνιο, κωδικοποιεί ένα αμινοξύ. Ο γενετικός κώδικας είναι συνεχής, δηλαδή το mrna διαβάζεται συνεχώς ανά τρία νουκλεοτίδια χωρίς να παραλείπεται κάποιο. Ο γενετικός κώδικας είναι μη επικαλυπτόμενος, δηλαδή κάθε νουκλεοτίδιο α- νήκει σε ένα μόνο κωδικόνιο. Ο γενετικός κώδικας είναι σχεδόν καθολικός. Όλοι οι οργανισμοί έχουν τον ίδιο γενετικό κώδικα. Ο γενετικός κώδικας χαρακτηρίζεται ως εκφυλισμένος (degenerate). Με εξαίρεση δύο αμινοξέα (μεθειονίνη και τρυπτοφάνη) τα υπόλοιπα 18 κωδικοποιούνται από δυο μέχρι και έξι διαφορετικά κωδικόνια. Τα κωδικόνια που κωδικοποιούν το ίδιο αμινοξύ ονομάζονται συνώνυμα. Ο γενετικός κώδικας έχει ένα κωδικόνιο έναρξης (AUG) που κωδικοποιεί το α- μινοξύ μεθειονίνη, και τρία κωδικόνια λήξης (UAG, UGA, UAA). Η παρουσία των κωδικονίων αυτών στο μόριο του mrna οδηγεί στον τερματισμό της σύνθεσης της πολυπεπτιδικής αλυσίδας. -44-

53 Εικόνα 3.15: Ο Γενετικός Κώδικας Ο Μηχανισμός Μετάφρασης του mrna Η πολυπεπτιδική αλυσίδα αρχίζει να συντίθεται όταν ένα ριβόσωμα συνδεθεί στο mrna. Κάθε ριβόσωμα αποτελείται από μία μεγάλη και μία μικρή υπομονάδα. Η μεγάλη υπομονάδα έχει δύο θέσεις εισδοχής για τα μόρια trna που μεταφέρουν τα αμινοξέα τα οποία θα προστεθούν στην πολυπεπτιδική αλυσίδα. Το trna διαθέτει επίσης και ένα αντικωδικόνιο, δηλαδή μια τριπλέτα βάσεων που είναι συμπληρωματική με το κωδικόνιο του mrna που αντιστοιχεί στο μεταφερόμενο αμινοξύ σύμφωνα πάντα με τον γενετικό κώδικα. Κατά την έναρξη της μετάφρασης το mrna προσδένεται, μέσω μιας αλληλουχίας που υπάρχει στην 5 αμετάφραστη περιοχή του, με το ριβοσωμικό RNA (rrna) της μικρής υπομονάδας του ριβοσώματος σύμφωνα με τον κανόνα συμπληρωματικότητας των βάσεων. Το πρώτο κωδικόνιο του mrna είναι πάντα το AUG. Το trna με το αντικωδικόνιο UAC και μεταφερόμενο αμινοξύ την μεθειονίνη, αναγνωρίζει το κωδικόνιο AUG και συνδέεται σε αυτό και παράλληλα βρίσκεται στην μία από τις δύο θέσεις εισδοχής της μεγάλης υπομονάδας. Η δεύτερη θέση είναι ελεύθερη για το δεύτερο trna με αντικωδικόνιο συμπληρωματικό ως προς την δεύτερη τριπλέτα του mrna. Η μεθειονίνη συνδέεται με πεπτιδικό δεσμό με το δεύτερο αμινοξύ και επομένως το πρώτο trna ελευθερώνεται και μαζί με αυτό και η θέση εισδοχής που καταλάμβανε. Το ριβόσωμα μετακινείται κατά μήκος του mrna κατά ένα κωδι- -45-

54 κόνιο και ένα τρίτο trna έρχεται να προσδεθεί μεταφέροντας το αμινοξύ του. Έτσι συνεχίζεται η επιμήκυνση της πολυπεπτιδικής αλυσίδας η οποία σταματά σε ένα από τα κωδικόνια λήξης (UAG, UGA, UAA) επειδή δεν υπάρχουν trna που να αντιστοιχούν σε αυτά. Το τελευταίο trna απομακρύνεται και η πολυπεπτιδική αλυσίδα απελευθερώνεται. 3.5 Μεταλλάξεις Το γενετικό υλικό μπορεί να υποστεί αλλαγές με πολλούς και διαφορετικούς τρόπους. Οι αλλαγές αυτές στην αλληλουχία του DNA ονομάζονται μεταλλάξεις (mutation) που συνήθως δημιουργούν διαφορετικό φαινότυπο χωρίς όμως αυτό να είναι απαραίτητο. Η αλλαγή ή όχι του φαινοτύπου εξαρτάται από τον τρόπο που η μετάλλαξη επιδρά πάνω στο γονιδιακό προϊόν, την πρωτεΐνη. Οι γενετιστές κατατάσσουν τις μεταλλάξεις σε δύο μεγάλες κατηγορίες: τις γονιδιακές (genetic) και τις χρωμοσωμικές (chromosomal). Όπως θα δούμε παρακάτω ο διαχωρισμός αυτός σχετίζεται με την έκταση της αλλαγής. Οι μεταλλάξεις συμβάλουν στην δημιουργία γενετικής ποικιλότητας στον οργανισμό ευθύνονται για πολλές περιπτώσεις καρκίνου ακόμα και για πολλές κληρονομικές ασθένειες καθώς μόνο οι μεταλλάξεις των γενετικών κυττάρων μπορούν να μεταβιβαστούν από γενιά σε γενιά [Custer, 2004]. Γονιδιακές Μεταλλάξεις Οι γονιδιακές μεταλλάξεις είναι δύο ειδών σημειακές (point) και προσθήκες ή διαγραφές (insertions or deletions). Όπως γίνεται φανερό από τα ονόματα, ο διαχωρισμός γίνεται από τον τρόπο αλλαγής της σειράς των νουκλεοτιδίων. Οι σημειακές (point) μεταλλάξεις οφείλονται στην αντικατάσταση μιας μόνο νουκλεοτιδικής βάσης από μια άλλη. Στις περισσότερες σημειακές μεταλλάξεις δημιουργείται μία τριπλέτα που κωδικοποιεί ένα διαφορετικό αμινοξύ και επομένως αλλαγή της πρωτεΐνης που θα παραχθεί. Τα αποτελέσματα ποικίλουν ανάλογα με την αλλαγή που θα υποστεί η πρωτεΐνη. Μια ακόμα περίπτωση είναι η τριπλέτα που θα δημιουργηθεί να κωδικοποιεί το ίδιο αμινοξύ με την μη μεταλλαγμένη τριπλέτα λόγω εκφυλισμού του γενετικού κώδικα. Τέλος σε άλλες μεταλλάξεις το κωδικόνιο μπορεί να μετατραπεί σε κωδικόνιο λήξης με αποτέ- -46-

55 λεσμα τον τερματισμό σύνθεσης της πολυπεπτιδικής αλυσίδας. Στις περισσότερες από αυτές τις περιπτώσεις καταστρέφεται η λειτουργικότητα της πρωτεΐνης. Οι προσθήκες (insertions) ή διαγραφές (deletions) βάσεων είναι μια άλλη κατηγορία μεταλλάξεων. Αν ο αριθμός των συνεχόμενων βάσεων που προστίθενται είναι πολλαπλάσιος του τρία, τότε υπάρχουν δύο δυνατές περιπτώσεις. Είτε δε θα συμβεί καμιά αλλαγή στην τελική πρωτεΐνη, αν οι πλεονάζουσες τριάδες α- φαιρεθούν κατά τη διάρκεια απομάκρυνσης των εσωνίων, είτε θα προστεθούν στην πολυπεπτιδική αλυσίδα τόσα αμινοξέα όσες είναι και οι τριάδες των πρόσθετων βάσεων. Στην περίπτωση της έλλειψης ενός πολλαπλάσιου του τρία α- ριθμού βάσεων θα απουσιάζουν από την πολυνουκλεοτιδική αλυσίδα τόσα αμινοξέα όσες είναι και οι τριάδες των βάσεων που λείπουν. Αν ο αριθμός των βάσεων δεν είναι πολλαπλάσιος του τρία, τότε η αλληλουχία των αμινοξέων θα είναι πολύ διαφορετική από την αρχική. Χρωμοσωμικές Ανωμαλίες Οι χρωμοσωμικές ανωμαλίες (chromosomal mutations) είναι μεγάλες σε έκταση αλλαγές που περιλαμβάνουν τμήματα χρωμοσωμάτων ή ακόμη και ολόκληρα χρωμοσώματα. Οι αλλαγές στον αριθμό των χρωμοσωμάτων καλούνται αριθμητικές χρωμοσωμικές ανωμαλίες, ενώ οι αλλαγές στη δομή αποτελούν τις δομικές χρωμοσωμικές ανωμαλίες. Οι αλλαγές αυτές έχουν συνήθως ως αποτέλεσμα την τροποποίηση του φαινοτύπου του ατόμου. Ανάλογα με τον τύπο της αλλαγής διακρίνονται διάφορα είδη δομικών χρωμοσωμικών ανωμαλιών [Αλεπόρου-Μαρίνου Β. 2003]: H έλλειψη (deletion) οφείλεται στην απουσία ενός χρωμοσωμικού τμήματος. Ο διπλασιασμός (duplication) είναι η επανάληψη ενός χρωμοσωμικού τμήματος στο χρωμόσωμα. Αναστροφή (inversion) προκαλείται από θραύσεις του χρωμοσώματος σε δύο σημεία και επανένωση του τμήματος ύστερα από αναστροφή. Αποτέλεσμα της αναστροφής είναι η αλλαγή της διάταξης των γονιδίων στο χρωμόσωμα. Η μετατόπιση (translocation) είναι το αποτέλεσμα της θραύσης ενός τμήματος του χρωμοσώματος και στη συνέχεια ένωσής του σε άλλο διαφορετικό χρωμόσωμα. Κατά την αμοιβαία μετατόπιση υπάρχει ανταλλαγή χρωμοσωμικών τμημάτων ανάμεσα σε διαφορετικά χρωμοσώματα -47-

56 3.6 Η Αποκρυπτογράφηση του Ανθρώπινου Γονιδιώματος Ένα από τα σημαντικότερα επιτεύγματα της μοριακής βιολογίας είναι η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος. Η προσπάθεια αυτή ήταν γνωστή ως human genome project (HGP). Ήταν μια προσπάθεια συντονισμένη από το U.S Department of Energy και το National Institute of Health. Ο αρχικός προγραμματισμός του έργου ήταν η περάτωση του σε 15 χρόνια. Παρόλα αυτά η ραγδαία ανάπτυξη της επιστήμης των υπολογιστών έκανε εφικτή την περάτωσή του σε 13 χρόνια. Οι στόχοι που είχαν τεθεί εξαρχής ήταν [Human Genome Project Information]: Να αναγνωριστούν όλα τα γονίδια στο ανθρώπινο DNA Να καθοριστεί η ακολουθία των τριών δισεκατομμυρίων βάσεων που αποτελούν το ανθρώπινο DNA. Να αποθηκευτούν οι πληροφορίες αυτές σε βάσεις δεδομένων. Να αναπτυχθούν εργαλεία για ανάλυση δεδομένων Να μεταφερθούν παρόμοιες τεχνολογίες στον ιδιωτικό τομέα. Να οριοθετηθούν τα ηθικά, νομικά και κοινωνικά (ethical, legal, social issues- ELSI) ζητήματα που προκύπτουν από το πρόγραμμα. Παρακάτω θα αναφερθούν συνοπτικά τα κυριότερα σημεία που οδήγησαν στην αποκρυπτογράφηση του ανθρώπινου γονιδιώματος [Lesk, 2002]: 1953 Πρόταση δομής του DNA από τους Watson-Crick 1975 Ο F.Sanger και ανεξάρτητα οι A.Maxam και W.Gilbert αναπτύσσουν μεθόδους καθορισμού αλληλουχιών DNA Αποκρυπτογραφείται το γονιδίωμα του Βακτηριοφάγου ΦΧ Αποκρυπτογραφείται το DNA των μιτοχονδρίων του ανθρώπου: ζεύγη βάσεων Εκκίνηση του Human Genome Project 1992 Ολοκλήρωση ενός πρόχειρου χάρτη του ανθρώπινου γονιδιώματος Πρώτη αποκρυπτογράφηση βακτηριακού γονιδιώματος Haemophilus influenzae. -48-

57 1999 Ανακοινώνεται η ακολουθία του πρώτου αποκρυπτογραφημένου ανθρώπινου χρωμοσώματος Ολοκλήρωση της αποκρυπτογράφησης του ανθρώπινου γονιδιώματος. 3.7 Προκλήσεις Μοριακής Βιολογίας Στις παραγράφους που προηγήθηκαν ασχοληθήκαμε με ζητήματα όπως η δομή και οι λειτουργίες του κύτταρου, του DNA, του RNA, των γονιδίων καθώς και το κεντρικό δόγμα της μοριακής βιολογίας. Όλες οι παραπάνω θεωρίες αρχικά προτάθηκαν, έπειτα υπέστησαν πολλαπλές πειραματικές επαληθεύσεις και μετά γίναν αποδεκτές. Παρόλα αυτά, νέα ευρήματα της μοριακής βιολογίας κατάφεραν κατά καιρούς να εμπλουτίσουν τις υπάρχουσες αποδεκτές θεωρίες, όπως για παράδειγμα το κεντρικό δόγμα της μοριακής βιολογίας, το οποίο αντικαταστάθηκε από το σύγχρονο κεντρικό δόγμα της μοριακής βιολογίας μετά την ανακάλυψη των RNA ιών. Πρόσφατες έρευνες έχουν δείξει ότι η πληροφορία κατανέμεται στα χρωμοσώματα πολύ πιο περίπλοκα από όσο πιστεύεται. Πιο συγκεκριμένα ότι ο ρόλος του RNA ξεπερνάει κατά πολύ τον ρόλο που του έχει αποδοθεί μέχρι σήμερα ως παθητικός μεταφορέας της πληροφορίας κατά την μεταγραφή και την μετάφραση. Έτσι οι έρευνες έ- χουν στραφεί στον τρόπο που τελικά λειτουργεί το γονίδιο [Davis M. 2007, Rassoulzadegan Μ. et al 2006, Pearson H. 2006, Rakyan V. Beck S. 2006] Για την κλασσική Μεντελική Γενετική το γονίδιο ήταν μια αφηρημένη έννοια- η μονάδα κληρονομικότητας που μετέφερε ένα χαρακτηριστικό από το γονέα στο παιδί. Με την συνδρομή της βιοχημείας τα χαρακτηριστικά αυτά συνδέθηκαν με ένζυμα και πρωτεΐνες. Με την ανάπτυξη της μοριακής βιολογίας τα γονίδια απέκτησαν μια πραγματική υπόσταση- αλληλουχίες DNA που όταν μεταγράφονται σε αλληλουχίες αγγελιαφόρου RNA (mrna) μπορούν, να οδηγήσουν στην βιοσύνθεση μιας πρωτεΐνης. Τα τελευταία χρόνια ορισμένοι επιστήμονες θεωρούν την παραπάνω απεικόνιση απαρχαιωμένη. Οι νέες θεωρίες θέλουν το RNA ως ενεργό ρυθμιστή των κυτταρικών διεργασιών. Σε κάποιες περιπτώσεις φαίνεται ότι το mrna μπορεί να μεταβιβάσει την γενετική πληροφορία και στις επόμενες γενιές. Μιλάμε λοιπόν για επιγενετική κληρονομικότητα. Πιο συγκεκριμένα ο Minoo Rassoulzadegan και οι συνεργάτες του στην εργασία τους RNA mediated non-mendelian inheritance of an epigenetic change in the mouse -49-

58 το 2006 βρήκαν ασυνήθιστες γονιδιακές λειτουργίες μελετώντας το γονίδιο kit στο ποντίκι. Η ομάδα στην προσπάθεια να εξηγηθούν οι λειτουργίες αυτές, πρότεινε ότι μικρά ασυνήθιστα (aberrant) μεταλλαγμένα μόρια RNA (sirna, mirna) μεταβιβάζονται στις επόμενες γενιές μέσω των γεννητικών κυττάρων των γονέων και παρεμποδίζουν την σωστή λειτουργία των κανονικών mrna που προκύπτουν από το κανονικό γονίδιο των απογόνων. Ο ρόλος του RNA στην μεταβίβαση της πληροφορίας είναι ακόμα ασαφής. Ένα ακόμα παράδειγμα είναι ότι όλο και περισσότεροι ερευνητές ανακαλύπτουν ότι υπάρχουν στα κύτταρα μόρια RNA που έχουν προκύψει από τη μεταγραφή περιοχών DNA πολύ απομακρυσμένων μεταξύ τους ακόμα και διαφορετικών χρωμοσωμάτων. Παρόλα τα άλματα που έχει κάνει η μοριακή βιολογία τα τελευταία 50 χρόνια, αναμένονται στο εγγύς μέλλον ανακαλύψεις που θα ανατρέψουν πολλές από τις υπάρχουσες θεωρίες και θα περιπλέξουν έννοιες και διεργασίες που μέχρι πρότινος ήταν α- πλές. -50-

59 4 Βιοπληροφορική Η αλματώδης ανάπτυξη της πληροφορικής και γενικότερα του πεδίου της επιστήμης των υπολογιστών έκανε φανερό στην επιστημονική κοινότητα ότι οι δυνατότητές της μπορούν να αξιοποιηθούν αποτελεσματικά και αποδοτικά από άλλες επιστήμες, όπως η βιολογία. Πιο ειδικά, τα τελευταία επιτεύγματα της μοριακής βιολογίας οδήγησαν σε μεγάλη συσσώρευση βιολογικών δεδομένων, όπου η χρήση των υπολογιστών κρίθηκε απαραίτητη για την αποτελεσματική και αποδοτική διαχείριση τους. Αυτή είναι μια πρώτη ιδέα του όρου Βιοπληροφορική (Bioinformatics). Μια επιστημονική περιοχή, κράμα της επιστήμης της βιολογίας και των υπολογιστών. Στις παραγράφους που ακολουθούν θα δοθεί μια γενικότερη περιγραφή του επιστημονικού αυτού πεδίου, των μέχρι σήμερα επιτευγμάτων του καθώς και των στόχων που έχει θέσει ως νέα επιστημονική περιοχή. 4.1 Ορισμός Βιοπληροφορικής Όπως προαναφέρθηκε στο εισαγωγικό σημείωμα ο όρος βιοπληροφορική χρησιμοποιείται για γενικότερη αναφορά στο επιστημονικό πεδίο που αναμιγνύει την επιστήμη της βιολογίας και της πληροφορικής. Το μεγάλο ενδιαφέρον που έδειξε η επιστημονική κοινότητα για την περιοχή αυτή, οδήγησε από πολύ νωρίς στην ανάπτυξη κλάδων με κάποιο βαθμό εξειδίκευσης. Πιο συγκεκριμένα, δύο από τις πιο σημαντικές περιοχές του νέου αυτού κλάδου είναι η Βιοπληροφορική (Bioinformatics) και η Υπολογιστική Βιολογία (Computational Biology). Η Βιοπληροφορική ασχολείται με την ανάπτυξη και εφαρμογή εργαλειών για την διαχείριση Βιολογικών δεδομένων. Ο όρος διαχείριση περιλαμβάνει την αποθήκευση, οργάνωση, ανάλυση ακόμα και την οπτικοποίηση των δεδομένων αυτών. Η υπολογιστική βιολογία ασχολείται με την ανάπτυξη και εφαρμογή μαθηματικών και πληροφοριακών θεωριών για την μελέτη βιολογικών συστημάτων και την προσέγγιση ή ακόμα και απάντηση θεμελιωδών θεωρητικών και πειραματικών -51-

60 προβλημάτων της επιστήμης της βιολογίας. Αν και σαφώς διαχωρισμένα εννοιολογικά τα παραπάνω πεδία, πρακτικά στον τομέα της έρευνας, υπάρχει σε μεγάλο βαθμό αλληλοεπικάλυψη. Το γεγονός αυτό έχει ως αποτέλεσμα την χρησιμοποίηση των όρων αυτών εναλλακτικά για την ονομασία του νέου αυτού επιστημονικού κλάδου. 4.2 Στόχοι Βιοπληροφορικής Η μεγαλύτερη πρόκληση που αντιμετωπίζει η βιολογία στις μέρες μας, είναι η πλήρης κατανόηση και εκμετάλλευση της γνώσης που υπάρχει μέσα στην πληθώρα των δεδομένων που έχουν προκύψει από την έρευνα πάνω στις ακολουθίες του γονιδιώματος. Αυτή η πρόκληση κατευθύνει εν μέρει και τους τρέχοντες στόχους της βιοπληροφορικής: Καταρχήν η οργάνωση των δεδομένων αυτών με κατάλληλο τρόπο ώστε να είναι προσπελάσιμα από τους ερευνητές για επεξεργασία ή για εισαγωγή νέων δεδομένων. Η ανάπτυξη και χρήση εργαλειών για την ανάλυση των δεδομένων αυτών καθώς και την ερμηνεία των αποτελεσμάτων που θα προκύψουν από την ανάλυση αυτή ώστε να υπάρξει βιολογικά σημαντική γνώση. Γενικότερα, εφόσον η βιοπληροφορική είναι ένα πεδίο που γεννήθηκε από την αναγκαιότητα χρήσης μεθόδων πληροφορικής στην επιστήμη της βιολογίας, οι στόχοι της θα οριοθετούνται και θα κατευθύνονται πάντα από τον απόλυτο στόχο της βιολογίας που είναι η πλήρης κατανόηση της βιολογίας των οργανισμών. 4.3 Ερευνητικές Περιοχές Βιοπληροφορικής Στην παρούσα παράγραφο θα παρουσιαστούν οι πιο σημαντικές ερευνητικές περιοχές της βιοπληροφορικής [2can] Ανάλυση Αλληλουχιών Ο Βακτηριοφάγος Phi-X174 ήταν ο πρώτος οργανισμός του οποίου χαρτογραφήθηκε το γονιδίωμα. Από τότε μέχρι σήμερα έχει χαρτογραφηθεί και αποθηκευτεί σε βάσεις δεδομένων το γονιδίωμα εκατοντάδων οργανισμών. Τα δεδομένα αυτά από τις βάσεις -52-

61 αναλύονται με κατάλληλο λογισμικό με σκοπό να προκύψει χρήσιμη πληροφορία. Τέτοια πληροφορία μπορεί να είναι ο καθορισμός των γονιδίων που κωδικοποιούν πρωτεΐνες ή και ρυθμιστικές ακολουθίες, δηλαδή υποκινητές και κωδικόνια έναρξης και λήξης. Ακόμα μια πολύ σημαντική εφαρμογή της ανάλυσης αλληλουχιών είναι η εύρεση των γονιδίων μέσα στις αλληλουχίες DNA (Genome Annotation). Το μεγαλύτερο μέρος του γονιδιώματος των ανώτερων οργανισμών είναι άχρηστο DNA (Junk DNA). Το ποσοστό αυτό στον άνθρωπο προσδιορίζεται γύρω στο 97% και αποτελείται από εσώνια και άλλο γενετικό υλικό που πιστεύεται ότι έπαιξε ρόλο κατά την εξέλιξη του ανθρώπου αλλά δεν έχει ανακαλυφθεί κάποιος ουσιαστικός ρόλος στην λειτουργία του σήμερα. Το πρώτο σύστημα εύρεσης γονιδίων (Genome Αnnotation Software System) σχεδιάστηκε το 1995 από τον Owen White. Το σύστημα του Dr. White έβρισκε τα γονίδια και το μεταφορικό RNA (trna). Παρόλο που τα περισσότερα συστήματα έχουν βελτιωθεί σημαντικά, οι βασικές αρχές πάνω στις οποίες δουλεύουν, παραμένουν ίδιες με το σύστημα του Dr.White Συγκριτική Γενωμική Η συγκριτική γενωμική ασχολείται με την σύγκριση αλληλουχιών γονιδιώματος διαφορετικών οργανισμών, με σκοπό την εύρεση βαθύτερων εξελικτικών σχέσεων μεταξύ τους. Για παράδειγμα έχει βρεθεί ότι η διαφορά στο γονιδίωμα μεταξύ ανθρώπου και ποντικού είναι μόλις μεταξύ του 5% και 15%. Άμεσο όφελος της ανακάλυψης αυτής είναι να χρησιμοποιούνται ποντίκια για ιατρικές έρευνες που αφορούν ανθρώπους Μέτρηση Επιπέδων Γονιδιακής Έκφρασης Υπάρχουν πολλές μέθοδοι μέτρησης των επιπέδων γονιδιακής έκφρασης. Οι δύο πιο σημαντικές είναι οι μικροσυστοιχίες και η τεχνική SAGE. Οι μικροσυστοιχίες χρησιμοποιούν τις αλληλουχίες που έχουν προκύψει από τα προγράμματα χαρτογράφησης γονιδιωμάτων και άλλες εργασίες εύρεσης αλληλουχιών DNA για να δώσουν απάντηση στο ερώτημα: Τι γονίδια εκφράζονται σε κάποιο συγκεκριμένο τύπο κυττάρου ενός οργανισμού, σε συγκεκριμένη χρονική στιγμή και κάτω από συγκεκριμένες συνθήκες. Η τεχνική SAGE είναι μια μέθοδος που επινοήθηκε στο πανεπιστήμιο John Hopkins στην Βαλτιμόρη των Η.Π.Α. με σκοπό να δώσει στους επιστήμονές την -53-

62 δυνατότητα εποπτικής παρακολούθησης του συνόλου της γονιδιακής δραστηριότητας ενός κυττάρου Πρωτεωμική Πρωτεωμική (Proteomics) είναι η ευρείας κλίμακας μελέτη των πρωτεϊνών και ιδιαιτέρως της δομής και της λειτουργίας τους. Η κυριότερη πρόκληση που αντιμετωπίζει η Βιοπληροφορική στον τομέα της πρωτεωμικής είναι η εύρεση της τρισδιάστατης δομής των πρωτεϊνών από τις αλληλουχίες των αμινοξέων. Η εύρεση αυτής της δομής πιστεύεται ότι θα βοηθήσει στην βαθύτερη κατανόηση των λειτουργιών της πρωτεΐνης στους οργανισμούς Υπολογιστική Εξελικτική Βιολογία Εξελικτική Βιολογία είναι ο τομέας της επιστήμης της Βιολογίας ο οποίος μελετά την καταγωγή και την προέλευση των ειδών. Η πληροφορική βοήθησε τον κλάδο αυτό με πολλούς τρόπους, ο σημαντικότερος από τους οποίους είναι η μελέτη της εξέλιξης πολλών ειδών παρακολουθώντας τις αλλαγές στο DNA τους. Ακόμα η πληροφορική πιστεύεται ότι θα βοηθήσει τον κλάδο αυτό στην ταχύτερη κατασκευή του δέντρου της εξέλιξης (Tree of Life). Το Δέντρο εξέλιξης είναι ένα διάγραμμα που δείχνει τις εξελικτικές σχέσεις μεταξύ διαφόρων ειδών ή άλλες οντότητες που πιστεύεται ότι έχουν κοινό πρόγονο. 4.4 Βιολογικές Τράπεζες Δεδομένων Η κύρια πηγή υλικού για τις έρευνες στον τομέα της βιοπληροφορικής είναι οι βιολογικές τράπεζες δεδομένων (Databanks) ή αλλιώς βιολογικές βάσεις δεδομένων οι οποίες περιέχουν δεδομένα από διάφορες περιοχές της μοριακής βιολογίας. Τέτοια δεδομένα μπορούν να είναι δομές πρωτεϊνών, δεδομένα γονιδιακής έκφρασης και γενικότερα ο- ποιαδήποτε σημαντικά δεδομένα προκύπτουν από τις μεγάλης έκτασης έρευνες και εργασίες στον τομέα της Μοριακής Βιολογίας. Οι τράπεζες δεδομένων μπορούν να ταξινομηθούν σε δύο κύριες κατηγορίες α- νάλογα με τις πηγές από τις οποίες προέρχονται τα δεδομένα που περιέχουν. Ταξινομούνται λοιπόν σε: -54-

63 Πρωτοταγείς τράπεζες δεδομένων οι οποίες περιέχουν ένα μόνο είδος πληροφορίας. Αυτό το είδος μπορεί να είναι αλληλουχίες DNA, πληροφορίες για την δομή του DNA ή και αντίστοιχα δεδομένα (αλληλουχίες και δομή) για πρωτεΐνες. Τα δεδομένα αυτά μπορούν να προέρχονται από μεγάλα ερευνητικά προγράμματα, βιβλιογραφία ή και ακόμα από άλλες τράπεζες δεδομένων. Οι πιο γνωστές πρωτοταγείς τράπεζες δεδομένων είναι οι νουκλεϊκές EMBL στην Ευρώπη και GenBank στην Αμερική. Δευτεροταγείς βάσεις δεδομένων οι οποίες περιέχουν και αυτές μόνο ένα είδος δεδομένων. Τα δεδομένα αυτά είναι αποτελέσματα που έχουν προκύψει από α- νάλυση δεδομένων πρωτοταγών τραπεζών δεδομένων και περιλαμβάνουν γνώση για μοτίβα ή πρότυπα, μεταλλάξεις ακόμα και εξελικτικές σχέσεις μεταξύ διαφόρων οργανισμών. Παραδείγματα δευτεροταγών βάσεων δεδομένων είναι η βάση δεδομένων μοτίβων BLOCKS που προέρχεται από την PROSITE και η PRINTS που προέρχεται από την OWL. Σήμερα υπάρχουν πάρα πολλές βάσεις δεδομένων για οποιοδήποτε πεδίο έρευνας της βιοπληροφορικής. Θα ήταν εξαιρετικά δύσκολο να απαριθμηθούν εδώ. Η πιο ολοκληρωμένη λίστα βιολογικών βάσεων δεδομένων δημιουργήθηκε και παραμένει ενημερωμένη, από την Σουηδική ομάδα Βιοπληροφορικής ExPASy (EXpert Protein Analysis System) και είναι διαθέσιμη στον δικτυακό της τόπο: Εργαλεία Βιοπληροφορικής Τα εργαλεία βιοπληροφορικής είναι προγράμματα λογισμικού σχεδιασμένα για την ε- ξαγωγή γνώσης από τις βιολογικές βάσεις δεδομένων. Τα πρώτα εργαλεία βιοπληροφορικής ήταν γραμμένα σε C ή C++ και γλώσσες scripting όπως η Python ή η Perl χρησιμοποιούνταν ως μέσο αλληλεπίδρασης των προγραμμάτων με τις τράπεζες δεδομένων. Σήμερα χρησιμοποιούνται και άλλες γλώσσες, όπως η JAVA, για την ανάπτυξη λογισμικού. Ακόμα οι επιστήμονες της Βιοπληροφορικής έχουν θεσπίσει προγράμματα α- νοιχτού κώδικα (EMBOSS, BioPerl, BioJava), για περαιτέρω ανάπτυξη και βελτίωση των προγραμμάτων που παράγονται. -55-

64 4.5.1 Κατηγορίες Εργαλείων Βιοπληροφορικής Τα εργαλεία βιοπληροφορικής ταξινομούνται στις παρακάτω κατηγορίες: Εργαλεία ομολογίας (homology) και ομοιότητας (similarity). Στην κατηγορία αυτή ανήκουν εργαλεία που χρησιμοποιούνται για την αναγνώριση ομοιοτήτων μεταξύ νέων αλληλουχιών και άγνωστης δομής και λειτουργίας και αλληλουχιών με γνωστή δομή και λειτουργία. Εργαλεία ανάλυσης της λειτουργίας των πρωτεϊνών. Τα εργαλεία αυτής της κατηγορίας επιτρέπουν την σύγκριση πρωτεϊνικών αλληλουχιών με πληροφορίες που περιέχονται σε δευτεροταγείς κυρίως τράπεζες δεδομένων. Η βιοχημική λειτουργία της άγνωστης πρωτεΐνης προσεγγίζεται ανάλογα με το ποσοστό της επιτυχίας της αναζήτησης στην βάση αυτή. Εργαλεία ανάλυσης δομών. Η λειτουργία μιας πρωτεΐνης μπορεί να προσδιοριστεί πιο άμεσα από την δυσδιάστατη ή την τρισδιάστατη δομή της παρά από την αλληλουχία των αμινοξέων που την αποτελούν. Με τα εργαλεία της κατηγορίας αυτής δίνεται δυνατότητα σύγκρισης άγνωστων πρωτεϊνικών δομών με γνωστές που βρίσκονται σε τράπεζες δεδομένων. Εργαλεία ανάλυσης αλληλουχιών. Τα εργαλεία αυτά επιτρέπουν την λεπτομερή ανάλυση των βιολογικών αλληλουχιών, όπως για παράδειγμα την εξελικτική ανάλυση και αναγνώριση μεταλλάξεων. Διάφορα εργαλεία. Στην κατηγορία αυτή ανήκουν τα εργαλεία που δεν ανήκουν σε καμία από τις προηγούμενες κατηγορίες. Τέτοια μπορεί να είναι εργαλεία ανάλυσης γονιδιακής έκφρασης Κατάλογος Δημοφιλέστερων Εργαλείων Στην παράγραφο αυτή θα παρουσιαστούν συνοπτικά τα σημαντικότερα, από ιστορική και επιστημονική πλευρά, εργαλεία καθώς και ένας κατάλογος (πίνακας 4.1) με τα δημοφιλέστερα στην επιστημονική κοινότητα. Ο αλγόριθμος BLAST (Basic Local Alignment Search Tool) ανήκει στην κατηγορία των εργαλείων ομολογίας και ομοιότητας. Υλοποιήθηκε από τους Altschul, Gish, Miller και Lipman το Είναι σχεδιασμένος έτσι ώστε να δέχεται ως είσοδο μία πρωτεϊνική ή νουκλεοτιδική αλληλουχία, να την συγκρίνει με τις υπάρχουσες στην τράπεζα δεδομένων και να δίνει ως έξοδο τις αλληλουχίες που παρουσιάζουν την μεγαλύτερη ομοιότητα με την δοθείσα. -56-

65 Εργαλείο Clusters of Orthologous Groups (COGs) GeneQuiz ClustaW SRS (Sequence Retrieval System) ORF finder VAST Search The Cancer Chromosome Aberration Project Expression Profiler Spidey The Cancer Genome Anatomy Project (CGAP) Περιγραφή Ένα COG είναι μια ομάδα πολύ όμοιων πρωτεϊνών που εμφανίζεται τουλάχιστο σε τρία είδη. Η παρουσία ή η απουσία μιας πρωτεΐνης σε διαφορετικά γονιδιώματα μπορεί να πληροφορήσει για την εξέλιξη των οργανισμών, αλλά και να υποδείξει νέους στόχους φαρμάκων. Παρέχει τη δυνατότητα αυτοματοποιημένης ανάλυσης βιολογικών αλληλουχιών. Εργαλείο που χρησιμοποιείται για στοίχιση πρωτεϊνών ή νουκλεοτιδικών αλληλουχιών με σκοπό την αποκάλυψη της συγγένειας και της εξελικτικής τους προέλευσης. Παρέχει τη δυνατότητα αναζήτησης βιολογικών αλληλουχιών και βιβλιογραφίας στις διάφορες βάσεις δεδομένων, που είναι διαθέσιμες στο EBI. Αναγνωρίζει όλα τα πιθανά ORFs σε μια αλληλουχία DNA εντοπίζοντας βασικά και εναλλακτικά κωδικώνια έναρξης και λήξης. Είναι ένα εργαλείο αναζήτησης ομοιοτήτων μεταξύ τρισδιάστατων δομών πρωτεϊνών. Συλλέγει πληροφορίες για χρωμοσωμικές ανωμαλίες που σχετίζονται με διάφορες μορφές καρκίνου. Είναι ένα σύνολο εργαλείων για ομαδοποίηση, ανάλυση και οπτική αναπαράσταση γονιδιακής έκφρασης και άλλων δεδομένων του γονιδιώματος Στοιχίζει μια ή περισσότερες αλληλουχίες mrna με μια γονιδιακή αλληλουχία με σκοπό τον εντοπισμό της δομής εξωνίων-εσωνίων. Δημιουργεί προφίλ καρκινικών κυττάρων συγκρίνοντας γονιδιακές εκφράσεις σε φυσιολογικά, προκαρκινικά και καρκινικά κύτταρα από μια ποικιλία ιστών. Πίνακας 4.1: Εργαλεία Βιοπληροφορικής Ο αλγόριθμος FASTA (FAST All) ανήκει στην πρώτη κατηγορία των εργαλειών. Υλοποιήθηκε από τους Lipman και Pearson το 1985 και βελτιώθηκε από τους ίδιους το Χρησιμοποιήθηκε για συγκρίσεις πρωτεϊνικών ή νουκλεοτιδικών αλληλουχιών και ξεχώρισε για την ταχύτητά του και τα υψηλά επίπεδα ευαισθησίας στις αναζητήσεις του -57-

66 Το EMBOSS (European Molecular Biology Open Software Suite) είναι ένα υ- ψηλής ποιότητας, ανοιχτού κώδικα, πακέτο λογισμικού. Παρέχει ένα σύνολο εφαρμογών που σχετίζονται με την ανάλυση αλληλουχιών σε ένα ολοκληρωμένο περιβάλλον εργασίας Προοπτικές και Εξέλιξη Εργαλείων Βιοπληροφορικής Η πληθώρα των βάσεων δεδομένων με τις ίδιες πληροφορίες οδήγησε σε μία νέα προσέγγιση στον χώρο της ανάπτυξης εργαλειών βιοπληροφορικής, στις μεταμηχανές αναζήτησης. Οι μεταμηχανές αναζήτησης αναπτύχθηκαν ώστε να αναζητούν δεδομένα από πολλές, διαφορετικές τράπεζες δεδομένων με βάση μια λέξη κλειδί ή μια πρωτεϊνική, DNA ή RNA αλληλουχία. Πρόσφατα εφαρμόστηκαν σε πολλές εφαρμογές διαδραστικά περιβάλλοντα με βάση το πρωτόκολλο SOAP (Simple Object Access Protocol) έτσι ώστε να επιτρέπεται σε αυτές η χρησιμοποίηση δεδομένων και αλγορίθμων από απομακρυσμένους servers. Η καινοτομία αυτή οδήγησε στην νέα γενιά εργαλειών βιοπληροφορικής, τις ενοποιημένες πλατφόρμες Βιοπληροφορικής (Integrated Bioinformatics Platform). Τέλος, μία νέα, ενδιαφέρουσα κατεύθυνση στον χώρο ανάπτυξης εργαλειών βιοπληροφορικής δίνεται με την εφαρμογή μεθόδων κβαντικής Φυσικής αντί στατιστικών μεθόδων στα εργαλεία ανακάλυψης γνώσης. 4.6 Εφαρμογές Βιοπληροφορικής Ο κύριος λόγος διάδοσης της βιοπληροφορικής ήταν οι σημαντικές εφαρμογές που έχει στον κόσμο της ιατρικής, της βιομηχανίας και του περιβάλλοντος. Η πιο σημαντική εφαρμογή της βιοπληροφορικής είναι η συμβολή της στην αντιμετώπιση ασθενειών. Όλες οι ασθένειες έχουν γενετικό υπόβαθρο είτε είναι κληρονομικές, είτε προκύπτουν ως απάντηση του οργανισμού στις πιέσεις που δέχεται από το περιβάλλον, για παράδειγμα κάπνισμα- καρκίνος των πνευμόνων ή ανθυγιεινή διατροφή- καρδιοαγγειακές παθήσεις. Αυτές οι πιέσεις δημιουργούν αλλαγές στο γονιδίωμα του ανθρώπου και έχουν ως αποτέλεσμα διάφορες παθήσεις όπως οι προαναφερθείσες. Η ολοκλήρωση της αποκρυπτογράφησης του ανθρώπινου γονιδιώματος, έκανε δυνατή την εύρεση των γονιδίων που σχετίζονται με συγκεκριμένες ασθένειες και συνεπώς την καλύτερη κατανόηση της μοριακής βάσης τους. Η ενδελεχής μελέτη της μοριακής βά- -58-

67 σης των ασθενειών αυτών θα βοηθήσει την ιατρική στην εύρεση καλύτερων θεραπευτικών αγωγών, ακόμα και σε πλήρη ίαση ασθενειών, που μέχρι πρότινος θεωρούνταν α- νίατες. Πιο ειδικά, γίνεται προσπάθεια να παραχθούν φάρμακα τα οποία επιδρούν πάνω στην αιτία της ασθένειας και όχι στα συμπτώματα, με άμεση συνέπεια πιο καλά α- ποτελέσματα στις θεραπείες και λιγότερες παρενέργειες στους ασθενείς. Ακόμα γίνονται προσπάθειες και πιστεύεται πως στο άμεσο μέλλον θα χρησιμοποιούνται γονίδια για την ίαση ασθενειών. Η θεραπεία με γονίδια είναι μια προσέγγιση στην ιατρική που δίνει αποτελέσματα αλλάζοντας την έκφραση των γονιδίων του πάσχοντος. Στις μέρες μας η προσέγγιση αυτή βρίσκεται σε εμβρυϊκό στάδιο και εφαρμόζεται πειραματικά σε πολλούς τύπους καρκίνου. Μια άλλη πολύ σημαντική εφαρμογή της βιοπληροφορικής είναι στην έρευνα του γονιδιώματος των μικροοργανισμών προς όφελος της ιατρικής, της βιομηχανίας και του περιβάλλοντος. Με τα προγράμματα πλήρους αποκρυπτογράφησης γονιδιωμάτων δόθηκε η δυνατότητα βαθύτερης κατανόησης της λειτουργίας των μικροοργανισμών και των αιτιών από τις οποίες προκύπτουν οι ευεργετικές τους ιδιότητες, όπως ανθεκτικότητα σε ακραίες συνθήκες. Για αυτό το λόγο, το 1994 το τμήμα ενέργειας (Department Of Energy- DOE) των Η.Π.Α. ξεκίνησε το πρόγραμμα MGP (Microbial Genome Project) που είχε ως στόχο την αποκρυπτογράφηση των γονιδιωμάτων μικροοργανισμών που βοηθούν στην παραγωγή ενέργειας, στον καθαρισμού του περιβάλλοντος και στην ανακύκλωση τοξικών αποβλήτων. Μελετώντας το γονιδίωμα αυτών των οργανισμών οι επιστήμονες απομονώνουν γονίδια τα οποία τους δίνουν τις μοναδικές ιδιότητες για τις οποίες ξεχωρίζουν. Το πιο χαρακτηριστικό παράδειγμα είναι το βακτήριο Deinococcus Radiodurans. Το βακτήριο αυτό είναι ο πιο ανθεκτικός οργανισμός απέναντι στη ραδιενεργό ακτινοβολία. Σήμερα γίνονται προσπάθειες για εκμετάλλευση του με σκοπό τον καθαρισμό περιοχών που έχουν μολυνθεί με ραδιενεργή ακτινοβολία. 4.7 Σύνοψη Συνοψίζοντας, θα μπορούσε να ειπωθεί ότι η βιοπληροφορική είναι ένας πολλά υποσχόμενος επιστημονικός κλάδος του οποίου η γένεση και η ανάπτυξη ήρθε μέσα από την ανάμιξη δύο επιστημών, της βιολογίας και τις επιστήμης των υπολογιστών, σε μία καίρια, και για τις δύο, χρονική στιγμή. Από την μία η βιολογία βρέθηκε μπροστά στο μεγαλύτερο μέχρι σήμερα επίτευγμά της, την αποκρυπτογράφηση του ανθρώπινου γο- -59-

68 νιδιώματος, και από την άλλη η επιστήμη των υπολογιστών, μετά την τρομακτική έ- κρηξη που γνώρισε στα τέλη της δεκαετίας του ενενήντα, βρέθηκε σε μία φάση αρκετά ώριμη για να εφαρμοστεί επιτυχώς πάνω σε άλλες επιστήμες. Τα μέχρι τώρα αποτελέσματα είναι ικανοποιητικά και επομένως η προοπτική του πεδίου της βιοπληροφορικής ευοίωνη. Με το ανερχόμενο ενδιαφέρον της επιστημονικής κοινότητας πιστεύεται ότι η ανάπτυξη της βιοπληροφορικής τα επόμενα χρόνια θα είναι ταχύτατη και θα καταφέρει σε μεγάλο βαθμό να επιτύχει τους στόχους τους οποίους έχει θέσει εξαρχής αλλά και να επεκταθεί και σε άλλους τομείς, όπου η εφαρμογή της θα έχει ουσιαστικά αποτελέσματα. -60-

69 5 Πολυαδενυλίωση Πολυαδενυλίωση είναι μια μετα-μεταγραφική διαδικασία που έχει σαν στόχο την προστασία του mrna από αποικοδόμηση ώστε αυτό να φτάσει άθικτο στην περιοχή της πρωτεϊνοσύνθεσης, μεταφέροντας έτσι αυτούσια την πληροφορία του DNA. Στις επόμενες παραγράφους θα μελετήσουμε εκτενέστερα την μεταγραφή και θα περιγράψουμε και την διαδικασία της πολυαδενυλίωσης. 5.1 Μεταγραφή Σε προηγούμενο κεφάλαιο έγινε περιγραφή γενικότερα της έκφρασης ενός γονιδίου. Στο πλαίσιο αυτής της περιγραφής μελετήθηκε και ο μηχανισμός της μεταγραφής. Συνοπτικά, η έκφραση ενός γονιδίου γίνεται με την μεταφορά των γενετικών πληροφοριών από το DNA στο RNA και από το RNA σε πρωτεΐνες. Το εκμαγείο για την σύνθεση του RNA είναι ο ένας κλώνος του DNA και η σύνθεση γίνεται από ένζυμα που ο- νομάζονται RNA πολυμεράσες. Ο μηχανισμός με τον οποίο γίνεται η έναρξη, η επιμήκυνση και ο τερματισμός της σύνθεσης του RNA ονομάζεται μεταγραφή. Ωστόσο, ο μηχανισμός της μεταγραφής στα ευκαρυωτικά κύτταρα παρουσιάζει σημαντικές διαφορές με τον αντίστοιχο στα προκαρυωτικά, γεγονός που οφείλεται στην ύπαρξη του πυρήνα και των οργανιδίων μέσα σε αυτόν. Στην παρακάτω υποπαράγραφο γίνεται αναφορά στις ουσιαστικότερες διαφορές που υπάρχουν στη διαδικασία της μεταγραφής μεταξύ των προκαρυωτικών και ευκαρυωτικών κυττάρων Διαφορές μεταξύ Προκαρυωτικών και Ευκαρυωτικών Κυττάρων κατά την Μεταγραφή Κατά την διάρκεια της σύνθεσης του το βακτηριακό mrna είναι προσιτό στα ριβοσώματα και στα άλλα στοιχεία του πρωτεϊνοσυνθετικού μηχανισμού. Έτσι στα βακτήρια η -61-

70 πρωτεϊνοσύνθεση αρχίζει πριν ακόμη ολοκληρωθεί η σύνθεση του mrna αφού η μεταγραφή γίνεται με κατεύθυνση 5 3 και συνεπώς το 5 άκρο του mrna είναι διαθέσιμο για μετάφραση. Τα βακτηριακά mrna δεν τροποποιούνται μετά την σύνθεσή τους και επομένως η μεταγραφή και η μετάφραση είναι συζευγμένες. Στα ευκαρυωτικά η μεταγραφή και η μετάφραση παρουσιάζουν μεγαλύτερη πολυπλοκότητα. Η μεταγραφή γίνεται στον πυρήνα ο οποίος περιέχει ριβοσωμικές πρόδρομες μορφές (στον πυρηνίσκο) αλλά όχι ώριμα ριβοσώματα ικανά για πρωτεϊνοσύνθεση και κατά συνέπεια η μεταγραφή και η μετάφραση δεν είναι συζευγμένες. Επιπλέον, τα πρόδρομα ευκαρυωτικά mrna πριν μεταφερθούν στο κυτόπλασμα για να μεταφραστούν από τα ριβοσώματα, τροποποιούνται στον πυρήνα. Οι τροποποιήσεις αυτές περιλαμβάνουν προσθήκη χημικών ομάδων στα δύο άκρα και σε αρκετές περιπτώσεις αφαίρεση ορισμένων περιοχών και συνένωση των υπολοίπων. Αυτές οι βιοχημικές και δομικές τροποποιήσεις των ευκαρυωτικών mrna είναι από τις πλέον σημαντικές διαφορές που τα ξεχωρίζουν από τα προκαρυωτικά. Τα προκαρυωτικά διαφέρουν από τα ευκαρυωτικά και στην τελική σκοπιμότητα της ρύθμισης της έκφρασης του γενετικού υλικού. Στα βακτήρια η ρύθμιση επιτρέπει την προσαρμογή τους στο περιβάλλον και συνεπώς στην επίτευξη των απώτερων στόχων τους: την ανάπτυξη και τον διπλασιασμό. Αντίθετα, στα ευκαρυωτικά ο πιο χαρακτηριστικός και βιολογικά σημαντικός ρόλος της γονιδιακής ρύθμισης, είναι η ρύθμιση του γενετικού προγραμματισμού που υπαγορεύει την εμβρυολογική ανάπτυξη και την διαφοροποίηση των ιστών Η Μεταγραφή στα Ευκαρυωτικά Η παραγωγή του ευκαρυωτικού mrna περιλαμβάνει επιπρόσθετα στάδια μετά την μεταγραφή. Η μεταγραφή γίνεται με τον συνήθη τρόπο, ξεκινώντας με την δημιουργία ενός μεταγράφου με 5 τριφωσφορικό άκρο. Ωστόσο, το 3 άκρο δημιουργείται αποκόπτοντας ένα τμήμα του μεταγράφου και όχι τερματίζοντας την μεταγραφή σε μία ορισμένη θέση. Όσα RNA προέρχονται από γονίδια που περιέχουν ιντρόνια πρέπει να υ- ποστούν μάτισμα (splicing), ώστε να αφαιρεθούν τα ιντρόνια και να παραχθεί ένα μικρότερο mrna που περιέχει άθικτη κωδική αλληλουχία. Και τα δύο άκρα του μεταγράφου τροποποιούνται με την προσθήκη επιπλέον νουκλεοτιδίων. Το 5 άκρο του RNA τροποποιείται αμέσως μετά την εμφάνισή του με -62-

71 την προσθήκη μίας καλύπτρας. Η τριφωσφορική ομάδα του αρχικού μεταγράφου αντικαθίσταται από ένα νουκλεοτίδιο που προστίθεται σε αντίθετο προσανατολισμό (3 5 ), σφραγίζοντας με αυτόν τον τρόπο το άκρο. Το 3 άκρο τροποποιείται εξαιτίας της προσθήκης μιας σειράς νουκλεοτιδίων αδενυλικού οξέος (πολυαδενυλικό οξύ ή πολύ(α) ή poly(a)) αμέσως μετά την αποκοπή του. Μόνο μετά την ολοκλήρωση όλων των τροποποιήσεων και της επεξεργασίας μπορεί το mrna να εξαχθεί από τον πυρήνα στο κυτταρόπλασμα. Κατά μέσο όρο, το mrna καθυστερεί περίπου 20 λεπτά για να εξαχθεί από τον πυρήνα. Μόλις το mrna εισέλθει στο κυτταρόπλασμα, αναγνωρίζεται από τα ριβοσώματα και μεταφράζεται. Η 3 τερματική αλληλουχία από κατάλοιπα Α συχνά περιγράφεται ως ουρά πολυ(α), ενώ το mrna που έχει αυτό το χαρακτηριστικό δηλώνεται ως πολυ(α) + (poly(a) + ). Όπως προαναφέρθηκε η αλληλουχία πολυ(α) δεν κωδικοποιείται στο DNA αλλά προστίθεται στο RNA, μέσα στον πυρήνα, μετά την μεταγραφή. Η προσθήκη της πολυ(α) καταλύεται από το ένζυμο πολυ(α) πολυμεράση (poly(a) polymerase), η οποία προσθέτει περίπου 200 κατάλοιπα Α στο ελεύθερο 3 -ΟΗ άκρο του mrna. Η αλληλουχία πολυ(α), τόσο του πυρηνικού RNA όσο και του mrna είναι συνδεδεμένη με μια πρωτεΐνη που ονομάζεται πολυ(α) συνδεόμενη πρωτεΐνη (PABP, Poly(A)-Binding Protein). Κάποιες από τις επιδράσεις της πολυ(α) στις ιδιότητες του mrna, όπως η σταθερότητα ή η ικανότητα να προστατεύεται από την αποικοδόμηση, σχετίζονται με την σύνδεση της πολυ(α) με την PABP. Τέλος είναι σημαντικό να αναφέρουμε ότι σχεδόν όλα τα κυτταρικά mrna περιέχουν πολυ(α). Μια σημαντική εξαίρεση αποτελούν τα mrna που κωδικοποιούν τις ιστόνες, που είναι μείζον δομικό συστατικό του χρωμοσωμικού υλικού. Αυτά τα mrna αποτελούν το μεγαλύτερο ή όλο το κλάσμα των πολυ(α) - RNA. Η σημασία της απουσίας της ουράς πολυ(α) από το mrna των ιστόνων δεν είναι κατανοητή. 5.2 Αποκοπή και Πολυαδενυλίωση Όπως προαναφέρθηκε το 3 άκρο του mrna παράγεται με αποκοπή και πολυαδενυλίωση. Στην εικόνα 5.1 φαίνεται σχηματικά η διαδικασία της αποκοπής και πολυαδενυλίωσης. Η RNA πολυμεράση μεταγράφει πέρα από την θέση που αντιστοιχεί στο 3 άκρο και κάποιες αλληλουχίες στο RNA αναγνωρίζονται ως στόχοι για ενδονουκλεοτιδική πέψη. Μετά την αποκοπή ακολουθεί η πολυαδενυλίωση. Ένα σύμπλοκο αναλαμ- -63-

72 βάνει τόσο την αποκοπή όσο και την πολυαδενυλίωση. Η πολυαδενυλίωση σταθεροποιεί το mrna, προστατεύοντας το από αποικοδόμηση από το 3 άκρο καθώς το 5 άκρο είναι ήδη προστατευμένο με την καλύπτρα. H RNA πολυμεράση συνεχίζει την μεταγραφή πέραν του σημείου αποκοπής, αλλά το 5 άκρο που δημιουργείται από την αποκοπή είναι απροστάτευτο, με συνέπεια το υπόλοιπο του μεταγράφου να αποικοδομείται γρήγορα. Αυτό δυσχεραίνει τον προσδιορισμό των γεγονότων που λαμβάνουν χώρα πέραν του σημείου αποκοπής [Lewin, 2004]. Εικόνα 5.1 Διαδικασία της Πολυαδενυλίωσης Ένα κοινό χαρακτηριστικό των μορίων mrna στους περισσότερους ανώτερους ευκαρυώτες, είναι παρουσία της αλληλουχίας AAUAAA σε μια περιοχή νουκλεοτιδίων ανοδικά της θέσης που θα προστεθεί η ουρά πολυ(α). Η διαγραφή ή μετάλ- -64-

73 λαξη του εξαμερούς AAUAAA εμποδίζει την παραγωγή του πολυαδενυλιωμένου 3 άκρου. Το σήμα χρειάζεται τόσο για την αποκοπή όσο και για την πολυαδενυλίωση. Το σύμπλοκο που αναλαμβάνει την αποκοπή και την πολυαδενυλίωση αποτελείται από μία σειρά εξειδικευμένων παραγόντων: Μια ενδονουκλεάση που αποτελείται από τους παράγοντες CFI και CFII (Cleavage Factor I και ΙΙ, παράγοντες αποκοπής Ι και ΙΙ), για την αποκοπή του RNA Μια πολυ(α) πολυμεράση (PAP, Poly(A) Polymerase), για να συνθέσει την ουρά πολύ(α) Τον παράγοντα ειδικότητας CPSF (Cleavage and Polyadenylation Specificity Factor), ο οποίος αναγνωρίζει την αλληλουχία AAUAAA και κατευθύνει τις άλλες ενέργειες. Ένας παράγοντας ενίσχυσης (CstF, Cleavage stimulatory Factor), που προσδένεται σε μια αλληλουχία πλούσια σε G-U καθοδικά της περιοχής αποκοπής. Τα δύο κυριότερα προβλήματα με τα οποία ασχολείται η Βιοπληροφορική, σε σχέση πάντα με την αποκοπή και πολυαδενυλίωση, είναι καταρχάς ο προσδιορισμός του σημείου στο οποίο θα γίνει η αποκοπή και κατά δεύτερον ο προσδιορισμός των ρυθμιστικών στοιχείων (cis-regulatory elements) που βρίσκονται πριν (upstream) και μετά (downstream) από το σημείο αυτό. Κάποιες από τις σημαντικότερες εργασίες στην περιοχή αυτή θα παρουσιαστούν σε επόμενη παράγραφο. 5.3 Εναλλακτική Πολυαδενυλίωση Πρόσφατες έρευνες έχουν δείξει ότι περισσότερα από τα μισά ανθρώπινα γονίδια έχουν πολλαπλά σημεία πολυαδενυλίωσης [Tian et al., 2005, Yan J. et al 2005]. Όπως είναι προφανές η Εναλλακτική Πολυαδενυλίωση (Alternative Polyadenylation) συμβάλει στην πολυπλοκότητα που παρουσιάζουν τα ανθρώπινα κύτταρα σε σχέση με τους άλλους ευκαρυωτικούς οργανισμούς με την παραγωγή mrna με διαφορετικές 3 αμετάφραστες περιοχές (3 UTRs) κωδικοποιώντας έτσι διάφορων ειδών πρωτεΐνες. Η εναλλακτική πολυαδενυλίωση μπορεί να έχει πολλές επιδράσεις στον μεταβολισμό του mrna καθώς τα 3 UTRs περιέχουν διάφορα ρυθμιστικά στοιχεία όπως στοιχεία πλούσια σε Αδενίνη και Γουανίνη (AU-rich elements) που είναι υπεύθυνα για την σταθερότητα του mrna ή άλλα στοιχεία απαραίτητα για την μετάφρασή του. Η επίδραση της εναλ- -65-

74 λακτικής πολυαδενυλίωσης στην διαδικασία της μετάφρασης είναι συνήθως συνδεδεμένη με το εναλλακτικό μάτισμα (Alternative Splicing) [Edwalds-Gilbert G], πράγμα που έχει αποδειχθεί για διάφορα γονίδια. 5.4 Εργασίες Σχετικές με την Πολυαδενυλίωση και την Εναλλακτική Πολυαδενυλίωση Σαν επίλογο του κεφαλαίου θα παρουσιάσουμε συνοπτικά τα αποτελέσματα τριών από τις κυριότερες εργασίες στον χώρο της πολυαδενυλίωσης και εναλλακτικής πολυαδενυλίωσης. Επιλέχθηκαν οι τρεις αυτές εργασίες γιατί τα αποτελέσματά τους δεν είναι α- ριθμητικές τιμές αλλά βοηθούν γενικότερα το πεδίο της έρευνας γύρω από την πολυαδενυλίωση. Η πρώτη εργασία είναι η PolyA_DB: A database for mammalian mrna Polyadenylation [Zhang et al. 2005]. Η εργασία αυτή είχε ως σκοπό την αποθήκευση σε βάσεις δεδομένων σημείων πολυαδενυλίωσης και εναλλακτικής πολυαδενυλίωσης από ανθρώπινα γονίδια και γονίδια ποντικών. Η συγκεκριμένη βάση βιολογικών δεδομένων είχε ως σκοπό την αποθήκευση και άλλων πληροφοριών σε σχέση με την πολυαδενυλίωση. Οι κυριότερες πληροφορίες που παρέχει είναι, πρώτον, η ακριβής θέση σημείων πολυαδενυλίωσης και εναλλακτικής πολυαδενυλίωσης μέσα σε γονίδια και δεύτερον, διαφόρων ειδών ρυθμιστικά στοιχεία που αφορούν πάλι σημεία πολυαδενυλίωσης και εναλλακτικής πολυαδενυλίωσης. Η δεύτερη εργασία είναι η Bioinformatics identification of candidate cisregulatory elements involved in human mrna Polyadenylation. [Hu et al. 2005]. Στην εργασία αυτή η ερευνητική ομάδα ανέπτυξε ένα πρόγραμμα με την ονομασία PROBE (Polyadenylation- Related Oligonucleotide Bidimensional Enrichment) με σκοπό να εντοπίσουν ρυθμιστικά στοιχεία (Cis- elements) για την διαδικασία της πολυαδενυλίωσης. Αποτέλεσμα της εργασίας τους ήταν η ανακάλυψη πολλών νέων ρυθμιστικών στοιχείων κυρίως πλούσιων σε Γουανίνη (G) αλλά και η διαπίστωση ότι πολλά ρυθμιστικά στοιχεία σε φυτικά κύτταρα υπήρχαν ως ρυθμιστικά στοιχεία και σε ασθενή σημεία πολυαδενυλίωσης. Ασθενές σημείο πολυαδενυλίωσης στην διαδικασία της εναλλακτικής πολυαδενυλίωσης είναι το σημείο που δεν γίνεται συχνά αποκοπή σε σχέση με το ισχυρό. Έτσι γίνεται η υπόθεση ότι κάποια ρυθμιστικά στοιχεία υπάρχουν σε όλα τα ευκαρυωτικά κύτταρα και διατηρήθηκαν κατά την εξελικτική διαδικασία. -66-

75 Η τρίτη εργασία που παρουσιάζουμε ονομάζεται Biased alternative Polyadenylation in human tissues [Zhang et al. 2005]. Στην εργασία αναλύθηκαν γονίδια από 42 διαφορετικούς ανθρώπινους ιστούς. Το κύριο συμπέρασμα της εργασίας είναι ότι υ- πάρχει μεγάλη διαφοροποίηση στον τρόπο αλλά και στην χρησιμότητα της πολυαδενυλίωσης μεταξύ των ανθρώπινων ιστών. Σαν γενικό συμπέρασμα του κεφαλαίου αυτού θα μπορούσαμε να πούμε ότι η πολυαδενυλίωση και η εναλλακτική πολυαδενυλίωση παρουσιάζουν ιδιαίτερη πολυπλοκότητα και θα συνεχίζουν να απασχολούν την επιστημονική κοινότητα για τα επόμενα χρόνια. -67-

76 -68-

77 6 Υλοποίηση Το πρόβλημα που μας απασχόλησε στην παρούσα διπλωματική, ήταν η εύρεση του σημείου πολυαδενυλίωσης σε βιολογικές αλληλουχίες. Για την αναζήτηση του σημείου αυτού αναπτύχθηκε ένα πρόγραμμα, το οποίο είχε σαν διαδικασία μάθησης το Μαρκοβιανό μοντέλο. Στις παραγράφους που ακολουθούν παρουσιάζονται κατά σειρά το Μαρκοβιανό μοντέλο, τα δεδομένα που χρησιμοποιήθηκαν, μια περιγραφή του προγράμματος και μια πιο αναλυτική περιγραφή κάποιων σημείων του κώδικα. Τέλος παρουσιάζονται τα πειράματα που έγιναν καθώς και τα συμπεράσματα που προέκυψαν από αυτά. 6.1 Μαρκοβιανές Αλυσίδες Μαρκοβιανή αλυσίδα είναι μια στοχαστική διαδικασία διακριτού χρόνου που την χαρακτηρίζει η Μαρκοβιανή ιδιότητα. Σύμφωνα με την Μαρκοβιανή ιδιότητα για δεδομένη διεργασία η γνώση για τις προηγούμενες καταστάσεις δεν σχετίζεται με την πρόβλεψη των πιθανοτήτων των ακολούθων καταστάσεων. Οι Μαρκοβιανές αλυσίδες χαρακτηρίζονται και χωρίς μνήμη γιατί καμία κατάσταση δεν εξαρτάται από την προηγούμενη. Αυτή είναι και η γενική ιδέα των Μαρκοβιανών αλυσίδων που όπως θα δούμε όμως, δεν ακολουθείται πιστά σε όλες τις παραλλαγές τους. Οι Μαρκοβιανές αλυσίδες εφαρμόζονται σε πάρα πολλά και διαφόρων ειδών πεδία. Για παράδειγμα, μια πολύ διαδεδομένη εφαρμογή τους είναι η μοντελοποίηση τυχερών παιγνίων και η πρόβλεψη αποτελεσμάτων σε αυτά. Μια ακόμα πολύ ενδιαφέρουσα εφαρμογή των αλυσίδων Μαρκόφ είναι στην μουσική. Πρώτος ο Ιωάννης Ξενάκης χρησιμοποίησε με την βοήθεια ηλεκτρονικού υπολογιστή τις αλυσίδες Μαρκόφ ώστε να αναπαράγει μουσική, κάτι που σήμερα είναι γνωστό ως Μαρκοβιανή Στοχαστική Μουσική. -69-

78 Οι Μαρκοβιανές αλυσίδες έχουν χρησιμοποιηθεί κατά κόρον και στο επιστημονικό πεδίο της Βιοπληροφορικής. Στην παρούσα εργασία χρησιμοποιήθηκε μια παραλλαγή του μοντέλου Μαρκόφ, οι αλυσίδες Μαρκόφ τάξης m, ή αλλιώς αλυσίδες Μαρκόφ με μνήμη m. Η υλοποίηση του αλγορίθμου έγινε από τον Γιώργο Τζανή, υποψήφιο διδάκτορα του τμήματος πληροφορικής, στην γλώσσα προγραμματισμού Java. Στο πρόγραμμά μας η τάξη (ή μνήμη) του μοντέλου καθορίζει τον αριθμό των περασμένων νουκλεοτιδίων που λαμβάνει υπόψη του το μοντέλο για να αποφανθεί για το αμέσως επόμενο νουκλεοτίδιο. Δεν θα επεκταθούμε περισσότερο στην εξήγηση του τρόπου λειτουργίας ή της υλοποίησης του μοντέλου καθώς σε αυτή την εργασία χρησιμοποιήθηκε σαν μαύρο κουτί : Αρχικά δέχεται ως είσοδο ένα σύνολο δεδομένων (training set) και με αυτό χτίζει το μοντέλο, δηλαδή βρίσκει τις πιθανότητες όλων των προτύπων που παράγονται με βάση την τάξη του μοντέλου. Στην συνέχεια δέχεται ως είσοδο άλλα δεδομένα (test set) τα οποία θα εκτιμήσει με βάση τις πιθανότητες που έχει βρει. 6.2 Δεδομένα Όπως είναι γνωστό, ένα μεγάλο πρόβλημα για την διαδικασία ανακάλυψης γνώσης είναι η εύρεση κατάλληλων δεδομένων. Στις επόμενες υποπαραγράφους θα περιγράψουμε οτιδήποτε σχετίζεται με τα δεδομένα που χρησιμοποιήθηκαν στο πρόβλημά μας, από την αναζήτησή τους μέχρι και τον μετασχηματισμό τους στην επιθυμητή μορφή. Προβλήματα στην Εύρεση Κατάλληλων Δεδομένων Για την υλοποίηση της παρούσας εργασίας ήταν απαραίτητο να βρεθούν τα κατάλληλα δεδομένα. Γενικά, η εύρεση κατάλληλων δεδομένων στο χώρο της Βιοπληροφορικής είναι πολύ δύσκολη. Οι λόγοι ποικίλουν. Καταρχάς, η Βιοπληροφορική όπως έχουμε εξηγήσει είναι μια επιστημονική περιοχή με πολύ μικρό χρόνο ζωής. Ένας ακόμα λόγος, και ίσως ο πιο σημαντικός είναι ότι τα δεδομένα δεν μπορούν να συλλεχθούν από οποιονδήποτε, όπως για παράδειγμα στον χώρο του αθλητισμού, αλλά μόνο από εξειδικευμένο επιστημονικό προσωπικό κυρίως Βιολόγους. Ο τρίτος σημαντικός λόγος είναι ότι τα δεδομένα που χρησιμοποιούνται για ένα πρόβλημα στην Βιοπληροφορική δεν είναι ίδια με τα δεδομένα που χρησιμοποιούνται για κάποιο άλλο, παρόλο που και τα δύο είναι ακολουθίες DNA ή RNA. Για παράδειγμα τα δεδομένα που χρησιμοποιούνται -70-

79 σε εργασίες με θέμα την εύρεση του σημείου έναρξης της πρωτεϊνοσύνθεσης (TIS- Translation Initiation Site) δεν είναι ίδια με τα δεδομένα που χρησιμοποιούνται για το πρόβλημα για την εύρεση του σημείου πολυαδενυλίωσης (PAS PolyAdenylation Site). Προφανώς και τα δύο δείχνουν με κάποιο τρόπο το σημείο που τους ενδιαφέρει και μόνον αυτό. Όλα τα παραπάνω σε συνδυασμό με το ότι το πρόβλημα της εύρεσης σημείου πολυαδενυλίωσης είναι ένα από τα πιο καινούργια προβλήματα που απασχολούν του επιστήμονες της Βιοπληροφορικής έκανε δύσκολη την εύρεση κατάλληλων δεδομένων για την παρούσα εργασία. Αρχική Μορφή Δεδομένων Τα δεδομένα που χρησιμοποιήθηκαν βρέθηκαν σε ιστοσελίδα εργαστηρίου του πανεπιστημίου του Μαϊάμι [Li Lab]. Η αρχική τους μορφή ήταν ένα αρχείο τύπου text όπου μέσα υπήρχαν 8k ακολουθίες των 400 νουκλεοτιδίων. Το σημείο πολυαδενυλίωσης σε κάθε ακολουθία βρισκόταν ανάμεσα στο 301 ο και 302 ο νουκλεοτίδιο. Για να γίνει α- ντιληπτή η θέση αυτή η ακολουθία ανοδικά (upstream) του σημείου πολυαδενυλίωσης (300 νουκλεοτίδια) ήταν με κεφαλαία γράμματα ενώ η ακολουθία καθοδικά (downstream) ήταν με πεζά. Για παράδειγμα ATACT.GTCgtatc..atgc. Τροποποίηση Δεδομένων Τα δεδομένα για τις ανάγκες της παρούσας εργασίας υπέστησαν κάποιες τροποποιήσεις: Το αρχείο τύπου text (.txt) μετασχηματίστηκε σε αρχείο τύπου weka (.arff), έτσι ώστε να μπορούν να χρησιμοποιηθούν οι έτοιμες βιβλιοθήκες της Java για την ανάγνωση και τον χειρισμό των δεδομένων. Η υλοποίηση του προγράμματος έγινε με τέτοιο τρόπο ώστε να μην χρειάζεται η επισήμανση του σημείου πολυαδενυλίωσης. Έτσι το καθοδικό κομμάτι των α- κολουθιών μετασχηματίστηκε και αυτό σε κεφαλαία γράμματα. Δηλαδή ATACT.GTCgtatc..atgc ATACT.GTCGTATC..ATGC. Η δομή του αρχείου φτιάχτηκε ικανοποιώντας τις απαιτήσεις του αλγορίθμου που χρησιμοποιήθηκε και προέκυψαν πέντε χαρακτηριστικά. Το ID του κάθε γονιδίου, η τάξη του Μαρκοβιανού μοντέλου (ORDER), το String (SE- -71-

80 QUENCE) που είναι τα αρχικά δεδομένα μας, και τέλος σε ποια κλάση (CLASS) ανήκει η συγκεκριμένη ακολουθία. Τελική Μορφή Δεδομένων Στην παρακάτω εικόνα φαίνεται η τελική μορφή των δεδομένων. Οι τελείες που χωρίζουν την ακολουθία σε δύο μέρη χρησιμοποιήθηκαν για να δείξουν ότι η ακολουθία συνεχίζεται για 400 ID ORDER SEQUENCE CLASS 0,10, CTAAAGTCAATAGAGAAAAA.GATAGACGAGTTGGT,0 1,10, TCATTCTTCTAACTAATAAGT.ΑTAAAATTGATCTCA,0 2,10, ATGAAATAGCAACGATAGAC.ATCATTCTTCTAACT,0 Εικόνα 6.1: Δεδομένα 6.3 Περιγραφή Υλοποίησης Στην παρούσα υποπαράγραφο θα περιγράψουμε τον τρόπο λειτουργίας του προγράμματός μας. Η κεντρική ιδέα της υλοποίησης είναι η χρήση παραθύρων για την εκτίμηση της θέσης του σημείου πολυαδενυλίωσης. Δεδομένα Αρχικά το πρόγραμμα διαβάζει τα δεδομένα από ένα αρχείο.arff (τύπου weka). Τα δεδομένα χωρίζονται σε δέκα μέρη (folds). Ο λόγος που γίνεται αυτό είναι κατά τον τερματισμό του προγράμματος να έχουν χρησιμοποιηθεί όλα τα δεδομένα, κάθε ακολουθία, τόσο για εκπαίδευση του μοντέλου (training Set) όσο και για εκτίμηση (test Set) και -72-

81 επομένως να έχουμε αποτέλεσμα για κάθε μια από τις 8k ακολουθίες. Η διαδικασία της εκτίμησης επαναλαμβάνεται δέκα φορές με διαφορετικό training Set και test Set με α- ναλογία πάντα 1:10 (10-fold cross-validation). Για τα δεδομένα που χρησιμοποιήθηκαν η αναλογία αυτή αντιστοιχίζεται με τους αριθμούς 7.2k ακολουθίες για δεδομένα εκπαίδευσης και 0.8k ακολουθίες για δεδομένα εκτίμησης. Εκπαίδευση Μαρκοβιανού Μοντέλου Η εκπαίδευση του Μαρκοβιανού μοντέλου γίνεται σε μια περιοχή γύρω από το σημείο πολυαδενυλίωσης. Η περιοχή αυτή ταυτίζεται με το μέγεθος του παραθύρου που χρησιμοποιείται αργότερα για την εκτίμηση του σημείου αποκοπής. Δύο παράμετροι καθορίζουν την επιλογή της περιοχής εκπαίδευσης του μοντέλου: Το μέγεθος της περιοχής μετρημένο σε νουκλεοτίδια Η θέση του σημείου αποκοπής στην περιοχή αυτή. (Επεξηγείται παρακάτω) Η επιλογή του μεγέθους της περιοχής είναι μια από τις δύο μεταβλητές με τις ο- ποίες μπορούμε να πειραματιστούμε με τα δεδομένα μας για την επίτευξη καλύτερων αποτελεσμάτων. Σε επόμενη υποπαράγραφο θα παρουσιάσουμε τα πειράματα που διεξήχθησαν αλλάζοντας το μέγεθος της περιοχής εκπαίδευσης (παραθύρου). Το σημείο αποκοπής χωρίζει την ακολουθία σε δύο μέρη (upstream και downstream). Ουσιαστικά η δεύτερη παράμετρος είναι η επιλογή του μεγέθους της ακολουθίας που βρίσκεται ανοδικά (upstream) και η επιλογή του μεγέθους της ακολουθίας που βρίσκεται καθοδικά του σημείου αποκοπής. Λαμβάνοντας υπόψη ότι η ακολουθία που βρίσκεται ανοδικά είναι σημαντικότερη κατά την αναζήτηση του σημείου πολυαδενυλίωσης, επιλέχθηκε η ανοδική ακολουθία να είναι διπλάσια σε μέγεθος από την καθοδική. Για παράδειγμα σε περιοχή μεγέθους 60 νουκλεοτιδίων η upstream ακολουθία θα είναι 40 νουκλεοτίδια ενώ η downstream 20. Ομοίως σε παράθυρο 120 νουκλεοτιδίων το upstream κομμάτι αποτελείται από 80 νουκλεοτίδια ενώ το downstream από 40. Το επόμενο βήμα είναι το χτίσιμο του Μαρκοβιανού μοντέλου και ουσιαστικά η επιλογή της τάξης του. Όπως θα δούμε παρακάτω η επιλογή της τάξης του Μαρκοβιανού μοντέλου είναι η δεύτερη μεταβλητή με την οποία μπορούμε να πειραματιστούμε. Σε αυτό το σημείο τελειώνει η ενασχόλησή μας με τα δεδομένα εκπαίδευσης (training set) και επομένως περνάμε στην εκτίμηση των ακολουθιών. -73-

82 Εκτίμηση Ακολουθιών Όπως προαναφέρθηκε η εύρεση του σημείου αποκοπής μέσα στις ακολουθίες βασίζεται στην ιδέα του παραθύρου. Παράθυρο είναι μία περιοχή νουκλεοτιδίων ίσου μήκους με την περιοχή που εκπαιδεύτηκε το μοντέλο. Ξεκινώντας, επιλέγεται η πρώτη ακολουθία του test set. Το Μαρκοβιανό μοντέλο ξεκινάει από την αρχή της ακολουθίας και εκτιμάει (δίνει μια πιθανότητα) για το πρώτο παράθυρο (περιοχή που ξεκινάει από το πρώτο νουκλεοτίδιο). Η εκτίμηση του μοντέλου για το παράθυρο αυτό αποθηκεύεται στην πρώτη θέση ενός πίνακα μεγέθους ίσου με τον συνολικό αριθμό παραθύρων. Στην συνέχεια το παράθυρο προχωράει βηματικά, κατά ένα νουκλεοτίδιο, και γίνεται εκ νέου εκτίμηση και αποθήκευση. Τελικά σαρώνεται ολόκληρη η ακολουθία και προκύπτει ένας πίνακας με τις εκτιμήσεις- πιθανότητες για κάθε παράθυρο. Αμέσως μετά βρίσκεται το παράθυρο με την μεγαλύτερη πιθανότητα και θεωρείται ότι είναι το παράθυρο που περιέχει την σωστή πρόβλεψη για το σημείο αποκοπής. Γνωρίζοντας το παράθυρο, βρίσκουμε την θέση στην οποία προέβλεψε το μοντέλο μας ότι είναι το σημείο πολυαδενυλίωσης και υπολογίζουμε το σφάλμα σε σχέση πάντα με την ακριβή- πραγματική θέση του σημείου πολυαδενυλίωσης. Η διαδικασία αυτή επαναλαμβάνεται για όλες τις ακολουθίες του test set. Αργότερα όπως αναφέρθηκε το πρόγραμμα αλλάζει το training set και το test set και επαναλαμβάνεται η ίδια διαδικασία έως ότου προκύψουν εκτιμήσεις για όλες τις ακολουθίες. Τα αποτελέσματα, που είναι το σφάλμα για κάθε ακολουθία, αποθηκεύονται σε ένα πίνακα 8k θέσεων (όσες και οι ακολουθίες) σε καθορισμένη θέση σύμφωνα με το ID που είχε η κάθε μία στο αρχείο των δεδομένων. Αποτελέσματα Τα αποτελέσματα από το παραπάνω πρόγραμμα προκύπτουν όλα από την επεξεργασία του πίνακα των 8k θέσεων που περιέχει τα σφάλματα για όλες τις ακολουθίες. Στην παρούσα εργασία υπολογίστηκε σαν πρώτο αποτέλεσμα το μέσο σφάλμα για όλες τις α- κολουθίες. Έπειτα για πιο ενδελεχή μελέτη των αποτελεσμάτων υπολογίστηκε ο αριθμός των προβλέψεων που είχαν σφάλμα μηδέν, ένα, μέχρι και δεκαπέντε. -74-

83 6.4 Λεπτομέρειες Υλοποίησης- Επεξήγηση Κώδικα Στην προηγούμενη παράγραφο έγινε μια περιγραφή της λειτουργίας του προγράμματος με έμφαση στην ροή του. Στην παρούσα παράγραφο θα παρατεθούν κάποια κομμάτια κώδικα και θα σχολιαστεί η λογική που κρύβεται μέσα σε αυτά. Για την παράθεση των κομματιών κώδικα θα ακολουθηθεί η δομή και η σειρά της προηγούμενης παραγράφου και επομένως είναι αναπόφευκτο να υπάρχουν πολλές αναφορές σε αυτήν. Δεδομένα Στο παρακάτω τμήμα κώδικα γίνεται ο διαχωρισμός των δεδομένων σε δεδομένα εκπαίδευσης και δεδομένα εκτίμησης. 1) Instances traindata = new Instances(dataset.trainCV(folds, f)); 2) Instances testdata = new Instances(dataset.testCV(folds, f)); Κώδικας 1: Διαχωρισμός δεδομένων Για τον διαχωρισμό του συνόλου των δεδομένων σε δεδομένα εκπαίδευσης και δεδομένα εκτίμησης χρησιμοποιήθηκαν οι συναρτήσεις traincv(int,int) και testcv(int,int) οι οποίες εκτελούν την διεργασία αυτή για ένα σύνολο δεδομένων. Εκπαίδευση Μαρκοβιανού Μοντέλου Το κομμάτι του κώδικα 2 αναφέρεται στην προετοιμασία των δεδομένων εκπαίδευσης πριν το χτίσιμο του Μαρκοβιανού μοντέλου. 1) for(int i=0; i<traindata.numinstances(); i++) 2) { 3) String auxstring1, auxstring2; 4) auxstring1=traindata.instance(i).stringvalue(2); 5) auxstring2=auxstring1.substring(201,351); 6) traindata.instance(i).setvalue(2,auxstring2); 7) } Κώδικας 2: Προετοιμασία Δεδομένων -75-

84 Όπως αναφέρθηκε η εκπαίδευση του μοντέλου γίνεται γύρω από την περιοχή του σημείου αποκοπής. Είναι ευνόητο ότι οι ακολουθίες των νουκλεοτιδίων εκτός της περιοχής αυτής είναι άχρηστες για τα δεδομένα εκπαίδευσης. Επομένως η λογική του κώδικα 2 είναι η αντικατάσταση του string των τετρακοσίων νουκλεοτιδίων με την περιοχή εκπαίδευσης. Για τον σκοπό αυτό χρησιμοποιούνται δύο String (auxstring1 και aux- String2). Με την μέθοδο stringvalue ανακτάται το string από τα δεδομένα. Έπειτα με την μέθοδο substring αποκόπτεται η επιθυμητή περιοχή. Στο παρόν κομμάτι κώδικα το παράθυρο είναι μήκους 150 νουκλεοτίδια και το σημείο πολυαδενυλίωσης βρίσκεται μεταξύ του 301 ου και 302 ου νουκλεοτιδίου. Έπειτα με την βοήθεια της μεθόδου set- Value τοποθετούμε το νέο string ως ακολουθία στα δεδομένα. Όπως γίνεται φανερό από την συνθήκη του for, η διαδικασία αυτή εκτελείται για κάθε ένα instance του training set (traindata) δηλαδή για κάθε ακολουθία. Από το συγκεκριμένο σημείο του κώδικα μπορούμε να αλλάξουμε το μέγεθος του παραθύρου κατά την διάρκεια της διεξαγωγής των πειραμάτων. Το παρακάτω κομμάτι κώδικα (3) παρατέθηκε καθώς είναι το σημείο κατά το οποίο δίνεται εντολή να χτιστεί το μοντέλο και επιλέγεται η τάξη του. 1) MarkovModel PolyAModel = new MarkovModel(alphabet,3,1); 2) PolyAModel.buildModel(trainData); Κώδικας 3: Χτίσιμο Μαρκοβιανού Μοντέλου Η τάξη του μοντέλου είναι η δεύτερη παράμετρος με την οποία μπορούμε να πειραματιστούμε. Στο παρόν κομμάτι χρησιμοποιείται Μαρκοβιανό μοντέλο τάξης 3. Αυτό είναι και το τελευταίο σημείο που ασχολούμαστε με τα δεδομένα εκπαίδευσης. Μετα το τρέξιμο των δυο αυτών γραμμών κώδικα, το Μαρκοβιανό μοντέλο είναι έτοιμο να εκτιμήσει τις ακολουθίες που θα του δώσουμε ως test set. Εκτίμηση του Μαρκοβιανού Μοντέλου Στο κομμάτι κώδικα 4, που ακολουθεί, το πρόγραμμα χειρίζεται το test set. Το προγραμμα επεξεργάζεται κάθε ακολουθία του test set ξεχωριστά. Αρχικά η ακολουθία τροποποιείται κατάλληλα έτσι ώστε να δοθεί μια εκτίμηση για κάθε παράθυρο αυτής. Στην συνέχεια προβλέπεται το σημείο πολυαδενυλίωσης και τελικά υπολογίζεται το σφάλμα της πρόβλεψης με βάση το πραγματικό σημείο. -76-

85 1) for(int i=0; i<testdata.numinstances(); i++) 2) { 3) String auxstring1, auxstring2; 4) auxstring1= testdata.instance(i).stringvalue(2); 5) int ID=(int)testData.instance(i).value(0); //Δίνει το ID της α- κολουθίας 6) double firstestimation[]= new double[250]; // Πιθανότητες Παραθύρων 7) double auxestimation[]=new double[10]; 8) for(int j=0; j<250; j++) 9) { 10) auxstring2=auxstring1.substring(j,j+150); 11) testdata.instance(i).setvalue(2,auxstring2); 12) auxestimation=polyamodel.estimate(testdata.instance(i)); 13) firstestimation[j]=auxestimation[0]; 14) } 15) int estimatedid=idmax(firstestimation); 16) int error; 17) if (201-estimatedID>=0) 18) error=201-estimatedid; 19) else 20) error=estimatedid-201; 21) estimationerror[id]=error; // Αποθήκευση σφάλματος (8k) 22) } Κώδικας 4: Χειρισμός του testset -77-

86 Ξεκινώντας, o βρόχος επανάληψης for στην γραμμή κώδικα (1) μας εξασφαλίζει ότι η διαδικασία που θα περιγραφεί παρακάτω θα επαναληφθεί για όλες τις ακολουθίες του test set. Η μέθοδος του παραθύρου υλοποιείται στις γραμμές κώδικα Η υλοποίηση που εξετάζεται είναι για παράθυρο 150 νουκλεοτιδίων. To for στην γραμμή κώδικα (8) είναι η διαδικασία σάρωσης της κάθε ακολουθίας από το παράθυρο καθώς το σώμα του βρόχου for περιέχει την διαδικασία εκτίμησης ενός παραθύρου. Ας παρακολουθήσουμε την διαδικασία εκτίμησης μίας ακολουθίας: Αρχικά ο μετρητής του βρόχου for στην γραμμή κώδικα (1) είναι ίσος με το μηδέν και επομένως μέσα στο for θα ασχοληθούμε με το πρώτο στιγμιότυπο του test set. Στις γραμμές κώδικα (4) και (5), γίνεται ανάκτηση των δεδομένων που μας ενδιαφέρουν από το στιγμιότυπο που θα επεξεργαστούμε. Στην γραμμή κώδικα (4), η τιμή του string που μας ενδιαφέρει από το instance (ουσιαστικά η ακολουθία) αποθηκεύεται σε μία μεταβλητή, auxstring1, για περεταίρω επεξεργασία. Στην επόμενη γραμμή κώδικα (5), ανακτάται η τιμή ID του συγκεκριμένου instance. Η τιμή αυτή θα βοηθήσει στην αποθήκευση του σφάλματος σε έναν καθολικό πίνακα. Στις γραμμές κώδικα (8)-(14), όπως προαναφέραμε, γίνεται ουσιαστικά η εκτίμηση της ακολουθίας. Η τιμή του μετρητή στο βρόγχο for της γραμμής κώδικα (8) καθορίζει το παράθυρο το οποίο εξετάζουμε. Στη γραμμή κώδικα (10) η συνάρτηση substring(0,0+150) κόβει το πρώτο παράθυρο από την ακολουθία που είναι αποθηκευμένη στο auxstring1 (Γραμμή κώδικα 4), και το αποθηκεύει σε ένα άλλο string (auxstring2). Με την βοήθεια του auxstring2 και της συνάρτησης setvalue(), το παράθυρο No 1 (ακολουθία νουκλεοτιδίων 0-149) τίθεται ως ακολουθία στο στιγμιότυπο που θα γίνει ε- κτίμηση. (Η διαδικασία αυτή είναι παρόμοια με την προεπεξεργασία των δεδομένων εκπαίδευσης.) Στην συνέχεια γίνεται εκτίμηση του στιγμιοτύπου, ουσιαστικά του παραθύρου, και η εκτίμηση αποθηκεύεται στην πρώτη θέση του πίνακα firstestimation (Γραμμή κώδικα 13). Ο πίνακας έχει δηλωθεί στην γραμμή κώδικα (6) και έχει μέγεθος ίσο με τον αριθμό των παραθύρων, στην προκειμένη περίπτωση 250. Η ροή του προγράμματος συνεχίζεται αυξάνοντας τον μετρητή (j=1) και επομένως το κομμάτι του auxstring1 (ολόκληρης της ακολουθίας) που θα αποκοπεί και θα εκτιμηθεί θα είναι το παράθυρο No 2 (ακολουθία νουκλεοτιδίων 1-150). Ομοίως, το δεύτερο παράθυρο θα εκτιμηθεί και η εκτίμηση θα αποθηκευτεί στην δεύτερη θέση του -78-

87 πίνακα. Η διαδικασία συνεχίζεται μέχρι την ολοκλήρωση της εκτίμησης όλων των παραθύρων και την έξοδο από τον βρόχο for της γραμμής κώδικα (8). Στην γραμμή κώδικα (15) η συνάρτηση IDmax δέχεται ως όρισμα τον πίνακα με τις εκτιμήσεις όλων των παραθύρων (firstestimation) και επιστρέφει την θέση με την μεγαλύτερη εκτίμηση που ουσιαστικά είναι το ID του παραθύρου. Το παράθυρο αυτό θεωρείται η εκτίμηση του Μαρκοβιανού μοντέλου για την ακολουθία αυτή. Στις γραμμές κώδικα (16)-(20) γίνεται εκτίμηση του σφάλματος. Τέλος στην γραμμή κώδικα (21) γίνεται αποθήκευση του σφάλματος στον πίνακα estimationerror. Ο estimationerror είναι ένας καθολικός πίνακας 8k θέσεων, όσες δηλαδή και οι ακολουθίες. Η αποθήκευση του σφάλματος γίνεται στην θέση του πίνακα που αντιστοιχεί στο ID της ακολουθίας που έχουμε ανακτήσει στην γραμμή κώδικα (5). 6.5 Αποτελέσματα- Πειράματα Το πρόγραμμα παρείχε δύο κύριες μεταβλητές με τις οποίες μπορούμε να πειραματιστούμε: Το μέγεθος του παραθύρου που θα επιλεγεί για την διαδικασία της εκπαίδευσης του μοντέλου αλλά και τις εκτίμησης των ακολουθιών Την τάξη του Μαρκοβιανού μοντέλου. Περιγραφή Πειραμάτων Διεξήχθησαν συνολικά 24 πειράματα με τις δύο μεταβλητές: Η μεταβλητή μέγεθος παραθύρου πήρε τέσσερις διαφορετικές τιμές (30nt, 60nt, 120nt, 150nt) Για κάθε μία από τις τιμές του μεγέθους του παραθύρου το πρόγραμμα έτρεξε με έξι διαφορετικές τιμές για την τάξη του Μαρκοβιανού μοντέλου (1-6). Περιγραφή Πινάκων Τα πειράματα που διεξήχθησαν είχαν μεταβολή και των δύο αυτών παραμέτρων. Οι πίνακες που ακολουθούν δίνουν τα αποτελέσματα των πειραμάτων. Παρακάτω παρατίθενται κάποιες σημειώσεις για την κατανόηση της δομής και του περιεχόμενου των πινάκων: -79-

88 Οι τέσσερις πίνακες αντιστοιχούν στην αλλαγή του μεγέθους του παραθύρου. Το πρώτο κελί κάθε πίνακα δείχνει το μέγεθος του παραθύρου. Οι στήλες αντιστοιχούν στην τάξη του Μαρκοβιανού μοντέλου για το συγκεκριμένο παράθυρο. Η πρώτη γραμμή (AVERAGE) δίνει το μέσο σφάλμα για όλες τις ακολουθίες. Οι υπόλοιπες γραμμές δείχνουν τον αριθμό των ακολουθιών που είχαν σφάλμα μηδέν, ένα, δυο, κ.τ.λ 150nt AVERAGE Πίνακας 1: Αποτελέσματα πειράματος για παράθυρο 150nt 120nt AVERAGE Πίνακας 2: Αποτελέσματα πειράματος για παράθυρο 120nt -80-

89 60nt AVERAGE Πίνακας 3: Αποτελέσματα πειράματος για παράθυρο 60nt 30nt AVERAGE Πίνακας 4: Αποτελέσματα πειράματος για παράθυρο 30nt Συμπεράσματα Πειραμάτων Με την διεξαγωγή των πειραμάτων μπόρεσαν να βγουν ασφαλή συμπεράσματα για την συμπεριφορά του Μαρκοβιανού μοντέλου στις αλλαγές των μεταβλητών που προανα- -81-

90 φέραμε. Το παρακάτω διάγραμμα δείχνει την τιμή του μέσου σφάλματος σε συνάρτηση με το μέγεθος του παραθύρου που χρησιμοποιήθηκε. Μέσο Σφάλμα - Order 3 Μέσο Σφάλμα Μέσο Σφάλμα ; 70, ; 61, ; 45, ; 43, Μέγεθος Παραθύρου Γράφημα 1: Μέσο σφάλμα σε συνάρτηση με μέγεθος παραθύρου Όπως γίνεται φανερό από την γραφική παράσταση όσο μεγαλώνει το παράθυρο τόσο μειώνεται το μέσο σφάλμα. Ακόμα μπορούμε να παρατηρήσουμε ότι όσο μεγαλώνει το παράθυρο, τόσο η διαφορές στην πρόβλεψη τείνουν να ελαχιστοποιηθούν. Για παράδειγμα η διαφορά στην τιμή του μέσου σφάλματος από το παράθυρο μεγέθους 30nt στο παράθυρο μεγέθους 60nt είναι 9 νουκλεοτίδια. Αντίστοιχα για τα παράθυρα μεγέθους 120nt και 150nt η διαφορά αυτή πέφτει στα 2 νουκλεοτίδια. Από την παρατήρηση αυτή μπορεί να βγει το συμπέρασμα ότι αν δεν υπάρχουν οι κατάλληλοι υπολογιστικοί πόροι τότε μπορούμε ισοδύναμα να χρησιμοποιήσουμε ένα παράθυρο λίγο μικρότερου μεγέθους. Τα παραπάνω είναι τα συμπεράσματα που βγαίνουν από την μεταβολή του παραθύρου. Η μεταβολή της τάξης του Μαρκοβιανού μοντέλου δίνει και αυτή χρήσιμα συμπεράσματα για την συμπεριφορά του. Από τους πίνακες παρατηρούμε ότι η καλύτερη τιμή για κάθε παράθυρο (εκτός του μεγέθους των 30nt), δίνεται από το μοντέλο 3 ης τάξης. Αυτό από βιολογικής άποψης θα μπορούσε να ήταν ένα χρήσιμο συμπέρασμα καθώς τα τρία νουκλεοτίδια που λαμβάνει υπόψη του το Μαρκοβιανό μοντέλο αντιστοιχίζονται με μια τριπλέτα στον γενετικό κώδικα, δηλαδή με ένα αμινοξύ. Στο παρακάτω -82-

91 γράφημα φαίνεται το μέσο σφάλμα σε σχέση με την τάξη του Μαρκοβιανού Μοντέλου για μέγεθος παραθύρου 150nt. 46,5 46 Μέσο Σφάλμα - Παράθυρο 150nt Μέσο Σφάλμα 46,136 Μέσο Σφάλμα 45, ,5 44,579 45, ,5 43,904 43,663 43, Markov Model Order Γράφημα 2: Μέσο σφάλμα σε συνάρτηση με την τάξη του Μαρκοβιανού μοντέλου Το γράφημα αυτό είναι ενδεικτικό και για τα άλλα παράθυρα καθώς από τους πίνακες μπορούμε να παρατηρήσουμε ότι η συμπεριφορά τους στην αλλαγή της τάξης του μοντέλου είναι παρόμοια. Τέλος, θα πρέπει να αναφερθεί ότι η καλύτερη τιμή για το μέσο σφάλμα κατά την διάρκεια διεξαγωγής των πειραμάτων, δόθηκε χρησιμοποιώντας παράθυρο μήκους 150 νουκλεοτιδίων και Μαρκοβιανό μοντέλο 3 ης τάξης. -83-

92 -84-

93 7 Συμπεράσματα Η γένεση του πεδίου της βιοπληροφορικής μπορεί να αναζητηθεί στο 1968 και στην επιστημονική εργασία της Margaret Dayhoff η οποία συνέλλεξε πρωτεϊνικές ακολουθίες γνωστές ως Άτλας της ακολουθίας και της δομής των πρωτεϊνών. Ένα από τα πρώτα πειράματα στο χώρο στης βιοπληροφορικής ήταν η εφαρμογή ενός προγράμματος σύγκρισης ομοιότητας ακολουθιών σε ακολουθίες ιών. Στην προκειμένη εργασία οι επιστήμονες χρησιμοποίησαν ένα από τα πρώτα προγράμματα εύρεσης ομοιότητας α- κολουθιών (FASTP) και κατέληξαν στο συμπέρασμα ότι η v-sis μια ιική ακολουθία που προκαλεί καρκίνο ήταν σχεδόν όμοια με το γονίδιο PDGF το οποίο ρυθμίζει την ανάπτυξη και διαίρεση του κυττάρου. Το συμπέρασμα αυτό έδωσε μια ιδέα για το πώς α- κολουθίες ιών προκαλούν καρκίνο. Αν και τα επόμενα χρόνια υπήρχε επιστημονικό ενδιαφέρον για την βιοπληροφορική, η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος έφερε την επανάσταση στο πεδίο αυτό. Η βιοπληροφορική εξαρτάται άμεσα από την αποκρυπτογράφηση γονιδιωμάτων. Όπως στα τέλη του 1600 η ανακάλυψη του μικροσκοπίου έφερε την επανάσταση στην βιολογία και πιο συγκεκριμένα στην μοριακή βιολογία, έτσι και η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος έδωσε την ώθηση στην βιοπληροφορική και σήμερα είναι ένας από τους πιο ενεργούς επιστημονικούς κλάδους. Εικόνα 7.1: Αποκρυπτογράφηση και υπολογιστές -85-

94 Σήμερα η Βιοπληροφορική ασχολείται κυρίως με την γενωμική και την πρωτεωμική. Οι εφαρμογές και τα αποτελέσματα ήταν πολύ σημαντικά αν αναλογιστούμε τον ουσιαστικό χρόνο ύπαρξης του πεδίου αυτού. Κάποια από τα επιτεύγματα είναι η ανάπτυξη της μεθόδου της γονιδιακής θεραπείας, η εύρεση φαρμάκων που λειτουργούν πάνω στα αίτια της ασθένειας και απομόνωση χαρακτηριστικών από μικροοργανισμούς προς όφελος της γεωργίας και της προστασίας του περιβάλλοντος. Για παράδειγμα, η παράγωγή φυτών με εγγενή ανθεκτικότητα σε έντομα. Στον χώρο της γενωμικής ανήκει και η παρούσα διπλωματική. Σκοπός της είναι η εύρεση του σημείου πολυαδενυλίωσης σε βιολογικές αλληλουχίες. Για την πλήρη κατανόηση του προβλήματος και την άντληση χρήσιμων πληροφοριών το φαινόμενο της πολυαδενυλίωσης μελετήθηκε εκτενώς από βιολογικής πλευράς. Πολυαδενυλίωση είναι μια μετα-μεταγραφική διαδικασία που έχει σαν στόχο την προστασία του mrna από αποικοδόμηση ώστε αυτό να φτάσει άθικτο στην περιοχή της πρωτεϊνοσύνθεσης, μεταφέροντας έτσι αυτούσια την πληροφορία του DNA. Μετά την ολοκλήρωση της μεταγραφής του DNA ειδικά ένζυμα βρίσκουν το σημείο αποκοπής στο mrna και δημιουργούν μια τομή, χωρίζοντας το σε δύο μέρη. Στη συνέχεια προσθέτουν μια σειρά από 200 κατάλοιπα Αδενίνης (Α) στο πρώτο μέρος του mrna το οποίο μεταφέρει την χρήσιμη πληροφορία του DNA. Το φαινόμενο αυτό ονομάζεται πολυαδενυλίωση και προστατεύει για όσο χρόνο χρειάζεται, το mrna. Έπειτα μελετήθηκαν οι μέχρι τώρα προσεγγίσεις του θέματος από τους επιστήμονες τις βιοπληροφορικής. Κάποιες από αυτές αναφέρονται στο κεφάλαιο 5 Πολυαδενυλίωση. Το πρόγραμμα αναπτύχθηκε σε γλώσσα προγραμματισμού JAVA και η μέθοδος μηχανικής μάθησης που χρησιμοποιήθηκε ήταν οι αλυσίδες Μαρκόφ τάξης m. Η εκπαίδευση του Μαρκοβιανού Μοντέλου έγινε γύρω από την περιοχή της αποκοπής. Η εκτίμηση των δεδομένων και επομένως και η ανάπτυξη του προγράμματος στηρίχθηκε στην ιδέα του παραθύρου. Κάθε ακολουθία του test set σαρώθηκε από την αρχή μέχρι το τέλος από ένα παράθυρο μεγέθους τόσων νουκλεοτιδίων όσο το μέγεθος της περιοχής που χρησιμοποιήθηκε για την εκπαίδευση. Το παράθυρο με την καλύτερη ε- κτίμηση του μοντέλου για την κάθε ακολουθία, δίνει αυτομάτως την θέση στην οποία προβλέπει το μοντέλο την θέση αποκοπής. Έπειτα γνωρίζοντας την πραγματική θέση -86-

95 αποκοπής μπορούμε να προβλέψουμε το σφάλμα και για τις 8k ακολουθίες του συνόλου δεδομένων. Μετά την ολοκλήρωση της ανάπτυξης του προγράμματος διεξήχθησαν πειράματα με δύο μεταβλητές. Οι μεταβλητές που χρησιμοποιήθηκαν ήταν το μέγεθος του παραθύρου εκπαίδευσης και εκτίμησης και η τάξη του Μαρκοβιανού μοντέλου. Συνολικά διεξήχθησαν 24 πειράματα χρησιμοποιώντας παράθυρο τεσσάρων διαφορετικών μεγεθών (30nt, 60nt, 120nt, 150nt) και μοντέλο τάξης έξι διαφορετικών μεγεθών (1-6). Τα κυριότερα συμπεράσματα από την διεξαγωγή των πειραμάτων ήταν δύο: Καταρχάς, ότι όσο το παράθυρο μεγαλώνει, τόσο το μέσο σφάλμα μειώνεται και κατά δεύτερον ότι την καλύτερη πρόβλεψη την δίνει το μοντέλο τρίτης τάξης. Δηλαδή το μοντέλο λαμβάνει απόφαση εξετάζοντας τρία νουκλεοτίδια και ουσιαστικά ταυτίζεται με μία τριπλέτα στον γενετικό κώδικα. Αναλυτικά τα αποτελέσματα καθώς και τα συμπεράσματα των πειραμάτων παρουσιάζονται στο κεφάλαιο 6 Υλοποίηση. Η παρούσα διπλωματική θα μπορούσε να επεκταθεί με πολλούς τρόπους. Αρχικά η χρησιμοποίηση μιας άλλης παραλλαγής μοντέλου Μαρκόφ, για παράδειγμα το Hidden Markov Model ΗΜΜ, και η σύγκριση με τα αποτελέσματα της παρούσας διπλωματικής. Ακόμα μια ενδιαφέρουσα επέκταση θα ήταν η χρησιμοποίηση της προσέγγισης του παραθύρου στο πρόβλημα εύρεσης σημείων εναλλακτικής πολυαδενυλίωσης, ένα ζήτημα που εξετάστηκε στο κεφάλαιο 5. Η πρόβλεψη για το μέλλον της βιοπληροφορικής είναι δύσκολη. Το μόνο σίγουρο είναι ότι θα πρωτοστατήσει στις μεγάλες ανακαλύψεις στον χώρο της βιολογίας και της Βιοϊατρικής. Πολλοί επιστήμονες στις μέρες μας συμφωνούν ότι το μέλλον της βιοπληροφορικής βρίσκεται στην Βιολογία Συστημάτων (Systems Biology) μια προσέγγιση που πιστεύεται ότι θα δώσει απαντήσεις σε θεμελιώδη ερωτήματα της επιστήμης της βιολογίας [Fox J, 2007]. Η βιολογία συστημάτων είναι η ενοποίηση της γενωμικής, της πρωτεωμικής και άλλων πληροφοριών που προκύπτουν από την βιοπληροφορική για να δώσουν την εικόνα μιας βιολογικής οντότητας. -87-

96 Εικόνα 7.2: Πλήρης κατανόηση ενός οργανισμού μέσω της κατανόησης των επιστημονικών πεδίων που το περιβάλλουν. Για παράδειγμα, το πως λειτουργεί ο τρόπος ανάδρασης ενός κυττάρου (Cell Signaling). Η παραδοσιακή βιολογία μελετά συγκεκριμένα σημεία του δικτύου ώστε να δώσει απάντηση στο πρόβλημα αυτό. Η βιολογία συστημάτων προσπαθεί να δώσει α- παντήσεις εξετάζοντας τα γονίδια που αναμιγνύονται στην συγκεκριμένη διεργασία. Το πεδίο της βιοπληροφορικής είναι ταχύτατα αναπτυσσόμενο και εξαιρετικά ενδιαφέρον γιατί επιχειρεί να εξερευνήσει έναν κόσμο τελείως άγνωστο. Όπως προαναφέρθηκε η βιοπληροφορική ενδέχεται να δώσει κάποιες από τις μεγαλύτερες ανακαλύψεις στον χώρο της βιολογίας και της Βιοϊατρικής. Παρόλο που η τεχνολογία είναι το απαραίτητο στοιχείο για την βιοπληροφορική, η βιολογία είναι εκείνο που την κατευθύνει. Στα επόμενα χρόνια η βιοπληροφορική ενδέχεται να ξεπεράσει το επίπεδο της γενωμικής και πρωτεωμικής και να ασχοληθεί με άλλα πολυπλοκότερα προβλήματα. Το κλειδί για την συνέχιση της επιστήμης αυτής θα είναι να κατορθώσουν οι επιστήμονες να μοντελοποιήσουν βιολογικές παρατηρήσεις, όπως η έκφραση των γονιδίων, σε μορφή κατανοητή από τους υπολογιστές. Το πρόβλημα της ψηφιοποίησης των δεδομένων του φαινότυπου είναι εκείνο που θέτει τους νέους στόχους της βιοπληροφορικής. -88-

Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες

Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες Διπλωματική Εργασία του Ιωάννη Καβακιώτη

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Φραγκίσκος Κολίσης Καθηγητής Βιοτεχνολογίας, Σχολή Χημικών Μηχανικών ΕΜΠ, Διευθυντής Ινστιτούτου Βιολογικών Ερευνών και Βιοτεχνολογίας, EIE

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΒΑΣΙΚΕΣ ΔΟΜΕΣ - ΤΟ ΚΥΤΤΑΡΟ

ΒΑΣΙΚΕΣ ΔΟΜΕΣ - ΤΟ ΚΥΤΤΑΡΟ ΤΕΙ ΠΑΤΡΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΑΝΑΤΟΜΙΑ I ΥΠΕΥΘΥΝΟΣ ΚΑΘΗΓΗΤΗΣ : Γεράσιμος Π. Βανδώρος ΒΑΣΙΚΕΣ ΔΟΜΕΣ - ΤΟ ΚΥΤΤΑΡΟ Οι βασικές δομές που εξετάζουμε στην ανατομία μπορούν ιεραρχικά να ταξινομηθούν ως εξής:

Διαβάστε περισσότερα

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1 Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1 Μια σύνοψη του Βιβλίου (ΟΠΙΣΘΟΦΥΛΛΟ): Η πλειοψηφία θεωρεί πως η Νόηση είναι μια διεργασία που συμβαίνει στον ανθρώπινο εγκέφαλο.

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών κεφάλαιο 1 Βασικές Έννοιες Επιστήμη 9 1Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ Στόχοι Στόχος του κεφαλαίου είναι οι μαθητές: να γνωρίσουν βασικές έννοιες και τομείς της Επιστήμης. Λέξεις κλειδιά Επιστήμη

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Εμβιομηχανική Βιοϊατρική Τεχνολογία. 6 o Κεφάλαιο Συστημικη Βιολογια (Systems Biology) Σχολή Μηχανολόγων Μηχανικών ΕΜΠ Αλεξόπουλος Λεωνίδας

Εμβιομηχανική Βιοϊατρική Τεχνολογία. 6 o Κεφάλαιο Συστημικη Βιολογια (Systems Biology) Σχολή Μηχανολόγων Μηχανικών ΕΜΠ Αλεξόπουλος Λεωνίδας Εμβιομηχανική Βιοϊατρική Τεχνολογία 6 o Κεφάλαιο Συστημικη Βιολογια (Systems Biology) Σχολή Μηχανολόγων Μηχανικών ΕΜΠ Αλεξόπουλος Λεωνίδας Άδεια Χρήσης Το παρόν υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Βασίλειος Κοντογιάννης ΠΕ19

Βασίλειος Κοντογιάννης ΠΕ19 Ενότητα2 Προγραμματιστικά Περιβάλλοντα Δημιουργία Εφαρμογών 5.1 Πρόβλημα και Υπολογιστής Τι ονομάζουμε πρόβλημα; Πρόβλημα θεωρείται κάθε ζήτημα που τίθεται προς επίλυση, κάθε κατάσταση που μας απασχολεί

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Βάσεις Δεδομένων Ενότητα 1

Βάσεις Δεδομένων Ενότητα 1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 1: Εισαγωγή στις Ιωάννης Μανωλόπουλος, Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Περί της Ταξινόμησης των Ειδών

Περί της Ταξινόμησης των Ειδών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Tel.: +30 2310998051, Ιστοσελίδα: http://users.auth.gr/theodoru Περί της Ταξινόμησης

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ

ΚΕΦΑΛΑΙΟ 3 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΚΕΦΑΛΑΙΟ 3 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ Τα δεδομένα (data) είναι η αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της. Η συλλογή των ακατέργαστων δεδομένων και ο συσχετισμός

Διαβάστε περισσότερα

Κυτταρική Βιολογία. Ενότητα 01 : Εισαγωγή. Παναγιωτίδης Χρήστος Τμήμα Φαρμακευτικής ΑΠΘ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ

Κυτταρική Βιολογία. Ενότητα 01 : Εισαγωγή. Παναγιωτίδης Χρήστος Τμήμα Φαρμακευτικής ΑΠΘ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Κυτταρική Βιολογία Ενότητα 01 : Εισαγωγή Παναγιωτίδης Χρήστος ΑΠΘ Άδειες χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη.

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή Το λογισμικό της εννοιολογικής χαρτογράυησης Inspiration Η τεχνική της εννοιολογικής χαρτογράφησης αναπτύχθηκε από τον καθηγητή Joseph D. Novak, στο πανεπιστήμιο του Cornell. Βασίστηκε στις θεωρίες του

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 η ΕΝΟΤΗΤΑ: ΤΟ ΓΡΑΦΕΙΟ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 η ΕΝΟΤΗΤΑ: ΤΟ ΓΡΑΦΕΙΟ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 η ΕΝΟΤΗΤΑ: ΤΟ ΓΡΑΦΕΙΟ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Η Γέννηση του Σύγχρονου Γραφείου: Στις αρχές του 19 ου αιώνα οι επιχειρήσεις ήταν κύρια

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00) ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00) Πέτρος Ρούσσος ΔΙΑΛΕΞΗ 5 Έννοιες και Κλασική Θεωρία Εννοιών Έννοιες : Θεμελιώδη στοιχεία από τα οποία αποτελείται το γνωστικό σύστημα Κλασική θεωρία [ή θεωρία καθοριστικών

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Εκτίμηση αξίας ακινήτων με χρήση Συλλογιστικής Βασισμένης σε Περιπτώσεις (Case Based

Διαβάστε περισσότερα

Οικονόμου Παναγιώτης.

Οικονόμου Παναγιώτης. Οικονόμου Παναγιώτης panawths@gmail.com poikonomou@teilam.gr Οικονόμου Παναγιώτης 1 Παπαγεωργίου. 2 Αθήνα-Ελλάδα χρόνου 460 π.χ.? Ένας νεαρός άνδρας σκεπτόμενος το ενδεχόμενο γάμου, ζητά από τον Σωκράτη

Διαβάστε περισσότερα

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Διάλεξη 8: Σχεδίαση Συστήματος Σχεδίαση Συστήματος 2 Διεργασία μετατροπής του προβλήματος σε λύση. Από το Τί στο Πώς. Σχέδιο: Λεπτομερής περιγραφή της λύσης. Λύση:

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο Θέματα Σκοπός της διπλωματικής

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης Κεφάλαιο 7 1. Σε τι διαφέρει ο Η/Υ από τις υπόλοιπες ηλεκτρικές και ηλεκτρονικές συσκευές; Που οφείλεται η δυνατότητά του να κάνει τόσο διαφορετικές

Διαβάστε περισσότερα

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Μεταπτυχιακό Δίπλωμα Ειδίκευσης Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Δρ. Κακαρόντζας Γεώργιος Επίκουρος Καθηγητής Τμ. Μηχανικών Πληροφορικής Τ.Ε. Μηχανική Λογισμικού για Διαδικτυακές

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας Βιοπληροφορική Ι Παντελής Μπάγκος Παν/µιο Στερεάς Ελλάδας Λαµία 2006 1 Βιοπληροφορική Ι Εισαγωγή: Ορισµός της Βιοπληροφορικής, Υποδιαιρέσεις της Βιοπληροφορικής, Τα είδη των δεδοµένων στη Βιοπληροφορική.

Διαβάστε περισσότερα

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Διδακτική με έμφαση στις βιοεπιστήμες Μαρία Ευαγγελία Βασιλογιάννη Στοιχεία Μαθήματος 1. Μάθημα : Βιολογία 2. Τίτλος ενότητας: Η ροή της γενετικής

Διαβάστε περισσότερα

Σχεδίαση και Ανάπτυξη Ιστότοπων

Σχεδίαση και Ανάπτυξη Ιστότοπων Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων Πληροφοριακά Συστήματα Διοίκησης Διοικητική Επιστήμη και Λήψη Αποφάσεων Η πολυπλοκότητα των αποφάσεων Αυξανόμενη πολυπλοκότητα λόγω: Ταχύτητας αλλαγών στο εξωτερικό περιβάλλον της επιχείρησης. Έντασης

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΟΣ Διδάσκων: Γ. Χαραλαμπίδης, Επ. Καθηγητής

Διαβάστε περισσότερα

Ημερομηνία Παράδοσης: 4/1/2013

Ημερομηνία Παράδοσης: 4/1/2013 Δράση 9.14 / Υπηρεσία εντοπισμού λογοκλοπής Κυρίως Παραδοτέο / Εκπαίδευση προσωπικού βιβλιοθηκών μελών Σ.Ε.Α.Β στο πληροφοριακό σύστημα εντοπισμού λογοκλοπής. Επιμέρους Παραδοτέο 9.14.3.2 / Πρότυπα εκπαίδευσης

Διαβάστε περισσότερα

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική Δέσποινα Πόταρη Πανεπιστήμιο Πατρών Η έννοια της δραστηριότητας Δραστηριότητα είναι κάθε ανθρώπινη δράση που έχει ένα κίνητρο και ένα

Διαβάστε περισσότερα

Ερωτηματολόγιο προς καθηγητές φυσικών επιστημών

Ερωτηματολόγιο προς καθηγητές φυσικών επιστημών NTSE - Nano Technology Science Education Project No: 511787-LLP-1-2010-1-TR-KA3-KA3MP Ερωτηματολόγιο προς καθηγητές φυσικών επιστημών 1. Ποια θέματα στον τομέα των φυσικών επιστημών θεωρείτε ότι είναι

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1 Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1 Μια σύνοψη του Βιβλίου (ΟΠΙΣΘΟΦΥΛΛΟ): Η πλειοψηφία θεωρεί ότι η Νόηση είναι μια διεργασία που συμβαίνει στο ανθρώπινο εγκέφαλο.

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Μάθηση σε νέα τεχνολογικά περιβάλλοντα

Μάθηση σε νέα τεχνολογικά περιβάλλοντα ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μάθηση σε νέα τεχνολογικά περιβάλλοντα Ενότητα 10: Θεωρία Συνδεσιασμού Βασιλική Μητροπούλου-Μούρκα Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Η ΜΕΤΡΙΚΗ ΔΕΛΤΑ ΩΣ ΚΡΙΤΗΡΙΟ ΔΙΑΧΩΡΙΣΜΟΥ

Διαβάστε περισσότερα

Διδακτικές Τεχνικές (Στρατηγικές)

Διδακτικές Τεχνικές (Στρατηγικές) Διδακτικές Τεχνικές (Στρατηγικές) Ενδεικτικές τεχνικές διδασκαλίας: 1. Εισήγηση ή διάλεξη ή Μονολογική Παρουσίαση 2. Συζήτηση ή διάλογος 3. Ερωταποκρίσεις 4. Χιονοστιβάδα 5. Καταιγισμός Ιδεών 6. Επίδειξη

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου

Διαβάστε περισσότερα

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Τι είναι το FoundationOne ; Το FoundationOne είναι μια εξέταση που ανιχνεύει γενωμικές μεταβολές (π.χ. μεταλλάξεις) που είναι γνωστό ότι σχετίζονται με

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Πρόκειται για την έρευνα που διεξάγουν οι επιστήμονες. Είναι μια πολύπλοκη δραστηριότητα που απαιτεί ειδικό ακριβό

Διαβάστε περισσότερα

Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες

Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι. ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε. Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες Πτυχιακή εργασία Φοιτήτρια: Ριζούλη Βικτώρια

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας 215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας Το Τμήμα ασχολείται με τη διδασκαλία και την έρευνα στην επιστήμη και τεχνολογία των υπολογιστών και τη μελέτη των εφαρμογών τους. Το Τμήμα ιδρύθηκε το 1980 (ως

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Λαμπαδαρίδης Αντώνιος el04148@mail.ntua.gr Διπλωματική εργασία στο Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Επιβλέπων: Καθηγητής Τ. Σελλής Περίληψη

Διαβάστε περισσότερα

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. 4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. Η μετατροπή μιας εντολής επανάληψης σε μία άλλη ή στις άλλες δύο εντολές επανάληψης, αποτελεί ένα θέμα που αρκετές φορές έχει εξεταστεί σε πανελλαδικό

Διαβάστε περισσότερα

1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία

1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία 1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία Ο διδακτικός σχεδιασμός (instructional design) εμφανίσθηκε στην εκπαιδευτική διαδικασία και στην κατάρτιση την περίοδο

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Γενικοί και Ειδικοί Στόχοι

Γενικοί και Ειδικοί Στόχοι Ενότητα 2: Η οργάνωση της ζωής Γενικοί και Ειδικοί Στόχοι Κεφάλαιο 3: Η οργάνωση των οργανισμών Γενικοί Στόχοι: Φύλλα Εργασίας 3α Ανθρώπινος οργανισμός οργανικά συστήματα όργανα Α.1.18. Να διακρίνουν τα

Διαβάστε περισσότερα

Γονιδιωματική. G. Patrinos

Γονιδιωματική. G. Patrinos Γονιδιωματική Η μεταγονιδιωματική εποχή... Σημαντικότερα επιτεύγματα POST GENOME ERA Ολοκλήρωση της αποκρυπτογράφησης της αλληλουχίας των γονιδιωμάτων πολλών οργανισμών. Προτύπωση μεθοδολογιών για προσδιορισμό

Διαβάστε περισσότερα