Ελένη Αναστοπούλου MSc in Electronics

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ελένη Αναστοπούλου MSc in Electronics"

Transcript

1 ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΗΛΕΚΤΡΟΝΙΚΗΣ ΣΥΝΘΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΗΝ ΠΙΣΤΟΠΟΙΗΣΗ ΓΡΑΦΕΑ ΜΕ ΗΛΕΚΤΡΟΝΙΚΟ ΚΕΙΜΕΝΟ ΜΕΛΕΤΗ ΤΩΝ N-GRAMS Ελένη Αναστοπούλου MSc in Electronics Α.Μ.:139 ΠΑΤΡΑ

2 2

3 Πρόλογος Η πτυχιακή αυτή εργασία πραγματοποιήθηκε στο Εργαστήριο Ηλεκτρονικής του Τμήματος Φυσικής του Πανεπιστημίου Πατρών υπό την Επίβλεψη του Καθηγητή κ. Αναστασόπουλο Βασίλη, τον οποίο ευχαριστώ για την ευκαιρία που μου προσέφερε να εργαστώ πάνω σε αυτό το θέμα και τις πολύτιμες γνώσεις και εκπαίδευση που απέκτησα κάτω από την καθοδήγηση του. Θα ήθελα να ευχαριστήσω την κα Γεωργία Κούκιου για την σημαντική βοήθεια που μου προσέφερε κατά την διάρκεια της επεξεργασίας των δεδομένων και κυρίως στην χρήση των δικτύων νευρωνίων στην αναγνώριση του ύφους ηλεκτρονικού κειμένου. Κυρίως όμως θέλω να την ευχαριστήσω για το χρόνο που μου αφιέρωσε και την υπομονή που έδειξε σε όλη την διάρκεια της εργασίας. Τέλος, θέλω να ευχαριστήσω τον καθηγητή κ. Ευστάθιο Σταματάτο δεδομένου ότι η εργασία αυτή δεν θα είχε γίνει χωρίς την δική του συμπαράσταση. Ελένη Αναστοπούλου Μάρτης

4 4

5 ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγή Σελίδα 1.1 Υφομετρική ανάλυση Υφομετρικές μελέτες απόδοσης συγγραφέα Υφομετρικά χαρακτηριστικά-μέθοδοι ταυτοποίησης Διάθρωση διεπιστημονικής εργασίας Κεφάλαιο 2 Δεδομένα και εργαλεία ανάλυσης κειμένου 2.1 Αναφορά σε βάσεις (corpus) με κείμενα συγγραφέων Ορισμός ερευνητικού προβλήματος Εργαλεία εξαγωγής πληροφορίας από τα κείμενα Περιγραφή της βάσης που χρησιμοποιήσαμε. 16 Κεφάλαιο 3 Ν-γράμματα χαρακτήρων και μέτρα ομοιότητας 3.1 Ν-γράμματα χαρακτήρων Ερευνητική προσπάθεια μέχρι σήμερα Κοινή μέθοδος ν-γραμμάτων Απόσταση d0 P( x), P( T a) Απόσταση SPI Απόσταση d1 P( x), P( T a) Απόσταση d2 P( x), P( Ta ), P( N ) Μελέτη του τρόπου εμφάνισης των n-grams Συχνότητα εμφάνισης των n-grams στο κείμενο Σχόλια για την συχνότητα εμφάνισης...24 Κεφάλαιο 4 Πειραματικά αποτελέσματα 4.1. Σχόλια στις αποστάσεις Majority voting Αξιολόγηση των 3-grams χρησιμοποιώντας διάφορες αποστάσεις Τρόπος συν-εμφάνισης των 4grams Τεχνικά Νευρωνικά Δίκτυα στην αναγνώριση συγγραφέα.39 Κεφάλαιο 5 Συμπεράσματα και προτάσεις για περαιτέρω έρευνα...42 ΠΑΡΑΡΤΗΜΑ Α Εύρεση επιτυχίας με την απόσταση d1n για όλα τα ngram 43 ΠΑΡΑΡΤΗΜΑ Β Πρόγραμμα εύρεσης ομοιότητας των profiles

6 6

7 Κεφάλαιο 1 ΕΙΣΑΓΩΓΗ 1.1 Υφομετρική Ανάλυση Η έννοια του ύφους έχει απασχολήσει τον άνθρωπο από πολύ παλιά. Αν θα μπορούσαμε να δώσουμε έναν ορισμό θα λέγαμε ότι ύφος είναι το σύνολο των ιδιαιτεροτήτων που χαρακτηρίζουν το άτομο στο γραπτό και προφορικό λόγο. Στόχος της υφομετρίας είναι η αναπαράσταση του ύφους ενός κειμένου με βάση τη μέτρηση παραμέτρων που συχνά καλούνται δείκτες ύφους. Δηλαδή η υφομετρική ανάλυση προσπαθεί να ποσοτικοποιήσει τη γλώσσα ενός κειμένου, με σκοπό να ανιχνευτούν διάφορα χαρακτηριστικά που μπορούν να μετρηθούν αυτόματα από υπολογιστικά εργαλεία. 1.2 Υφομετρικές Μελέτες Απόδοσης Συγγραφέα Ήδη από τον 18 ο αιώνα έως σήμερα, η υφομετρία ως μέθοδος απόδοσης συγγραφικής πατρότητας εξελίχθηκε ταχύτατα. Η πρώτη προσπάθεια να ποσοτικοποιηθεί το ύφος κειμένων γίνεται από τον Mendenhall (1887) στα έργα του Σαιξπηρ. Ακολουθούν στα μισά του 20 ου αιώνα στατιστικές μελέτες του Yule (1938,1944) και του Zipf (1932). Όμως το πιο διάσημο πρόβλημα συγγραφικής πατρότητας του 20 ου αιώνα, το οποίο μελετήθηκε από τους Mosteller και Wallace (1964), είναι τα Ομοσπονδιακά Κείμενα των ΗΠΑ (The Federalist papers). Γράφτηκαν από τους Alexander Hamilton, John Jay και James Madison με στόχο να πείσουν τους πολίτες να επικυρώσουν το σύνταγμα των ΗΠΑ. Η μέθοδός τους βασίστηκε στην Bayesian στατιστική ανάλυση της συχνότητας κοινών λέξεων. Από τότε και μέχρι την πρόσφατη δεκαετία του 90 η έρευνα στην απόδοση συγγραφέα έχει εστιάσει στα χαρακτηριστικά ύφους, γνωστή ως «stylometry» (Holmes 1998). Τα μέτρα αυτά συμπεριλαμβάνουν το μήκος πρότασης, μήκος λέξης, συχνότητα λέξης και την αφθονία λεξιλογίου. 1.3 Υφομετρικά Χαρακτηριστικά-Μέθοδοι Ταυτοποίησης Η εργασία αυτή στοχεύει να παρουσιάσει έναν κλάδο της επιστήμης που διερευνά τρόπους με τους οποίους μπορούμε να προσδιορίσουμε αυτόματα τον συγγραφέα ενός κειμένου. Αυτό απαιτεί την συνεργασία επιστημών όπως η Γλωσσολογία, η Ανάκτηση 7

8 πληροφορίας, η Στατιστική και η Μηχανική Μάθηση. Η έρευνα την τελευταία δεκαετία έχει σημειώσει πρόοδο στον αυτόματο εντοπισμό συγγραφέα, τόσο ως προς την αξιοπιστία των μεθόδων που χρησιμοποιεί, όσο και ως προς την αποτελεσματικότητα τους. Θα ασχοληθούμε με προβλήματα στα οποία θα εντοπίσουμε την πατρότητα ενός ή περισσότερων ανώνυμων κειμένων μέσα από μια συγκεκριμένη βάση δεδομένων, όπου υπάρχουν δείγματα γραφής ηλεκτρονικού κειμένου. Τέτοιου είδους προβλήματα επιλύονται με την μέθοδο ταξινόμησης. Η μέθοδος αυτή στην ουσία εκπαιδεύει έναν αλγόριθμο, όπου στην είσοδό του δέχεται δεδομένα εκπαίδευσης όπως τα υφομετρικά χαρακτηριστικά ενός κειμένου, με σκοπό στην έξοδο να προβλέπεται με ακρίβεια ο συγγραφέας. Για την εκπαίδευση του αλγορίθμου θα πρέπει να μετατρέψουμε το κείμενο σε μια σειρά μετρήσεων. Επιλέγουμε τα κειμενικά χαρακτηριστικά που θα ποσοτικοποιηθούν και στη συνέχεια με το κατάλληλο λογισμικό γίνεται το μέτρημα. Τα χαρακτηριστικά που μπορεί να επιλέξει κανείς σε ένα κείμενο είναι αρκετά σε γλωσσικό επίπεδο. Συνήθως όμως επιλέγονται αυτά που μπορούν να μετρηθούν αυτόματα με εργαλεία Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing). Το σύνολο των μετρήσεων που κάνουμε στα κείμενα ενός συγγραφέα δημιουργούν το υφομετρικό του προφίλ, το οποίο μπορεί να συγκριθεί με άλλα διαφορετικών συγγραφέων και να εξάγουμε τα σχετικά συμπεράσματα. Οι μέχρι τώρα μελέτες για να αποδώσουν το ύφος γραψίματος ενός κειμένου έχουν ταξινομήσει τα χαρακτηριστικά γνωρίσματα (stylometric features) σε: Λεξιλογικά χαρακτηριστικά Σε αυτή την περίπτωση το κείμενο εμφανίζεται ως μια ακολουθία σημείων που μπορεί να αντιστοιχεί σε λέξεις, αριθμούς ή σημεία στίξης. Τα πρώτα μέτρα που χρησιμοποιήθηκαν ήσαν το μήκος πρότασης και το μήκος λέξης. Σε αυτό συμβάλει το μέγεθος του λεξιλογίου που καθορίζει το μήκος του κειμένου. Μια άλλη προσέγγιση του ύφους ενός κειμένου είναι η συχνότητα των λέξεων. Οι πιο κοινές λέξεις (άρθρα, προθέσεις κλπ) είναι τα καλύτερα χαρακτηριστικά γνωρίσματα για να συγκρίνει κανείς συγγραφείς, επειδή δεν φέρνουν σημασιολογικές πληροφορίες και καλούνται λέξεις λειτουργίας. Τέλος στην κατηγορία των λεξιλογικών χαρακτηριστικών ανήκουν τα ν-γράμματα (n-grams) χαρακτήρων, τα οποία αποτελούν ένα από τα πιο σημαντικά υφομετρικά χαρακτηριστικά στον ακριβή εντοπισμό 8

9 συγγραφέα. Πιο συγκεκριμένα, ν-γράμμα είναι μια συνεχόμενη ακολουθία ν τεμαχίων ενός κειμένου. Συντακτικά χαρακτηριστικά Μια άλλη μέθοδος ταξινόμησης κειμένων είναι οι συντακτικές πληροφορίες. Συνήθως οι συγγραφείς ασυναίσθητα χρησιμοποιούν παρόμοια συντακτικά πρότυπα. Για να εξάγουμε συντακτικές πληροφορίες από τα κείμενα που θα βοηθήσουν στην αναγνώριση συγγραφέα χρειαζόμαστε ένα εργαλείο, ικανό να εκτελεί την συντακτική ανάλυση. Εδώ βέβαια είναι απαραίτητη η βοήθεια της γλωσσολογίας. Η χρήση της αυτόματης συντακτικής ανάλυσης (parsing) διαδόθηκε την δεκαετία του 90 και αποτελεί ένα εξελισσόμενο εργαλείο της επεξεργασίας φυσικής γλώσσας. Στην υφομετρική ανάλυση, οι πληροφορίες που εξάγονται από τη χρήση της σύνταξης βασίζονται στον τρόπο με τον οποίο ο συγγραφέας συνδυάζει τις γλωσσικές κατηγορίες για να πάρει γραμματικά ορθές προτάσεις. Επομένως οι φράσεις ενός κειμένου μπορούν να κατηγοριοποιηθούν συντακτικά σε ονοματικές, ρηματικές, προθετικές, επιρρηματικές κλπ. Επίσης αρκετές έρευνες στην αναγνώριση συγγραφέα έχουν εξετάσει υφομετρικά χαρακτηριστικά που προκύπτουν από το βάθος του συντακτικού δέντρου. Μια πρόταση μπορεί να αναλυθεί ως εξής: Π ΟΦ ΡΦ Α Ο Ρ ΟΦ ΠΦ Α Ο Π ΟΦ Α Ο Όπου: Π: πρόταση, ΟΦ: ονοματική φράση, ΡΦ: ρηματική φράση, ΠΦ: προθετική φράση, Α: άρθρο, Ο: ουσιαστικό, Ρ: ρήμα. Το βάθος της διακλάδωσης της πρότασης αντιστοιχεί σε μια αριθμητική τιμή από την οποία εξάγεται το ιστόγραμμά της. 9

10 Ακόμα στο κομμάτι του συντακτικού τομέα εντάσσονται και τα μέρη του λόγου (parts of speech). Η ανάλυση ενός κειμένου σε γραμματικές κατηγορίες χρησιμοποιήθηκαν για την απόδοση συγγραφέα, ήδη από το Yule (1944). Συγκεκριμένα μετρούσε την συχνότητα των μερών του λόγου (ουσιαστικά, ρήματα κ.α). Πλέον στις μέρες μας τα μέρη του λόγου ως υφομετρικά χαρακτηριστικά είναι σημαντικά, γιατί με την βοήθεια της επεξεργασίας φυσικής γλώσσας υπάρχουν διαθέσιμοι μορφολογικοί αναλυτές που επιτρέπουν την κατηγοριοποίηση ενός κειμένου σε μέρη του λόγου. Για παράδειγμα ένα τέτοιο λογισμικό αναλύει την πρόταση «Η Ελένη γράφει το κείμενο» σε «Η_ άρθρο Ελένη_ ουσιαστικό γράφει_ ρήμα το_ άρθρο κείμενο_ ουσιαστικό». Αυτό έχει σαν αποτέλεσμα όταν αναλυθεί το κείμενο σε μέρη του λόγου να μετρήσουμε την κανονικοποιημένη συχνότητα τους ως προς το συνολικό μέγεθος του κειμένου. Στην συνέχεια οι τιμές αυτές εισάγονται ως δεδομένα εκπαίδευσης σε έναν αλγόριθμο κατηγοριοποίησης. Σημασιολογικά χαρακτηριστικά Η σημασιολογική ανάλυση είναι μια πιο σύνθετη διαδικασία στην γλωσσική έρευνα και για αυτό στην απόδοση συγγραφικής πατρότητας λίγες έρευνες κάνουν χρήση σημασιολογικών χαρακτηριστικών. Τα χαρακτηριστικά αυτά εστιάζουν στον τρόπο με τον οποίο κάθε συγγραφέας χρησιμοποιεί τις έννοιες φτιάχνοντας το προσωπικό του στυλ. Ο Gamon (2004) με ένα ειδικό λογισμικό δημιούργησε σημασιολογικούς γράφους και μέτρησε τα σημασιολογικά χαρακτηριστικά και τις σημασιολογικές σχέσεις τροποποίησης. Στην πρώτη περίπτωση εντάσσονται ο αριθμός των ονομάτων και αντωνυμιών και η ενέργεια των ρημάτων. Στην δεύτερη περίπτωση ανήκουν οι σχέσεις που έχουν δυο εξαρτημένοι κόμβοι. Άλλες μελέτες όπως του Argamon (2007) εισάγουν την θεωρία της συστημικής λειτουργικής γραμματικής (systemic functional grammar), η οποία μετράει λειτουργικά λεξικά χαρακτηριστικά δημιουργώντας ένα δίκτυο νοημάτων. Ένα τέτοιο δίκτυο είναι η Συνοχή (conjunction) που αποτελείται από λέξεις οι οποίες συνδέουν τις προτάσεις του κειμένου (π.χ. το «και», «ενώ» κ.α.). Τέλος στον αυτόματο εντοπισμό συγγραφέα έχει συμβάλει το Wordnet. Μια λεξική βάση δεδομένων της Αγγλικής που περιλαμβάνει ουσιαστικά, επίθετα, ρήματα και επιρρήματα, τα οποία ομαδοποιούνται σε συνώνυμα. Με αυτό τον τρόπο διασυνδέονται όχι μόνο οι λέξεις αλλά και οι έννοιες τους (π.χ. υπώνυμα, υπερώνυμα κ.α.). Οι ερευνητές καταλήγουν στο συμπέρασμα ότι κάθε 10

11 συγγραφέας έχει διαφορετικούς τρόπους για να επιλέξει συνώνυμα στο κείμενο του και το χαρακτηριστικό αυτό βοηθάει στον εντοπισμό του. 1.4 Διάθρωση της διεπιστημονικής εργασίας Η εργασία αυτή περιλαμβάνει στην συνέχεια τέσσερα κεφάλαια τα οποία έχουν ως εξής. Στο κεφάλαιο 2 περιγράφονται τα σύγχρονα εργαλεία ανάλυσης κειμένου αλλά και οι βάσεις δεδομένων (Corpus) που είναι διαθέσιμα. Περιγράφεται επίσης η βάση δεδομένων που χρησιμοποιούμε για να εξάγουμε πειραματικά αποτελέσματα. Στο κεφάλαιο 3, γίνεται εισαγωγή στα n-grams και αναπτύσσονται τα βασικότερα μέτρα ομοιότητας τα οποία είναι απαραίτητα για τον διαχωρισμό του ύφους γραφής από ηλεκτρονικό κείμενο. Στο κεφάλαιο 4 παρουσιάζονται τα πειραματικά αποτελέσματα που έχουν ληφθεί με τα n-grams. Σε αυτά περιλαμβάνονται και τα δίκτυα νευρωνίων. Τέλος στο κεφάλαιο 5 δίνονται τα συμπεράσματα και προτάσεις για περαιτέρω έρευνα στον τομέα αυτόν. 11

12 ΚΕΦΑΛΑΙΟ 2 ΔΕΔΟΜΕΝΑ ΚΑΙ ΕΡΓΑΛΕΙΑ ΑΝΑΛΥΣΗΣ ΚΕΙΜΕΝΟΥ 2.1 Αναφορά σε βάσεις (corpus) με κείμενα συγγραφέων. Η παράγραφος αυτή θα αναφερθεί σε ηλεκτρονικά σώματα κατάρτισης (dataset) που έχουν αναπτυχθεί στη διεθνή έρευνα και στοχεύουν στην διερεύνηση της συγγραφικής πατρότητας. Θα περιγραφούν οι πιο δημοφιλείς βάσεις που περιέχουν κείμενα συγγραφέων από τις οποίες εξάγονται υφομετρικά χαρακτηριστικά που συμβάλλουν στην αναγνώριση γραφέα. Μερικές βάσεις δεδομένων (corpus) που συγκεντρώνουν ένα ικανοποιητικό αριθμό κειμένων από υποψήφιους συγγραφείς είναι οι εξής: a. Reuters Corpora (RCV1, RCV2, TRC2) Κυκλοφόρησε το Περιλαμβάνει μια μεγάλη συλλογή κειμένων για χρήση στην έρευνα και την ανάπτυξη της φυσικής γλώσσας επεξεργασίας (NLP), την ανάκτηση πληροφοριών και τα συστήματα μηχανικής μάθησης. Από το 2004 την διαχείριση αυτής της βάσης έχει αναλάβει το Εθνικό Ινστιτούτο Επιστήμης και Τεχνολογίας (NIST). Το σώμα αυτό είναι γνωστό ως «Reuters Corpus Volume». Η συλλογή αυτή έχει βοηθήσει στις πειραματικές έρευνες ταξινόμησης κειμένου. Τα δεδομένα διατίθονται από τις βάσεις: RCV1: Περιέχει κείμενα αγγλικής γλώσσας γραμμένα την χρονική περίοδο ως Διανέμεται σε δυο CDs περίπου 2.5 GB. RCV2: Περιέχει κείμενα σε δεκατρείς γλώσσες (ολλανδικά, γαλλικά, γερμανικά, κινέζικα, ιαπωνικά, ρώσικα, πορτογαλικά, ισπανικά, ιταλικά, δανικά, νορβηγικά, και σουηδικά). Είναι άρθρα τοπικών εφημερίδων και διανέμεται σε ένα CD. TRC2 (Thomson Reuters Collection): αποτελείται από ειδήσεις που καλύπτουν την χρονική περίοδο ως Η βάση αυτή διανέμεται μέσω web. 12

13 b. British National Corpus (BNC) To BNC είναι μια συλλογή από 100 εκατομμύρια λέξεις στα βρετανικά αγγλικά του 20 ου αιώνα. Αποτελείται από δύο μέρη. Το γραπτό μέρος (90%) περιλαμβάνει αποσπάσματα κειμένων από εφημερίδες, ειδικευμένα περιοδικά, περιοδικά για διάφορες ηλικίες και ενδιαφέροντα, ακαδημαϊκά βιβλία, λογοτεχνία κλπ. Το προφορικό μέρος (10%) αποτελείται από συζητήσεις που καταγράφονται από εθελοντές διαφορετικής ηλικίας, περιοχής και κοινωνικής τάξης. Το σώμα είναι κωδικοποιημένο σύμφωνα με τις κατευθυντήριες γραμμές της πρωτοβουλίας κωδικοποίησης κειμένου. Τα κείμενα που επιλέχθηκαν για να συμπεριληφθούν στο σώμα καλύπτουν τα εξής κριτήρια: το τομέα, το χρόνο και το μέσο δημοσίευσης. c. Το σώμα κατάρτισης ιστολογιών (blogs) Τα κείμενα των ιστολογιών έχουν σημαντικό γλωσσικό ενδιαφέρον γιατί συνδυάζουν προσωπική ειδησεογραφία του κάθε γραφέα αλλά και αναφορά σε επίκαιρα γεγονότα. Τα ιστολόγια έχουν ευρεία χρήση στο διαδίκτυο. Παράγουν αναρτήσεις κάθε μέρα και διαβάζονται από τους χρήστες του διαδικτύου. Στο βιβλίο του ο Μικρός (2012) αναφέρει ότι χρησιμοποίησε μια βάση με 1000 αναρτήσεις ιστολογιών από 20 γραφείς με 50 αναρτήσεις ο καθένας. Το συνολικό μέγεθος της βάσης είναι λέξεις περίπου. d. Βάση δεδομένων GRUHD Περιέχει ελληνικούς χαρακτήρες, λέξεις, ψηφία και σύμβολα σε χειρόγραφη μορφή. Η βάση αυτή αποτελείται από φόρμες που περιέχουν 670 χειρόγραφα σύμβολα και 103 λέξεις γραμμένες από γραφείς, 500 άνδρες και 500 γυναίκες. Η βάση GRUHD (Kavalieratou 2001) συνοδεύεται από το κατάλληλο λογισμικό που διευκολύνει την εγκατάσταση και επιτρέπει στο χρήστη να εξάγει και να επεξεργάζεται τα δεδομένα. 2.2 Ορισμός ερευνητικού προβλήματος Στην παρούσα εργασία θα ασχοληθούμε με κλειστά προβλήματα απόδοσης συγγραφέα. Πιο αναλυτικά γνωρίζουμε εκ των προτέρων ότι το άγνωστο κείμενο έχει γραφτεί από συγκεκριμένους συγγραφείς για τους οποίους διαθέτουμε μια βάση κειμένων από αυτούς τους συγγραφείς. 13

14 Έστω ότι έχουμε ένα άγνωστο κείμενο και την πατρότητα την διεκδικούν περιορισμένος αριθμός γραφέων (όπως αναφέρεται παρακάτω οι συγγραφείς είναι δέκα). Χρειάζεται να γίνουν κάποια βήματα για να αναλυθεί υφομετρικά το πρόβλημα, ώστε το κείμενο να αποδοθεί στο σωστό γραφέα. Στη συνέχεια θα αναφέρουμε τις ενέργειες, οι οποίες πρέπει να γίνουν για να φτάσουμε στη λύση του προβλήματος. Πρώτα από όλα απαιτείται η κατάλληλή βάση συγγραφέων. Πρέπει να συγκεντρωθεί ένας ικανοποιητικός αριθμός κειμένων από συγγραφείς. Συνήθως αυτό είναι μια δύσκολη διαδικασία γιατί όπως αναφέραμε στην προηγούμενη παράγραφο τα κείμενα που θα επιλεχτούν για να πλαισιώσουν την βάση πρέπει να είναι ομοιογενή. Δηλαδή τα υφομετρικά χαρακτηριστικά σχετίζονται με το είδος του κειμένου, την περιοχή, το μέσο δημοσίευσης, την χρονική περίοδος κλπ. Έπειτα αφού οριστεί το σώμα κατάρτισης πρέπει να μετρηθούν τα υφομετρικά χαρακτηριστικά. Ποιοι δείκτες θα επιλεχτούν εξαρτάται από τον ερευνητή, το είδος του κειμένου που εξετάζει, τα εργαλεία που έχει στη διάθεση του για να κάνει την μέτρηση και τι πληροφορία μπορούν να του δώσουν. Επομένως άλλοτε επιλέγονται λεξικά χαρακτηριστικά, άλλοτε συντακτικά και ούτω κάθε εξής. Τέλος θα πρέπει να αναφερθεί ότι είναι αναγκαίο να είναι γνωστή και η ακρίβεια των εργαλείων τα οποία κάνουν την μέτρηση. Για παράδειγμα αν κάποιος κάνει συντακτική ανάλυση σε ένα κείμενο πρέπει να ξέρει τα ποσοστά ακρίβειας και τι λάθη κάνει ο αναλυτής (parser) που διαθέτει. Το επόμενο βήμα είναι η εκπαίδευση του αλγορίθμου. Ολοκληρώνοντας την μέτρηση των υφομετρικών δεικτών και δημιουργώντας τους πίνακες δεδομένων ήρθε η ώρα της ανάλυσής τους. Σε αυτό ρόλο θα παίξει η επιλογή του κατάλληλου αλγορίθμου ταξινόμησης. Στη βιβλιογραφία θα βρει κανείς μεγάλη ποικιλία αλγορίθμων. Αρκετοί από αυτούς απαιτούν ένα βασικό μαθηματικό υπόβαθρο που πρέπει να γνωρίζει ο ερευνητής για να κάνει την σωστή επιλογή που θα του δώσει την μεγαλύτερη αξιοπιστία. Στη συνέχεια ακολουθεί η αξιολόγηση της μηχανικής μάθησης. Η εκπαίδευση του αλγορίθμου σχετίζεται άμεσα με τα δεδομένα εκπαίδευσης που του δόθηκαν. Η επιβεβαίωση της μάθησης γίνεται με την βοήθεια των δεδομένων ελέγχου (test corpus). Τα δεδομένα αυτά αξιολογούν αν η μάθηση είναι τοπική ή γενική. Το τελευταίο βήμα είναι η απόδοση της συγγραφικής πατρότητας. Εφόσον αξιολογηθεί ο αλγόριθμος και είναι γνωστή η ακρίβεια του συνδυασμού των χαρακτηριστικών με αυτόν, εισχωρούμε στην απόδοση του άγνωστου κειμένου. 14

15 2.3 Εργαλεία εξαγωγής πληροφορίας από τα κείμενα Όπως έχει προαναφερθεί, αφού οριστεί η κατάλληλη βάση συγγραφέων με ένα ικανοποιητικό αριθμό κειμένων, η επόμενη ενέργεια είναι η μέτρηση των υφομετρικών χαρακτηριστικών στα κείμενα. Αυτό επιτυγχάνεται με ειδικά εργαλεία που έχουν σχεδιαστεί με τέτοιο τρόπο, ώστε να μετράνε μια γκάμα δεικτών στα κείμενα και να δημιουργούν πίνακες δεδομένων στους οποίους τα χαρακτηριστικά είναι οι στήλες και τα κείμενα οι σειρές. Τέτοια εργαλεία που χρησιμοποιούνται για να εξάγουν πληροφορία από τα κείμενα είναι τα εξής: 1. Αναλυτής λεξικών μονάδων: Το λογισμικό αυτό αναλύει τα κείμενα μιας βάσης συγγραφέων και βρίσκει τις βασικές λεξικές μονάδες (tokens) και τις μετατρέπει σε πεζά γράμματα. Ο όρος βασικές λεξικές μονάδες αναφέρεται στο μήκος λέξης, μήκος πρότασης, ορθογραφικά λάθη κλπ. 2. Εργαλείο μέτρησης ν-γραμμάτων: Μετράει τη σχετική συχνότητα των ν- γραμμάτων χαρακτήρων και λέξεων σε μια βάση κειμένων. Συμπεριλαμβάνει τα κενά και τα σημεία στίξης στα αποτελέσματα. 3. Εργαλείο μέτρησης λεξικών χαρακτηριστικών: Μετράει τη σχετική συχνότητα εμφάνισης συγκεκριμένων λέξεων που έχει ορίσει ο χρήστης εκ των προτέρων. 4. Μορφολογικός αναλυτής (Part of Speech Tagger): Γνωστοί μορφολογικοί αναλυτές είναι: ο Tree Tagger, ο οποίος τρέχει τα κείμενα και εξάγει μορφολογική πληροφορία και εφαρμόζεται και στα ελληνικά κείμενα. 5. Εργαλείο μέτρησης υφομετρικών χαρακτηριστικών: Το λογισμικό αυτό αναλύει τα κείμενα και μετράει δείκτες όπως: την σχετική συχνότητα των λέξεων που εμφανίζονται στο κείμενο με συχνότητα ένα και δυο, το μέσο μήκος λέξης, το μέσο μήκος πρότασης, τη συχνότητα γραμμάτων, την συχνότητα των σημείων στίξης κ.α. Ο κλάδος ο οποίος ασχολείται με την αξιολόγηση της πληροφορίας στα κείμενα, λέγεται Natural Language Processing (NLP). Η στατική επεξεργασία των δεδομένων λέγεται Statistical NLP και μπορεί να μας δώσει συμπεράσματα για πολλά χαρακτηριστικά του κειμένου. Για παράδειγμα μπορούμε να ψάχνουμε τον τρόπο εμφάνισης των προθέσεων σε ένα κείμενο και να αποφασίζουμε για τον γραφέα. Τρία είναι τα αντικείμενα ή οι περιοχές στην στατιστική επεξεργασία της γλώσσας: α) Να 15

16 χωρίσουμε τα δεδομένα εκπαίδευσης σε κατηγορίες, β) να βρούμε καλούς στατιστικούς εκτιμητές για κάθε κατηγορία και να συνδυάσουμε πολλαπλούς εκτιμητές. Στην εργασία αυτή γίνεται στατιστική μελέτη των n-grams. Χρησιμοποιούμε ως χαρακτηριστικό την πιθανότητα εμφάνισης συγκεκριμένου n-grams (π.χ. 4-grams) και για κάθε ένα κείμενο συγκεκριμένου γραφέα το τελικό χαρακτηριστικό είναι η κατανομή (πιθανότητα εμφάνισης) όλων των n-grams (4-grams) που εμφανίζονται στο κείμενο. Πρόκειται στην πράξη για διακριτή πυκνότητα πιθανότητας (ιστόγραμμα), που τα στοιχεία της αθροίζουν στην μονάδα. Η σύγκριση (estimation process) διαφορετικών κειμένων και η συμπερασματολογία θα στηριχθεί στη σύγκριση αυτών των ιστογραμμάτων. 2.4 Περιγραφή της βάσης που χρησιμοποιήσαμε Για να εξετάσουμε το πρόβλημα που περιγράψαμε σε προηγούμενες παραγράφους, έπρεπε να διαθέτουμε βάση δεδομένων με κείμενα συγγραφέων. Η βάση που επιλέξαμε περιλαμβάνει μια συλλογή κειμένων ειδησεογραφικού χαρακτήρα από δέκα συγγραφείς που γράφτηκαν στην ίδια εφημερίδα (ΤΟ ΒΗΜΑ), με παρόμοια θεματογραφία και την χρονική περίοδο 1997 ως Οι δημοσιογράφοι που αρθρογραφούν είναι: ο Μπήτρος, ο Χαλβατζής, ο Λακόπουλος, ο Λιανός, ο Μαράκης, ο Μητρόπουλος, ο Νικολακόπουλος, ο Νικολάου, ο Ψυχογιός και ο Σωμερίτης. Η βάση περιλαμβάνει συνολικά 200 κείμενα από 10 κείμενα σε κάθε γραφέα τα οποία χρησιμοποιούνται για την εκπαίδευση (training) και 10 κείμενα από κάθε συγγραφέα, επίσης τα οποία χρησιμοποιούνται για τον έλεγχο του αλγορίθμου αναγνώρισης. Επιπλέον υπάρχει μια παρόμοια βάση με άλλους 10 συγγραφείς για περαιτέρω έλεγχο. Συνολικά είναι διαθέσιμα 400 κείμενα. Στον πίνακα 1 που ακολουθεί δίνονται τα περιγραφικά στατιστικά στοιχεία του σώματος εκπαίδευσης Πίνακας 1. Το ένα τέταρτο της διαθέσιμης βάσης με συγγραφείς και τα χαρακτηριστικά του. Συγγραφείς Αριθμός Μ.Ο. Μέγιστο Ελάχιστο κειμένων χαρακτήρων μέγεθος μέγεθος ανά κείμενο Μπήτρος

17 Χαλβατζής Λακόπουλος Λιανός Μαράκης Μητρόπουλος Νικολακόπουλος Νικολάου Ψυχογιός Σωμερίτης Παρατηρώντας τα περιγραφικά στοιχεία βλέπουμε διαφορές ως προς το μέγεθος των κειμένων των συγγραφέων. Κάποια κείμενα είναι πολύ μεγάλα σε χαρακτήρες σε σχέση με το μέσο όρο και κάποια άλλα αρκετά μικρά. Τα πιο μικρά δέκα κείμενα φαίνεται να είναι του Ψυχογιού. Επομένως παρόλο που οι συγγραφείς μοιράζονται πάνω κάτω τα ίδια χαρακτηριστικά το μήκος των κειμένων τους διαφοροποιείται αισθητά. 17

18 ΚΕΦΑΛΑΙΟ 3 Ν-ΓΡΑΜΜΑΤΑ ΧΑΡΑΚΤΉΡΩΝ ΚΑΙ ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ 3.1 Ν-γράμματα χαρακτήρων Τα ν-γράμματα χαρακτήρων (n-grams) αποτελούν ένα από τα πιο αξιόπιστα υφομετρικά χαρακτηριστικά στην απόδοση συγγραφικής πατρότητας. Με τον όρο ν- γράμμα εννοούμε μια ακολουθία ν τεμαχίων από ένα συγκεκριμένο κείμενο. Μπορεί να έχουμε ν-γράμματα με βάση τον χαρακτήρα, την συλλαβή, τη λέξη, τα σημεία στίξης κλπ. Οι διάφορες τιμές του ν δημιουργούν ν-γράμματα διαφορετικού μήκους. Έτσι για ν=1 έχουμε τα μονογράμματα (unigrams), για ν=2 τα διγράμματα (2-grams), για ν=3 τα γράμματα τριών χαρακτήρων (3-grams) κλπ. Για να γίνουμε πιο σαφείς θα δώσουμε ένα παράδειγμα ανάλυσης μιας πρότασης σε τριγράμματα. Έστω ότι η πρόταση είναι: «Ο ναύτης εργάζεται στα καράβια». Η ανάλυσή της γίνεται ως εξής: [Ο_ν], [ναυ], [υτη], [ης_], [_ερ], [ργα], [αζε], [ετα], [αι_], [_στ], [τα_], [_κα], [αρα], [αβι], [ια.]. Ο χωρισμός ενός κειμένου σε ν-γράμματα περιλαμβάνει όλους τους γραμματικούς χαρακτήρες και τα σημεία στίξης. Η εξαγωγή τους γίνεται με μηχανικό τρόπο και δεν απαιτεί ιδιαίτερες γνώσεις γλωσσολογίας, επειδή δεν κάνουν χρήση κανόνων σχηματισμού γλωσσικών μονάδων. Όταν τα ν-γράμματα εξαχθούν μετράμε την συχνότητα εμφάνισή τους. Τα πλεονεκτήματα των ν-γραμμάτων: Υπολογίζονται εύκολα και γρήγορα. Είναι ανεξάρτητα από την γλώσσα γραφής. Μπορούν να συλλάβουν διάφορα χαρακτηριστικά του ύφους. Δεν επηρεάζονται από τα διάφορα ορθογραφικά λάθη. Για ιστορικούς λόγους μπορούμε να αναφέρουμε ότι οι επιστήμονες που ασχολούνται με την ανάλυση κειμένων, είχαν παλαιότερα την τάση να χρησιμοποιούν στα n-grams ελληνική ονοματολογία, όπως digram, trigram and tetragram. Το πλήθος των n-grams που θα συναντήσουμε σε ένα κείμενο εξαρτάται από το μέγεθος του κειμένου (πλήθος χαρακτήρων) και την τιμή του n. Είναι προφανές ότι τα 2-grams σε ένα κείμενο θα είναι λίγα συγκρινόμενα με τα 4-grams στο ίδιο κείμενο. 18

19 Συνέπεια αυτού είναι ότι τα ιστογράμματα για τα 4-grams να είναι πολύ μεγαλύτερα από τα αντίστοιχα για τα 2-grams. 3.2 Ερευνητική προσπάθεια μέχρι σήμερα Ο πρώτος που ασχολήθηκε με ακολουθίες γραμμάτων ήταν ο μαθηματικός Andrey Markov. Εστίασε στην κατανομή των φωνηέντων και συμφώνων στο έργο Evgenii Onegin (Markov, 1913). Στην απόδοση συγγραφικής πατρότητας τα ν-γράμματα χαρακτήρων εμφανίστηκαν γύρω στο 1970 σε μια μελέτη του Bennett (1976), ο οποίος ασχολήθηκε με τα 2-γράμματα. Στη συνέχεια και με αφορμή τα Ομοσπονδιακά Κείμενα των ΗΠΑ γίνονται διάφορες μελέτες από τους Kjell (1994), Forsyth & Holmes (1996), Juola (2004), Argamon & Juola (2011) που καθιερώνουν τα ν- γράμματα ως υφομετρικό χαρακτηριστικό στην αναγνώριση συγγραφέα. Έρευνες στην εξαγωγή ν-γραμμάτων μεταβλητού μήκους έχουν γίνει ακόμα από τους Houvardas & Stamatatos (2006). Συγκρίνουν κάθε ν-γράμμα χαρακτήρων με παρόμοια ν-γράμματα μικρότερου ή μεγαλύτερου μήκους και κρατούν αυτά με την πιο μεγάλη συνεκτικότητα. Αυτό έχει σαν αποτέλεσμα να δημιουργείται ένα διάνυσμα ν- γραμμάτων χαρακτήρων διαφορετικού μήκους που επιλέγονται με βάση την συνοχή σε σχέση με όλα τα παρόμοια ν-γράμματα που βρέθηκαν στα κείμενα εκπαίδευσης. Επίσης ο Stamatatos (2007) παρουσιάζει την κοινή μέθοδο ν-γραμμάτων η οποία βασίζεται στην εξαγωγή των προφίλ των συγγραφέων χρησιμοποιώντας διάφορες αποστάσεις (μέτρα ανομοιότητας). Τέλος ο Stamatatos (2009) ασχολείται με τη μελέτη διάφορων υφομετρικών χαρακτηριστικών που μπορούν να μετρηθούν σε ένα κείμενο και πως αυτά συμβάλουν στην ακριβή αναγνώριση συγγραφέα. 3.3 ΚΟΙΝΗ ΜΕΘΟΔΟΣ Ν-ΓΡΑΜΜΑΤΩΝ Η κοινή μέθοδος προσέγγισης ν-γραμμάτων (CNG), έχει δώσει τα πιο αξιόπιστα αποτελέσματα σε αναγνώριση συγγραφέα, (Stamatatos 2007). Βασίζεται στο προφίλ, δηλαδή στα ν-γράμματα που αποτελούνται από χαρακτήρες και παρουσιάζονται στο κείμενο με τη μεγαλύτερη συχνότητα. Ένα προφίλ Ρ είναι ένα σύνολο από ζευγάρια (L,f), όπου L τα πιο συχνά ν-γράμματα και f οι συχνότητες εμφάνισής τους, δηλαδή ( g, f ),( g, f ),...( g, f ) }. Κάθε φορά τα κείμενα ενός συγκεκριμένου συγγραφέα { L L ενώνονται σε ένα συνεχόμενο κείμενο από το οποίο εξάγεται το προφίλ του γραφέα. 19

20 Στη συνέχεια η ταξινόμιση γίνεται με βάση μια απόσταση (μέτρο ανομοιότητας), η οποία συγκρίνει το προφίλ του άγνωστου συγγραφέα με το προφίλ κάθε γνωστού συγγραφέα από το ενιαίου κείμενό του. Παρακάτω θα παρουσιαστούν οι πιο γνωστές αποστάσεις (distance measures) που έχουν χρησιμοποιηθεί σε εργασίες για ταυτοποίηση συγγραφέα Απόσταση d 0 (P(x),P(Ta)) Έχουμε ένα σύνολο Α από υποψήφιους συγγραφείς και T a είναι τα κείμενα του συγγραφέα προς εκπαίδευση. Για μία δεδομένη τιμή n και L θεωρούμε P(x) το προφίλ του κειμένου υπό δοκιμή και PT ( a) το προφίλ του συγγραφέα α, (α Α). Αν fx( g ) και ft a ( g ) είναι οι συχνότητες των ν-γραμμάτων του κειμένου υπό δοκιμή και του συγγραφέα α προς εκπαίδευση τότε η απόσταση d 0 (μέτρο ανομοιότητας dissimilarity measure) ανάμεσα στο P(x) και PT ( a) ορίζεται ως εξής: d 0 P( x), P( T ) 2( f ( g) f ( g)) Ta f ( g) f ( g) g P( x) P( Ta ) x Ta x 2 (1) Στην απλή έκδοση της απόστασης αυτής μεταξύ των profiles συγγραφέων α και x, λαμβάνουμε υπόψη όλα τα g, δηλαδή όλα τα n-grams, και αυτά που ανήκουν στον προς προσδιορισμό γραφέα x, και στον γνωστό α. Άρα, αν κάποια δεν ανήκουν στο profile του ενός ή του άλλου γραφέα (f(g)=0) τότε η απόσταση αυξάνει κατά 4 άσχετα με την συχνότητα εμφάνισης του n-gram. Αν και τα δύο υπάρχουν και είναι πολύ κοντά τότε λόγω της μικρής διαφοράς η ποσότητα μέσα στο άθροισμα είναι πολύ μικρή, και έτσι δεν συνεισφέρει καθόλου στην απόσταση. Θεωρούμε ότι μόνο όσα n-grams ανήκουν και στους δύο γραφείς πρέπει να λαμβάνονται υπόψη δεδομένου ότι για μικρά κείμενα τα προφίλ δεν είναι πλήρη και μπορεί να δημιουργηθεί πολύ μεγάλη διαφορά από τυχαία έλλειψη κάποιου n-gram. Στη συνέχεια επιλέγουμε ως περισσότερο συγγενή συγγραφέα στον x, αυτόν για τον οποίο η απόσταση d 0 είναι η μικρότερη Author(x)=arg min d 0 [P(x), P(T a )] 20

21 3.3.2 Απόσταση SPI (Simplified Profile Intersection) Πολύ συχνά, είναι διαθέσιμα πολλά κείμενα κατάρτισης για έναν υποψήφιο συγγραφέα, ενώ μόνο λίγα κείμενα για κάποιον άλλον. Στην περίπτωση αυτή, το προφίλ με το μεγαλύτερο μήκος για αυτόν το συγγραφέα (με τα λίγα κείμενα) θα είναι μικρότερο από τα υπόλοιπα. Για να αντιμετωπιστεί αυτό το πρόβλημα προτείνεται μία εναλλακτική απόσταση η SPI(SP(x),SP(Ta))= SP(x) SP(Ta). Η απόσταση αυτή λαμβάνει υπόψη το απλουστευμένο προφίλ SP= g 1, g 2,..., g L } ενός κειμένου. Η SPI μετράει μόνο το πλήθος των κοινών n-grams στο τεστ κείμενο στο προφίλ συγγραφέα. Δηλαδή δεν κάνει χρήση των πληροφοριών συχνότητας για κάθε ν-γράμμα. Ουσιαστικά πρόκειται για ένα μέτρο ομοιότητας αφού όσο μεγαλώνει η τιμή του τόσο είναι πιο πιθανό το κείμενο προς έλεγχο να αντιστοιχηθεί με αυτό του συγγραφέα a Συγγραφέας (x) που επιλέγεται = arg max SPI[SP(x), SP(T a )] (2) Το μέτρο αυτό πάσχει σε ένα σημείο: όταν υπάρχουν πολλά κείμενα κατάρτισης για έναν συγγραφέα και μόνο ένα ζευγάρι για όλα τα άλλα. Στην περίπτωση αυτή, για μεγάλες τιμές του L ο συγγραφέας με το μακρύ προφίλ θα είναι ο πιθανότερος συγγραφέας Απόσταση d 1 (P(x),P(Ta)) Με σκοπό να βελτιώσουμε την απόσταση d 0 της εξίσωσης (1) από τα μειονεκτήματα που περιγράφτηκαν εκεί, δίνεται στη συνέχεια μία νέα απόσταση ή μέτρο ανομοιότητας το d 1. d 1 P( x), P( T ) 2( f ( g) f ( g)) Ta f ( g) f ( g) g P( x) x Ta x 2 (3) Η απόσταση d 1, είναι μια απλή παραλλαγή της d 0 που λαμβάνει υπόψη μόνο τα ν- γραμμάτα που ανήκουν στο προφίλ του τεστ κειμένου δηλαδή στο P(x). Δεν είναι συμμετρική συνάρτηση σε αντίθεση με την d 0. Όλες οι αποστάσεις του προφίλ του τεστ κειμένου σε σχέση με τα προφίλ του κειμένου κατάρτισης υπολογίζονται με βάση τον ίδιο αριθμό όρων που είναι ίσος με το προκαθορισμένο μήκος προφίλ L (και υπάρχουν όλα στον συγγραφέα x, δηλαδή στο P(x)). 21

22 Σε περίπτωση όμως που το προφίλ ενός συγγραφέα είναι σύντομο δεν θα επηρεάσει την συνολική ακρίβεια της μεθόδου για μεγάλες τιμές του L. Μάλιστα, στην περίπτωση που το κείμενο δοκιμής είναι μεγαλύτερο από το κείμενο κατάρτισης του υποψήφιου συγγραφέα είναι πολύ μικρότερη η πιθανότητα να επιλεγεί, επειδή δεν θα συμπεριληφθούν τα περισσότερα ν-γράμματα από το προφίλ του τεστ κειμένου στο προφίλ αυτού του συγγραφέα, με αποτέλεσμα η απόσταση να αυξάνει αρκετά. Συνήθως όμως τα κείμενα κατάρτισης είναι αρκετά μεγαλύτερα από το κείμενο P(x) και έτσι τέτοιο πρόβλημα δεν μπορεί να εμφανιστεί Απόσταση d 2 (P(x),P(T a ),P(N)) Η απόσταση που παρουσιάζεται στη συνέχεια είναι επέκταση της προηγούμενης. Χρησιμοποιεί το ενιαίο προφίλ της corpus norm f N, δηλαδή το προφίλ που προκύπτει από τη συνένωση όλων των κειμένων των συγγραφέων που εκπαιδεύονται (training corpus norm). Έτσι, στην έκφραση της νέας απόστασης ενσωματώνεται και ένας όρος ο οποίος δείχνει την απόκλιση του προφίλ του κειμένου P(x) από το μέσο προφίλ (corpus norm) όπως φαίνεται στη συνέχεια 2 2 2( fx( g) ft ( g)) 2( f ( ) ( ) a x g fn g d2 P( x), P( T ), P( N). f ( g) f ( g) f ( g) f ( g) g P( x) x Ta x N (4) Στην έκφραση αυτή ο δεύτερος όρος μπορεί να θεωρηθεί ως ένας παράγοντας βάρους σε n-gram του προφίλ του αγνώστου συγγραφέα f x. Όσο πιο πολύ ένα n-gram g του P(x) αποκλίνει από την κανονική συχνότητα f N τόσο πιο πολύ συνεισφέρει στην τιμή της απόστασης. Αν η συχνότητα ενός n-gram είναι όση και του αντίστοιχου στο ενιαίο προφίλ δηλαδή f x (g)=f N (g), τότε το βάρος είναι μηδέν και το n-gram αυτό δεν συνεισφέρει στην απόσταση. Επιπρόσθετα η d 2, όπως και η d 1 είναι πιο σταθερές για μεγάλα L, σε σχέση με την d 0. 22

23 Συχνότητα εμφάνισης 3-gram 3.4. Μελέτη του τρόπου εμφάνισης των n-grams Συχνότητα εμφάνισης των n-grams στο κείμενο Στην Ενότητα αυτή σχολιάζουμε τις μετρήσεις που έγιναν σχετικά με την συχνότητα εμφάνισης των διαφόρων n-grams στο μεγάλο κείμενο των χαρακτήρων. Ουσιαστικά δημιουργήσαμε και μελετήσαμε ένα ενιαίο profile για το σύνολο των γραφέων το οποίο είναι απλά η κατανομή της συχνότητας εμφάνισης του συγκεκριμένου n-gram (corpus norm). Σχηματικά το profile αυτό θα έχει την μορφή του σχήματος 1* _το αι_ του 3-gram Σχήμα 1. Το ενιαίο profile σε 3-grams και των 10 γραφέων της βάσης μας. Αν για παράδειγμα εξετάζαμε τα 4-grams τότε κάποιο από αυτά θα ήταν το πλέον εμφανιζόμενο ενώ κάποια άλλα θα είχα συχνότητα εμφάνισης συνεχώς μειούμενη. Λόγω των πολλών συνδυασμών που είναι δυνατό να έχουμε με 4 χαρακτήρες, στους οποίους συμπεριλαμβάνονται σημεία στίξης, κενά κλπ, είναι δύσκολο να ελεγχθεί σε ένα κείμενο τόσο μεγάλο ο τρόπος εμφάνισης όλων αυτών των n-grams. Υπολογιστικά όμως αυτό είναι εφικτό ακόμα και να γνωρίζουμε τα ίδια τα n-γράμματα. Στον Πίνακα 2 παρουσιάζεται η συχνότητα των διαφόρων n-grams στο κείμενο των χαρακτήρων. Ακολουθούν σχόλια με βάση τον Πίνακα αυτόν. 23

24 Πίνακας 2. Συχνότητα εμφάνισης των διαφόρων n-grams στο μεγάλο κείμενο των χαρακτήρων n-gram 3-gram 4gram 5-gram 1 ο ο ο ο ο ο ο ο ο ο Σχόλια για την συχνότητα εμφάνισης Από τον Πίνακα 2 παρατηρούμε ότι ένα n-gram το οποίο εμφανίζεται σε ένα κείμενο των χαρακτήρων 2500 φορές στα μικρά κείμενα των 5800 χαρακτήρων τα οποία είναι 100 φορες μικρότερα, θα εμφανιστεί αναλογικά 25 φορές. Επομένως κάποιο n-gram το οποίο εμφανίζεται 100 φορές στο μεγάλο κείμενο θα εμφανιστεί 1 φορά στο μικρό κείμενο. Η μία αυτή εμφάνιση είναι οριακά αποδεκτή στατιστικά για να μπορέσει να εκπροσωπήσει το n-gram αυτό τον συγκεκριμένο γραφέα μέσα από το μικρό του κείμενο. Έτσι η τάξη μεγέθους του πλήθους των χρησιμοποιούμενων n-gram που φτάνουν την επιτυχία ταξινόμησης στο μέγιστο είναι περίπου Αυτό είναι εμφανές από τους πίνακες 1 ως 5 καθώς και από τους πίνακες του Παραρτήματος Α. Πρέπει να σημειωθεί ότι το πλήθος των n-grams είναι πολύ μεγάλο δεδομένου ότι στο σχηματισμό τους εκτός από τα γράμματα και τους αριθμούς, συμμετέχουν και τα κενά και τα σημεία στίξης. Για να μπορέσουμε να έχουμε μια εικόνα του πλήθους των 4- grams που υπάρχουν στο προ αναφερθέν μεγάλο κείμενο των χαρακτήρων αξιολογήσαμε την συχνότητα εμφάνισης των 4-grams στο κείμενο αυτό, μελετώντας το αντίστοιχο ιστόγραμμα του σχήματος 1* και κυρίως την συσσωρευτική συνάρτηση. Έτσι λάβαμε τις επόμενες μετρήσεις που φαίνονται στον πίνακα 3. 24

25 Πίνακας 3. Συσωρευτική συχνότητα εμφάνισης των 4-grams στο μεγάλο κείμενο των χαρακτήρων. Πλήθος L Συσωρευτική Συχνότητα f Από τον πίνακά 3 είναι προφανές ότι τα 500 πιο συχνά 4-grams έχουν συσσωρευτική πιθανότητα Πρέπει να πάρουμε περίπου 3000 για να φτάσουμε στο διπλάσιο. Είναι φανερό ότι πρέπει να λάβουμε πάνω από grams για να έχουμε άθροισμα 1. Στη συνέχεια παρουσιάζονται μετρήσεις της συχνότητας εμφάνισης των 4-grams στο προφίλ των δέκα κειμένων του πρώτου συγγραφέα (Bitros), καθώς και των υπολοίπων συγγραφέων. Πίνακας 4. Συχνότητα εμφάνισης 4-grams στα 10 κείμενα του 1 ου συγγραφέα και όλων. Πλήθος L Συχνότητα f 1 ου γραφέα Συχνότητα f όλων

26 Πίνακας 5. Συχνότητα εμφάνισης 4-grams στα 100 κείμενα. Πλήθος L Συχνότητα f Από τις μετρήσεις παρατηρήθηκε ότι στα grams οι τρεις γραφείς τα περιέχουν όλα, στα οι τέσσερις, στα οι πέντε, στα οι έξι, στα οι εφτά και στα τα περιέχουν όλοι οι γραφείς. 26

27 ΚΕΦΑΛΑΙΟ 4 Πειραματικά Αποτελέσματα 4.1. Σχόλια στις αποστάσεις Διαθέτουμε μια βάση δεδομένων δέκα γραφέων, με δέκα ηλεκτρονικά κείμενα ο καθένας. Συνολικά εκατό κείμενα. Κάθε κείμενο είναι περίπου 5000 χαρακτήρες. Επιπλέον διαθέτουμε ένα μεγάλο κείμενο των χαρακτήρων για τον κάθε έναν από τους γραφείς αυτούς. Χρησιμοποιώντας την μέθοδο ν-γραμμάτων (n-grams), εκπαιδεύουμε έναν αλγόριθμο και υπολογίζουμε τις αποστάσεις κάθε μικρού κειμένου (test) από τα δέκα μεγάλα κείμενα, των (train) περίπου χαρακτήρων το καθένα, του κάθε γραφέα. Η διαδικασία αυτή έχει σαν αποτέλεσμα να εξάγουμε χίλιες αποστάσεις για τα 2-grams, 3-grams, 4-grams, 5-grams και 6-grams αντίστοιχα. Η απόσταση την οποία επιλέξαμε για να κάνουμε τις μετρήσεις δίνεται από τον τύπο: 2 2 2( fx( g) ft ( g)) 2( f ( ) ( ) a x g fn g d2 P( x), P( T ), P( N). f ( g) f ( g) f ( g) f ( g) g P( x) x Ta x N (4) Στις μετρήσεις τις οποίες κάναμε τοποθετήσαμε τις αποστάσεις ανά δέκα δεκάδες (όσοι και οι γραφείς) για κάθε ν-γράμμα. Κάθε δεκάδα αποτελείται από 10 γραμμές και 10 στήλες. Οι γραμμές δηλώνουν τον αριθμό του κειμένου από τα 100 κάθε φορά και οι στήλες τον γραφέα από τους 10. Η μικρότερη τιμή της απόστασης είναι και η σωστή αναγνώριση συγγραφέα. Πίνακας 6. Παρακάτω όπως φαίνεται επιλέξαμε να σχολιάσουμε την πρώτη δεκάδα από τα 2-grams Παρατηρούμε ότι η πρώτη γραμμή, μας δείχνει ότι το πρώτο μικρό κείμενο του πρώτου γραφέα αναγνωρίζεται σωστά. Η ελάχιστη τιμή της απόστασης είναι 0.25 και βρίσκεται στην πρώτη γραμμή και πρώτη στήλη. Η διαφορά της μικρότερης απόστασης (0.25) 27

28 από την αμέσως πιο μικρή (0.2614) είναι περίπου Άρα με αυτό το βάθος αναγνώρισε ότι είναι ο πρώτος γραφέας και όχι ο ένατος. Επομένως από τα δέκα κείμενα μόνο τα έξι αποδίδονται σωστά στον πρώτο γραφέα, με βάθος από 0.01 ως 0.03 εκατοστά. Τα άλλα τέσσερα κείμενα δεν αναγνωρίζονται. Στην δεύτερη γραμμή η τιμή της ελάχιστης απόστασης βρίσκεται στην όγδοη θέση με τιμή Η διαφορά της από την αμέσως πιο μικρή είναι χιλιοστά. Με τον ίδιο τρόπο γίνονται οι συγκρίσεις των υπόλοιπων δεκάδων για όλα τα ν- γράμματα. Το σύνολο των αποτελεσμάτων δίνονται στο παράρτημα Α. Εκεί φαίνεται ότι η επιτυχία των 2-grams είναι 75% (75 από τα 100 κείμενα αναγνωρίστηκαν σωστά), των 3-grams 73%, των 4-grams 82%, των 5-grams 74% και των και των 6-grams 76%. Άρα τα 4-grams δίνουν το καλύτερο δυνατό αποτέλεσμα και ακολουθούν τα 6-grams. Τα πιο αδύναμα φαίνονται να είναι τα 3-grams και σε μία κανονική κατάσταση τα 2 και 5-grams. Πως θα φτάσουμε σε αυτή την περίπτωση στη σωστή απόφαση; 28

29 4.2. Majority voting Το majority voting είναι ένας κανόνας απόφασης. Χρησιμοποιείται όταν έχουμε να αποφασίσουμε για κάποιο θέμα και υπάρχουν πολλές εναλλακτικές διαδρομές. Τότε πάμε στην διαδρομή που ψηφίζουν οι περισσότεροι. Στην συγκεκριμένη περίπτωση έχουμε πέντε χαρακτηριστικά (τα grams), με τα οποία θα επιλέξουμε σε ποιο γραφέα ανήκουν τα κείμενα. Κρίθηκε σκόπιμο να ελέγξουμε αν ο συνδυασμός των αποφάσεων που προκύπτουν ξεχωριστά από τα χαρακτηριστικά αυτά θα μπορούσε να βελτιώσει το ποσοστό επιτυχίας. Για παράδειγμα 2 συνδυασμοί αποφασίζουν ότι το κείμενο ανήκει στον πρώτο γραφέα, 2 συνδυασμοί στον δεύτερο και ένας συνδυασμός στον ένατο γραφέα. Με την βοήθεια του λογισμικού matlab και του αλγορίθμου του majority voting δημιουργήθηκε ένα πρόγραμμα που συνδυάζει τις αποφάσεις από τα ν-γράμματα για να αναγνωρίσουμε σε ποιόν από τους δέκα γραφείς ανήκουν τα εκατό κείμενα. Όταν χρησιμοποιήσαμε όλα τα ν-γράμματα το ποσοστό επιτυχίας ήταν 81%. Στην συνέχεια επιχειρήσαμε να αφήνουμε κάθε φορά ένα ν-γράμμα εκτός. Τα αποτελέσματα που πήραμε ήταν: ο συνδυασμός των grams δίνει 80% επιτυχία, ο συνδυασμός των grams δίνει 82%, ο συνδυασμός των grams δίνει 74%, ο συνδυασμός των grams δίνει 78%, ο συνδυασμός των grams δίνει 75%. Από τα ποσοστά επιτυχίας φαίνεται ότι στην καλύτερη απόδοση συγγραφέα συμβάλουν τα 4-grams. Όταν αυτά μένουν εκτός τότε αυτόματα το ποσοστό από 80% πέφτει στο 74%. Εδώ πρέπει να διερωτηθούμε αν τελικά συμφέρει το majority voting αφού από μόνα τους τα 4-grams δίνουν καλύτερο αποτέλεσμα. Όταν οι αποστάσεις του παραρτήματος Α τροποποιηθούν ώστε από κάθε μέλος μιας δεκάδας αφαιρεθεί η ελάχιστη απόσταση (minimum) και η διαφορά διαιρεθεί με την ελάχιστη (σχέση xi x x min min ), τότε οι νέες κανονικοποιημένες προστίθονται κατά αντιστοιχία. Τα αποτελέσματα που πήραμε σε αυτή την περίπτωση έχουν ως ακολούθως: 29

30 Πίνακας 7. Majority voting n-grams Επιτυχία% όλα 78 3,4,5,6 77 2,4,5,6 80 2,3,5,6 78 2,3,4,6 80 2,3,4,5 78 4,5,6 78 3,5,6 77 3,4,6 80 3,4,5 77 2,4,6 80 2,4,5 80 2,3,6 78 2,3,5 77 2,3,4 77 2,3 76 2,4 78 2,5 78 2,6 80 3,4 77 3,5 75 3,6 75 4,5 76 4,6 80 5,

31 4.3 Αξιολόγηση των 3-grams χρησιμοποιώντας διάφορες αποστάσεις Ένα σοβαρό ερώτημα στη χρήση των n-grams είναι: ποιο είναι το μέγιστο πλήθος των συγκεκριμένων n-grams στην αναγνώριση το οποίο επαρκεί, ή αλλιώς από πού και πάνω τα n-grams δεν χρειάζονται. Στην ενότητα αυτή δοκιμάσαμε την επιτυχία των 3- grams με διάφορες αποστάσεις. Είναι προφανές ότι περίπου grams επαρκούν για να δώσουν την μέγιστη επιτυχία σε αναγνώριση για όλες τις αποστάσεις. Ακολουθούν στους επόμενους πίνακες τα σχετικά αποτελέσματα. Πίνακας 8. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1n. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy Πίνακας 9. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3- grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d0. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy 31

32 Πίνακας 10. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy Πίνακας 11. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d2. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy 32

33 Πίνακας 12. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η SPI. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy Πίνακας 13. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1n. L Accuracy

34 Πίνακας 14. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d0. L Accuracy Πίνακας 15. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d2. L Accuracy Πίνακας 16. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1. L Accuracy

35 Πίνακας 17. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η SPI. L Accuracy Τρόπος συν-εμφάνισης των 4grams. Κάναμε μια αναλυτική μελέτη της εμφάνισης των 4-grams στο προφίλ του corpus norm και των δέκα μεγάλων προφίλ των δέκα γραφέων (train text). Σχολιάζουμε την εμφάνιση των 4-grams στα μικρά κείμενα ελέγχου (test). Κοιτάμε την κοινή εμφάνιση με τα μεγάλα κείμενα εκπαίδευσης και διερευνάμε τον τρόπο σχηματισμού των αποστάσεων. Τα 4-grams του corpus norm είναι Τα 4-grams των profiles των 10 μεγάλων αρχείων είναι αρκετά λιγότερα και διαφορετικά. Το πλήθος για κάθε έναν από τα 10 μεγάλα κείμενα είναι περίπου Άρα, κάθε ένα από αυτά τα 10 profiles είναι υποσύνολο του profile του corpus norm. Στον Πίνακα 18 φαίνεται το πλήθος των κοινών 4-grams στα profiles των 10 μεγάλων κειμένων. Στην διαγώνιο είναι το πλήθος των 4-grams κάθε ενός από τα δέκα μεγάλα κείμενα (με τον εαυτό του). Παρατηρούμε ακόμα ενώ το πλήθος των 4-grams που έχει το κείμενο κάθε γραφέα με τον εαυτό του είναι κατά μέσο όρο 15000, στα υπόλοιπα κείμενα πέφτουν στο μισό. Τα κοινά 4-grams για όλα τα 10 μεγάλα profiles είναι Στο τέλος του κεφαλαίου δίνεται το πρόγραμμα που κάνει τους υπολογισμούς αυτούς. Καθώς επίσης και υλοποιεί όλες τις αποστάσεις ή μέτρα ομοιότητας που δίνονται στη συνέχεια. Το πρόγραμμα περιέχει όλα τα απαραίτητα σχόλια για την κατανόηση του. 35

36 Πίνακας 18 Περιέχει τα κοινά 4-grams των 10 μεγάλων κειμένων ανά δύο. Είναι προφανές ότι στη διαγώνιο έχουμε τα 4-grams κάθε μεγάλου κειμένου. Τα κοινά είναι περίπου τα μισά στο πλήθος από αυτά κάθε κειμένου Μία άλλη μελέτη που έγινε στην προσπάθεια να μελετηθούν οι κοινές εμφανίσεις των 4grams σε όλα τα διαθέσιμα κείμενα δηλαδή και στα 100 επιπλέον μικρά κείμενα που θα χρησιμοποιηθούν για test, έδειξε ότι ελάχιστα από αυτά υπάρχουν τόσο στο corpus norm, στα 10 μεγάλα και τα 100 μικρά. Μόνο 22 από 4grams ευρίσκονται σε όλα τα κείμενα. Το γεγονός αυτό αφήνει σοβαρά ερωτηματικά για την δυνατότητα που έχουμε με την χρήση αυτών να κάνουμε ταυτοποίηση γραφέα. Βέβαια, πρέπει να λάβουμε υπόψη μας ότι τα 100 μικρά κείμενα δεν έχουν σχέση με το corpus norm και τα 10 μεγάλα κείμενα διότι ενώ προέρχονται από τους ίδιους γραφείς τα κείμενα αυτά είναι διαφορετικά από τα 10 μεγάλα. Στη συνέχεια θα μελετήσουμε διάφορα είδη αποστάσεων μεταξύ των 10 μεγάλων κειμένων απλά για να μπορέσουμε να τις αξιολογήσουμε. Η πρώτη απόσταση που θεωρήσαμε παρουσιάζεται στον Πίνακα 19, όπου δίνεται το άθροισμα των πιθανοτήτων των profiles ανά δύο, και μόνο εκεί όπου υπάρχει κοινό 4gram. Ουσιαστικά δεν πρόκειται για απόσταση αλλά για μέτρο ομοιότητας αφού όσο πιο μεγάλο είναι τόσο πιο πολύ μοιάζουν τα δύο profiles άρα τα δύο κείμενα. Στην διαγώνιο δίνεται η ομοιότητα κάθε ενός από τα 10 profiles με τον εαυτόν του. 36

37 Πίνακας 19. Μέτρο ομοιότητας των profiles. Άθροισμα των πιθανοτήτων ίδιων (κοινών) n-grams. Στην διαγώνιο δίνεται η ομοιότητα κάθε ενός από τα 10 profiles με τον εαυτόν του Στη συνέχεια δημιουργούμε ένα άλλο μέτρο ομοιότητας για να συγκρίνουμε τα 10 profiles. Το μέτρο αυτό περιλαμβάνει το άθροισμα των γινομένων των πιθανοτήτων των αντίστοιχων 4-grams. Έτσι αναμένεται (βλέπε Πίνακα 20) δύο profiles να είναι όμοια όταν έχουν πολλά κοινά 4-grams και ταυτόχρονα οι πιθανότητες για το ίδιο 4- gram να είναι όσο το δυνατό κοντά. Πίνακας 20. Γινόμενο πιθανοτήτων των αντίστοιχων 4-grams για όλους τους συνδυασμούς των 10 μεγάλων profiles Ένας άλλος τρόπος σύγκρισης των 10 μεγάλων profiles είναι να δημιουργήσουμε ένα μέτρο διαφοράς δηλαδή απόσταση. Τα αποτελέσματα δίνονται στον Πίνακα 21. Στην πράξη λαμβάνουμε τη διαφορά των πιθανοτήτων των αντίστοιχων 4-grams. Όσο η διαφορά είναι μικρότερη τόσο πιο όμοια είναι τα profiles. Θα μπορούσε βέβαια η μικρή απόσταση να βγαίνει αν τα κοινά n-grams είναι λίγα στον αριθμό. 37

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία Γιώργος Κ. Μικρός Τμήμα Ιταλικής Γλώσσας και Φιλολογίας - ΕΚΠΑ Περίγραμμα ομιλίας Κοινωνικά Μέσα Δικτύωσης

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου Επαναληπτικές Ασκήσεις Κάτια Κερμανίδου kerman@ionio.gr Διαδίκτυο Tι από τα παρακάτω αποτελεί χαρακτηριστικό της web 2.0 φάσης της εξέλιξης του ιστού, και δεν υπήρχε στην φάση web 1.0 ιστοσελίδες με δυνατότητες

Διαβάστε περισσότερα

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ ΕΞΕΤΑΣΕΩΝ Μ ΑΪΟΥ 2002 2004 Δ ΕΥΤΕΡΟ ΜΕΡΟΣ Π ΕΡΙΛΗΨΗ: Η μελέτη αυτή έχει σκοπό να παρουσιάσει και να ερμηνεύσει τα ευρήματα που προέκυψαν από τη στατιστική

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

1. Σκοπός της έρευνας

1. Σκοπός της έρευνας Στατιστική ανάλυση και ερμηνεία των αποτελεσμάτων των εξετάσεων πιστοποίησης ελληνομάθειας 1. Σκοπός της έρευνας Ο σκοπός αυτής της έρευνας είναι κυριότατα πρακτικός. Η εξέταση των δεκτικών/αντιληπτικών

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΜΕΡΛΙΑΟΥΝΤΑΣ ΣΤΕΦΑΝΟΣ, ΠΕ19 ΚΕΦΑΛΑΙΟ 3 Αλγόριθμοι 3. Αλγόριθμοι 2 3. Αλγόριθμοι 3.1 Η έννοια του αλγορίθμου 3.2 Χαρακτηριστικά αλγορίθμου 3.3 Ανάλυση αλγορίθμων

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΣΚΟΠΟΣ Σκοπός της άσκησης είναι ο σχεδιασμός και η υλοποίηση συστήματος διόρθωσης

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη Μοντέλα γλωσσικής επεξεργασίας: σύνταξη Μάθημα: Εισαγωγή στις επιστήμες λόγου και ακοής Ιωάννα Τάλλη, Ph.D. Σύνταξη Είναι ο τομέας της γλώσσας που μελετά τη δομή των προτάσεων, δηλαδή ποια είναι η σειρά

Διαβάστε περισσότερα

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής: Τρόπος εξέτασης των πανελλαδικά εξεταζόμενων μαθημάτων Τα θέματα των πανελλαδικά εξεταζόμενων μαθημάτων λαμβάνονται από την ύλη που ορίζεται ως εξεταστέα για κάθε μάθημα κατά το έτος που γίνονται οι εξετάσεις.

Διαβάστε περισσότερα

ΚΥΚΛΟΣ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΕΥΝΑΣ

ΚΥΚΛΟΣ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΕΥΝΑΣ ΚΥΚΛΟΣ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΕΥΝΑΣ Βασίλης Καραγιάννης Η παρέμβαση πραγματοποιήθηκε στα τμήματα Β2 και Γ2 του 41 ου Γυμνασίου Αθήνας και διήρκησε τρεις διδακτικές ώρες για κάθε τμήμα. Αρχικά οι μαθητές συνέλλεξαν

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Πίνακας περιεχομένων Τίτλος της έρευνας (title)... 2 Περιγραφή του προβλήματος (Statement of the problem)... 2 Περιγραφή του σκοπού της έρευνας (statement

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

i Σύνολα w = = = i v v i=

i Σύνολα w = = = i v v i= ΜΕΤΡΑ ΘΕΣΗΣ ΆΣΚΗΣΗ Η βαθμολογία στα 0 μαθήματα ενός μαθητή είναι: 3, 9, 6, 0, 5,,, 0, 0, 4. Να υπολογίσετε: α) Τη μέση τιμή. β) Τη διάμεσο. Απάντηση t t + t + t 0 = = = = 3 + 9 + 6 + 0 + 5 + + + 0 + 0

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 10 ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ

ΚΕΦΑΛΑΙΟ 10 ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ ΚΕΦΑΛΑΙΟ 10 Όπως είδαμε και σε προηγούμενο κεφάλαιο μια από τις βασικότερες τεχνικές στον Δομημένο Προγραμματισμό είναι ο Τμηματικός Προγραμματισμός. Τμηματικός προγραμματισμός ονομάζεται η τεχνική σχεδίασης

Διαβάστε περισσότερα

Σχέδια μαθημάτων για την δημιουργία συναρτήσεων υπολογισμού του ΜΚΔ και του ΕΚΠ στην MSWLogo

Σχέδια μαθημάτων για την δημιουργία συναρτήσεων υπολογισμού του ΜΚΔ και του ΕΚΠ στην MSWLogo Σχέδια μαθημάτων για την δημιουργία συναρτήσεων υπολογισμού του Μέγιστου Κοινού Διαιρέτη (ΜΚΔ) και του Ελάχιστου Κοινού Πολλαπλασίου (ΕΚΠ) δύο αριθμών, με την γλώσσα προγραμματισμού Logo Κογχυλάκης Σ.

Διαβάστε περισσότερα

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ Μαθηματικά (Άλγεβρα - Γεωμετρία) Α ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ και Α, Β ΤΑΞΕΙΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Α ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ και Α ΤΑΞΗ ΕΣΠΕΡΙΝΟΥ ΕΠΑΛ ΚΕΝΤΡΙΚΗ

Διαβάστε περισσότερα

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος Καπιδάκης 1 1 Εργαστήριο Ψηφιακών Βιβλιοθηκών και

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η Μονοδιάστατοι Πίνακες Τι είναι ο πίνακας γενικά : Πίνακας είναι μια Στατική Δομή Δεδομένων. Δηλαδή συνεχόμενες θέσεις μνήμης, όπου το πλήθος των θέσεων είναι συγκεκριμένο. Στις θέσεις αυτές καταχωρούμε

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Λύσεις 2η σειράς ασκήσεων Προθεσμία παράδοσης: 18 Μαίου 2015 Πρόβλημα 1. (14

Διαβάστε περισσότερα

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ 2 Ο Εργαστηριακό Μάθημα Λεξική Ανάλυση Σκοπός: Το μάθημα αυτό αναφέρεται: Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση Στη δήλωση ορισμό κανονικών εκφράσεων Θεωρία Πρόλογος

Διαβάστε περισσότερα

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας Γεώργιος Μικρός Πανεπιστήμιο Αθηνών ΑΠΘ (24-25 Νοεμβρίου 2005) 1 Ποσοτική γλωσσολογία Ποσοτική Γλωσσολογία (ΠΓ)

Διαβάστε περισσότερα

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ Περιεχόμενα ΠΡΟΛΟΓΟΣ 13 1. ΛΕΞΙΛΟΓΙΟ: ΕΙΣΑΓΩΓΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΚΑΙ ΔΙΔΑΚΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ 17 ΣΗΜΑΝΤΙΚΗ ΟΡΟΛΟΓΙΑ ΚΕΦΑΛΑΙΟΥ 17 1.1 Η αξία του λεξιλογίου και η θέση του στο γλωσσικό μάθημα 18 1.2 Εμπόδια στη

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σ.κ. της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Όπως θα δούμε αργότερα στη Στατιστική Συμπερασματολογία, λέγοντας ότι «από έναν πληθυσμό παίρνουμε ένα τυχαίο δείγμα μεγέθους» εννοούμε ανεξάρτητες τυχαίες μεταβλητές,,..., που

Διαβάστε περισσότερα

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων Ενότητα 4 Επεξεργασία πινάκων 36 37 4.1 Προσθήκη πεδίων Για να εισάγετε ένα πεδίο σε ένα πίνακα που υπάρχει ήδη στη βάση δεδομένων σας, βάζετε τον κέρσορα του ποντικιού στο πεδίο πάνω από το οποίο θέλετε

Διαβάστε περισσότερα

Ο πρώτος ηλικιακός κύκλος αφορά μαθητές του νηπιαγωγείου (5-6 χρονών), της Α Δημοτικού (6-7 χρονών) και της Β Δημοτικού (7-8 χρονών).

Ο πρώτος ηλικιακός κύκλος αφορά μαθητές του νηπιαγωγείου (5-6 χρονών), της Α Δημοτικού (6-7 χρονών) και της Β Δημοτικού (7-8 χρονών). Μάθημα 5ο Ο πρώτος ηλικιακός κύκλος αφορά μαθητές του νηπιαγωγείου (5-6 χρονών), της Α Δημοτικού (6-7 χρονών) και της Β Δημοτικού (7-8 χρονών). Ο δεύτερος ηλικιακός κύκλος περιλαμβάνει την ηλικιακή περίοδο

Διαβάστε περισσότερα

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ. Η αγγλική και οι άλλες γλώσσες της Ευρωπαϊκής Ένωσης

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ. Η αγγλική και οι άλλες γλώσσες της Ευρωπαϊκής Ένωσης ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Κείμενο 1 Η αγγλική και οι άλλες γλώσσες της Ευρωπαϊκής Ένωσης Ο ενιαίος ευρωπαϊκός χώρος αποτελεί ήδη πεδίο δραστηριότητας, αλλά και ανταγωνισμού των γλωσσών. Από την εποχή της ίδρυσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας των αριθμοδεικτών. Παρακάτω προτείνεται μια αλληλουχία

Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας των αριθμοδεικτών. Παρακάτω προτείνεται μια αλληλουχία Αριθμοδείκτες Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας των αριθμοδεικτών. Παρακάτω προτείνεται μια αλληλουχία ενεργειών την οποία ο χρήστης πρέπει να ακολουθήσει

Διαβάστε περισσότερα

Ψευδοκώδικας. November 7, 2011

Ψευδοκώδικας. November 7, 2011 Ψευδοκώδικας November 7, 2011 Οι γλώσσες τύπου ψευδοκώδικα είναι ένας τρόπος περιγραφής αλγορίθμων. Δεν υπάρχει κανένας τυπικός ορισμός της έννοιας του ψευδοκώδικα όμως είναι κοινός τόπος ότι οποιαδήποτε

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

Γ. Πειραματισμός Βιομετρία

Γ. Πειραματισμός Βιομετρία Γενικά Πειραματικό σχέδιο και ANOVA Η βασική διαφορά μεταξύ των πειραματικών σχεδίων είναι ο τρόπος με τον οποίο ταξινομούνται ή κατατάσσονται οι πειραματικές μονάδες (πειραματικά τεμάχια) Σε όλα τα σχέδια

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Διάγραμμα αναλυτικής διόρθωσης ελεύθερης γραπτής έκφρασης (έκθεσης)

Διάγραμμα αναλυτικής διόρθωσης ελεύθερης γραπτής έκφρασης (έκθεσης) Διάγραμμα αναλυτικής διόρθωσης ελεύθερης γραπτής έκφρασης (έκθεσης) 1. Χαρακτηριστικά προς αξιολόγηση Α. Περιεχόμενο: πλούτος ιδεών σχετικών με το εξεταζόμενο θέμα. Β. Διάταξη νοημάτων: διάταξη ύλης και

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες:

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες: Πρόταση Διδασκαλίας Ενότητα: Τάξη: 7 η - Τέχνη: Μια γλώσσα για όλους, σε όλες τις εποχές Γ Γυμνασίου Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος Α: Στόχοι Οι μαθητές/ τριες: Να

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6.1 Το Πρόβλημα του Ελέγχου Υποθέσεων Ενός υποθέσουμε ότι μία φαρμακευτική εταιρεία πειραματίζεται πάνω σε ένα νέο φάρμακο για κάποια ασθένεια έχοντας ως στόχο, τα πρώτα θετικά

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΠΑΝΕΛΛΑΔΙΚΩΝ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΠΑΝΕΛΛΑΔΙΚΩΝ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ Θέμα Α ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΠΑΝΕΛΛΑΔΙΚΩΝ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ 2016-2017 Πάτρα 3/5/2017 Ονοματεπώνυμο:.. Α1. Να γράψετε στην κόλλα σας τον αριθμό

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

Θεματογράφος (ή ο βοηθός του Καθηγητή)

Θεματογράφος (ή ο βοηθός του Καθηγητή) Θεματογράφος (ή ο βοηθός του Καθηγητή) Τι είναι ο Θεματογράφος; Σύντομη Περιγραφή Ο Θεματογράφος είναι μία εφαρμογή με την οποία ο χρήστης μπορεί εύκολα να δημιουργήσει, να ταξινομήσει και να αποθηκεύσει

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6 πρώτο δεύτερο ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος ΓΑΛ 103 Γραπτός λόγος I ΓΑΛ 170 e-french ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής ΓΑΛ 104 Γραπτός λόγος II ΓΑΛ 111 Φωνητική ΓΑΛ 1 Από

Διαβάστε περισσότερα

Σ η μ ε ι ώ σ ε ι ς γ ι α τ ο υ π ο λ ο γ ι σ τ ι κ ό φ ύ λ λ ο

Σ η μ ε ι ώ σ ε ι ς γ ι α τ ο υ π ο λ ο γ ι σ τ ι κ ό φ ύ λ λ ο Σ η μ ε ι ώ σ ε ι ς γ ι α τ ο υ π ο λ ο γ ι σ τ ι κ ό φ ύ λ λ ο Το λογισμικό αυτό μας διευκολύνει να κατηγοριοποιήσουμε τα δεδομένα μας, να τα ταξινομήσουμε με όποιον τρόπο θέλουμε και να κάνουμε σύνθετους

Διαβάστε περισσότερα

f , Σύνολο 40 4) Να συμπληρώστε τον παρακάτω πίνακα f , , Σύνολο 5) Να συμπληρώστε τον παρακάτω πίνακα

f , Σύνολο 40 4) Να συμπληρώστε τον παρακάτω πίνακα f , , Σύνολο 5) Να συμπληρώστε τον παρακάτω πίνακα 1 ΣΤΑΤΙΣΤΙΚΗ 1) Οι παρακάτω αριθμοί παρουσιάζουν τα ύψη σε cm, των φυτών ενός θερμοκηπίου 4 3 6 5 3 1 4 5 4 6 6 3 3 1 4 3 α) Να κάνετε τον πίνακα όλων των συχνοτήτων β) Από τον προηγούμενο πίνακα να βρείτε,

Διαβάστε περισσότερα

GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή

GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή 11 ο Συνέδριο «Ελληνική Γλώσσα και Ορολογία», Αθήνα, 9-11 Νοεμβρίου 2017 Στόχος Η μελέτη

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 Η Θεωρία Πιθανοτήτων είναι ένας σχετικά νέος κλάδος των Μαθηματικών, ο οποίος παρουσιάζει πολλά ιδιαίτερα χαρακτηριστικά στοιχεία. Επειδή η ιδιαιτερότητα

Διαβάστε περισσότερα

Παρουσίαση της απαλλακτικής εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2015)

Παρουσίαση της απαλλακτικής εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2015) Παρουσίαση της απαλλακτικής εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2015) Γιώργος Μικρός ΕΚΠΑ UMass Boston Η ερευνητική υπόθεση Κάθε άνθρωπος έχει

Διαβάστε περισσότερα

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ. ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ. Στατιστική με το SPSS Ως επιστήμονες, χρειαζόμαστε τη Στατιστική για 2 κυρίους λόγους: 1. Για

Διαβάστε περισσότερα

ΠΡΑΚΤΙΚΗ ΑΣΚΗΣΗ 2013/14. Μιχαηλίδου Αγγελική Λάλας Γεώργιος

ΠΡΑΚΤΙΚΗ ΑΣΚΗΣΗ 2013/14. Μιχαηλίδου Αγγελική Λάλας Γεώργιος ΠΡΑΚΤΙΚΗ ΑΣΚΗΣΗ 2013/14 Μιχαηλίδου Αγγελική Λάλας Γεώργιος Περιγραφή Πλαισίου Σχολείο: 2 ο Πρότυπο Πειραματικό Γυμνάσιο Αθηνών Τμήμα: Β 3 Υπεύθυνος καθηγητής: Δημήτριος Διαμαντίδης Συνοδός: Δημήτριος Πρωτοπαπάς

Διαβάστε περισσότερα

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 2. Η έννοια του προβλήματος 2 2. Η έννοια του προβλήματος 2.1 Το πρόβλημα στην επιστήμη των Η/Υ 2.2 Κατηγορίες προβλημάτων

Διαβάστε περισσότερα

Πιστοποίηση επάρκειας της ελληνομάθειας. Οδηγίες για την ανάπτυξη εξεταστικών ερωτημάτων

Πιστοποίηση επάρκειας της ελληνομάθειας. Οδηγίες για την ανάπτυξη εξεταστικών ερωτημάτων Πιστοποίηση επάρκειας της ελληνομάθειας. Οδηγίες για την ανάπτυξη εξεταστικών ερωτημάτων Εισαγωγή Από το Μάιο του 2011 έγιναν ουσιαστικές και ριζικές αλλαγές στο πιστοποιητικό ελληνομάθειας, που αφορούν

Διαβάστε περισσότερα

Περιεχόμενα. Γιατί Ένας Manager Πρέπει να Ξέρει Στατιστική. Περιεχόμενα. Η Ανάπτυξη και Εξέλιξη της Σύγχρονης Στατιστικής

Περιεχόμενα. Γιατί Ένας Manager Πρέπει να Ξέρει Στατιστική. Περιεχόμενα. Η Ανάπτυξη και Εξέλιξη της Σύγχρονης Στατιστικής Chapter 1 Student Lecture Notes 1-1 Ανάλυση Δεδομένων και Στατιστική για Διοικήση Επιχειρήσεων [Basic Business Statistics (8 th Edition)] Κεφάλαιο 1 Εισαγωγή και Συλλογή Δεδομένων Περιεχόμενα Γιατί ένας

Διαβάστε περισσότερα

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Γ ΓΕΛ 15 / 04 / 2018 Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΘΕΜΑ Α Α1. Να γράψετε τον αριθμό της κάθε πρότασης (1-5) και δίπλα τη λέξη ΣΩΣΤΟ, αν η πρόταση είναι σωστή, ή τη λέξη ΛΑΘΟΣ, αν η

Διαβάστε περισσότερα

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. 4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. Η μετατροπή μιας εντολής επανάληψης σε μία άλλη ή στις άλλες δύο εντολές επανάληψης, αποτελεί ένα θέμα που αρκετές φορές έχει εξεταστεί σε πανελλαδικό

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες Η διάγνωση των διαταραχών λόγου πρέπει να γίνεται έγκαιρα, μόλις οι γονείς αντιληφθούν οτι κάτι ισως δεν πάει καλά και πρέπει να παρουσιάσουν το παιδί τους στον ειδικό. Ο ειδικός θα λάβει μέτρα για την

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε

Διαβάστε περισσότερα

Επικοινωνία:

Επικοινωνία: Σπύρος Ζυγούρης Καθηγητής Πληροφορικής Επικοινωνία: spzygouris@gmail.com Πως ορίζεται ο τμηματικός προγραμματισμός; Πρόγραμμα Εντολή 1 Εντολή 2 Εντολή 3 Εντολή 4 Εντολή 5 Εντολή 2 Εντολή 3 Εντολή 4 Εντολή

Διαβάστε περισσότερα

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. AeppAcademy.com facebook.com/aeppacademy Γεια. Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. Καλή Ανάγνωση & Καλή Επιτυχία

Διαβάστε περισσότερα

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3, Συνάφεια μεταξύ ποιοτικών μεταβλητών Εκδ. #3, 19.03.2016 Ο έλεγχος ανεξαρτησίας χ 2 Ο έλεγχος ανεξαρτησίας χ 2 εφαρμόζεται για να εξετάσουμε τη συνάφεια μεταξύ δύο ποιοτικών μεταβλητών με την έννοια της

Διαβάστε περισσότερα

Χρήστος Μαναριώτης Σχολικός Σύμβουλος 4 ης Περιφέρειας Ν. Αχαϊας Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΣΚΕΦΤΟΜΑΙ ΚΑΙ ΓΡΑΦΩ ΣΤΗΝ Α ΔΗΜΟΤΙΚΟΥ ΣΧΟΛΕΙΟΥ

Χρήστος Μαναριώτης Σχολικός Σύμβουλος 4 ης Περιφέρειας Ν. Αχαϊας Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΣΚΕΦΤΟΜΑΙ ΚΑΙ ΓΡΑΦΩ ΣΤΗΝ Α ΔΗΜΟΤΙΚΟΥ ΣΧΟΛΕΙΟΥ Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΣΚΕΦΤΟΜΑΙ ΚΑΙ ΓΡΑΦΩ ΣΤΗΝ Α ΔΗΜΟΤΙΚΟΥ ΣΧΟΛΕΙΟΥ Η καλλιέργεια της ικανότητας για γραπτή έκφραση πρέπει να αρχίζει από την πρώτη τάξη. Ο γραπτός λόγος χρειάζεται ως μέσο έκφρασης. Βέβαια,

Διαβάστε περισσότερα

ΘΕΜΑ 3 Το ύψος κύματος (σε μέτρα) σε μία συγκεκριμένη θαλάσσια περιοχή είναι τυχαία μεταβλητή X με συνάρτηση πυκνότητας πιθανότητας

ΘΕΜΑ 3 Το ύψος κύματος (σε μέτρα) σε μία συγκεκριμένη θαλάσσια περιοχή είναι τυχαία μεταβλητή X με συνάρτηση πυκνότητας πιθανότητας ΣΧΟΛΗ ΝΑΥΤΙΚΩΝ ΔΟΚΙΜΩΝ TOMEAΣ ΜΑΘΗΜΑΤΙΚΩΝ ΕΞΕΤΑΣΕΙΣ ΕΠΙΛΟΓΗΣ ΓΙΑ ΕΚΠΑΙΔΕΥΣΗ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ 26 Σεπτεμβρίου 2014 Ομάδα Θεμάτων Α ΘΕΜΑ 1 Ρίχνουμε ένα αμερόληπτο νόμισμα (δύο δυνατά

Διαβάστε περισσότερα

INFO. Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ ΑΠΟΚΛΕΙΣΤΙΚΑ ΤΑ ΕΞΕΤΑΣΤΙΚΑ ΚΕΝΤΡΑ ECDL

INFO. Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ ΑΠΟΚΛΕΙΣΤΙΚΑ ΤΑ ΕΞΕΤΑΣΤΙΚΑ ΚΕΝΤΡΑ ECDL INFO ECDL Expert Ένα ολοκληρωµένο Πρόγραµµα Πιστοποίησης γνώσεων πληροφορικής και δεξιοτήτων χρήσης Η/Υ ΠΡΟΧΩΡΗΜΕΝΟΥ ΕΠΙΠΕ ΟΥ Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium Iii Η Κανονική Κατανομή Λέμε ότι μία τυχαία μεταβλητή X, ακολουθεί την Κανονική Κατανομή με παραμέτρους και και συμβολίζουμε X N, αν έχει συνάρτηση πυκνότητας

Διαβάστε περισσότερα