Αναγνώριση γλώσσας ηλεκτρονικού κειµένου

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αναγνώριση γλώσσας ηλεκτρονικού κειµένου"

Transcript

1 Αναγνώριση γλώσσας ηλεκτρονικού κειµένου Αθανάσιος Πρωτόπαπας Α. Ανασκόπηση 1. Εισαγωγή Με την εξέλιξη των συστηµάτων γλωσσικής επεξεργασίας και επικοινωνίας προκύπτει η ανάγκη αυτόµατης κατηγοριοποίησης κειµένων προς επεξεργασία ανάλογα µε τη γλώσσα στην οποία είναι γραµµένα. Παρόµοια ανάγκη υπάρχει και για την αυτόµατη αναγνώριση γλώσσας οµιλίας σε πραγµατικό χρόνο (π.χ. για αυτόµατη επακόλουθη αναγνώριση οµιλίας ή ακόµα και για τηλεφωνική σύνδεση µε κάποιον που µιλάει τη γλώσσα του ατόµου που πραγµατοποιεί µια κλήση), όµως το πρόβληµα αυτό είναι εντελώς διαφορετικό και πολύ δυσκολότερο και δεν αναφέρεται στην παρούσα έκθεση. Το πρόβληµα αναγνώρισης της γλώσσας ενός γραπτού κειµένου διαθέσιµου σε ηλεκτρονική µορφή είναι πολύ απλούστερο διότι µπορεί να αναχθεί σε στατιστικό πρόβληµα ενός προκαθορισµένου συνόλου στοιχείων (χαρακτήρων και συνδυασµών τους) χωρίς τα προβλήµατα κανονικοποίησης και κατηγοριοποίησης που προκύπτουν για τον ήχο της οµιλίας ή την εικόνα ενός κειµένου από σαρωτή. Ουσιαστικά το σύνηθες ζητούµενο είναι, για δεδοµένη αλληλουχία οκταψήφιων δυαδικών χαρακτήρων (extended ASCII) να επιλεγεί το γλωσσικό µοντέλο (από Ν διαθέσιµα) που είναι βέλτιστα συµβατό µε την αλληλουχία βάσει προκαθορισµένης νόρµας (distance metric). Πρόκειται δηλαδή για πρόβληµα ταξινόµησης (κατηγοριοποίησης) και όχι αµιγώς αναγνώρισης διότι στην πράξη αλλά και από σχεδίαση δεν υπάρχει δυνατότητα απόρριψης ενός κειµένου ως «άγνωστης γλώσσας». Αυτό το σηµείο αποκτά µεγάλη σηµασία στην υλοποίηση και ειδικά σε συγκεκριµένες εφαρµογές διότι καθιστά αναγκαία την πρόβλεψη (και µοντελοποίηση) όλων των γλωσσών που είναι πιθανό να προκύψουν ακόµα και αν δεν υπάρχει ανάγκη ή δυνατότητα περαιτέρω επεξεργασίας παρά για ένα µικρό υποσύνολό τους. Παρά ταύτα, χρησιµοποιείται ο συνήθης όρος «αναγνώριση γλώσσας», µε την επιφύλαξη αυτή όσον αφορά στο δόκιµο της χρήσης του. Όπως και στην πλειονότητα εφαρµογών ταξινόµησης, έτσι και για την περίπτωση της αναγνώρισης γλώσσας υπάρχει η συνήθης ανάγκη συµβιβασµού της αποθηκευτικής ανάγκης µε την απαιτούµενη ακρίβεια αναγνώρισης σύντοµου κειµένου (ή, ισοδύναµα, µε το ελάχιστο απαιτούµενο µήκος κειµένου για δεδοµένη ακρίβεια αναγνώρισης). Προφανώς η ακρίβεια αναγνώρισης γλώσσας ενός κειµένου θα τείνει στο µηδέν όταν το µήκος του κειµένου τείνει στο µηδέν. Ούτως ή άλλως για κείµενα ενός ή λίγων µόνο χαρακτήρων δεν τίθεται καν ζήτηµα. Η µέγιστη δυνατή απαίτηση προκύπτει πρακτικά για το ελάχιστο µήκος κειµένου ίσο µε µια λέξη (το οποίο εξαρτάται από τη γλώσσα!), ενώ η απαίτηση αναγνώρισης από µια παράγραφο λίγων εκατοντάδων χαρακτήρων είναι

2 ασυµπτωτικά ισοδύναµη µε την θεωρητικά ελάχιστη απαίτηση αναγνώρισης γλώσσας κειµένου πολύ µεγάλου µήκους. Στο πεδίο του µεγέθους των απαιτουµένων γλωσσικών µοντέλων, η οριακή περίπτωση µέγιστης αποθηκευτικής απαίτησης περιλαµβάνει ένα πλήρες λεξιλόγιο για κάθε γλώσσα ενώ η ελάχιστη περίπτωση θα τείνει προς την συγκράτηση ενός µικρού αριθµού συνδυασµών χαρακτήρων (σε οµάδες 1 Ν χαρακτήρων που µπορεί να σχηµατίζουν ολόκληρες λέξεις ή όχι), ενδεχοµένως µαζί µε στατιστικές πληροφορίες για τη συχνότητα εµφάνισής τους ή για περιορισµούς περικειµένου. Το θεωρητικό µέγιστο αποθήκευσης και χρήσης ενός πλήρους λεξιλογίου αποτελεί και τη βάση αναφοράς για την αποτελεσµατικότητα κάθε χρησιµοποιούµενου µοντέλου ενώ δεν είναι πρακτικά υλοποιήσιµη η χρήση του. Η χρήση αυτής της βάσης αναφοράς καθιστά προφανή την εγγενή αδυναµία εκπλήρωσης του στόχου αναγνώρισης όταν µια αλληλουχία χαρακτήρων µπορεί να προκύψει σε περισσότερες από µία «γνωστές» γλώσσες. ηλαδή η τέλεια επίδοση κάθε δυνατού συστήµατος αναγνώρισης γλώσσας είναι εγγενώς µικρότερη από 100%. Για την κάλυψη ασαφών περιπτώσεων, για τη µείωση του µεγέθους του λεξιλογίου χωρίς µείωση της αξιοπιστίας, αλλά κυρίως για τον ορθό χειρισµό πολυγλωσσικών κειµένων, αναπτύσσονται σύγχρονες µέθοδοι αναγνώρισης γλώσσας φράσεων µε χρήση γραµµατικών-µορφολογικών µοντέλων γλώσσας και όχι µόνο λεξιλογίων. Πρόκειται για εξελιγµένα (και περίπλοκα) συστήµατα γλωσσολογικής ανάλυσης (parsing) τα οποία µπορούν να αντιµετωπίσουν µε επιτυχία περιπτώσεις στις οποίες οι «παραδοσιακές» µέθοδοι στατιστικής αλληλουχιών χαρακτήρων είναι απλά ανεπαρκείς. Λόγω της πολυπλοκότητας και της ιδιαιτερότητάς τους, τα συστήµατα αυτά δεν εξετάζονται στην παρούσα έκθεση. 2. Μέθοδοι Περιγραφή Υπάρχουν αρκετές µέθοδοι στη βιβλιογραφία αλλά και σε online συστήµατα επίδειξης στον παγκόσµιο ιστό. Ένας βασικός διαχωρισµός αφορά στη χρήση µονάδων αυθαίρετου ή σταθερού µήκους, καθώς και στη χρήση µονάδων-λέξεων ή αλληλουχιών χαρακτήρων που δεν σχηµατίζουν απαραίτητα λέξεις. Οι υπάρχουσες µέθοδοι διαφέρουν επίσης και στη διάσταση της πολυπλοκότητας, από απλή αναγνώριση µονάδων-«κλειδιών» ή καταµέτρηση συχνότητας εµφάνισης αλληλουχιών µέχρι HMM Γράµµατα (χαρακτήρες) Πολλές γλώσσες µπορούν να διακριθούν µε βάση µόνο τους χαρακτήρες που χρησιµοποιούνται στη γραφή τους. Π.χ. για τα αγγλικά χρησιµοποιούνται µόνο τα 26 γράµµατα του λατινικού αλφαβήτου ενώ για τα γερµανικά χρησιµοποιούνται επίσης και τα ä, ö, ü, ß, για τα γαλλικά τα é, è, ê, ô, á, à, ç, για τα ισπανικά τα ñ, á, é, í, ó, ú, ü, κ.λπ. Για τα ελληνικά (και µόνο) χρησιµοποιείται το ελληνικό αλφάβητο ενώ για τις περισσότερες σλαβικές γλώσσες χρησιµοποιείται το κυριλλικό αλφάβητο. Οι 2

3 διαφορές αυτές µπορούν να χρησιµοποιηθούν µε αρκετή αξιοπιστία στην αναγνώριση της γλώσσας ενός εντύπου, όχι όµως τόσο στην αναγνώριση ηλεκτρονικού κειµένου. Οι λόγοι είναι δύο: κωδικοποίηση και ασυνέπεια. Συγκεκριµένα, ο τρόπος συµβολισµού των διαφόρων χαρακτήρων εξαρτάται από το πρότυπο κωδικοποίησης χαρακτήρων, σήµερα συνήθως στις 128 θέσεις οκταψήφιων δυαδικών χαρακτήρων πάνω από τα ASCII και ανάλογα µε το αν χρησιµοποιείται ISO , ISO , ή CP1250 (για το λατινικό αλφάβητο), ISO ή CP1253 (για το ελληνικό αλφάβητο), κ.ο.κ. Η κωδικοποίηση συνήθως δεν είναι γνωστή πριν από τη γλώσσα και ανεξάρτητα από αυτή και θα πρέπει στην τυπική περίπτωση να αναγνωριστεί συγχρόνως (ενδεχοµένως και για την ορθή απεικόνιση του κειµένου). Ακόµα και αν υποτεθεί ότι το ζήτηµα της κωδικοποίησης µε κάποιο τρόπο λύνεται ή παρακάµπτεται, κατ αρχήν µε χρήση µαρκαρισµένων κειµένου και ειδικά στο µέλλον µε την ευρεία χρήση του Unicode, πιο σοβαρό επιχείρηµα ενάντια στη χρήση της µεθόδου αυτής είναι η ασυνέπεια µεταξύ κειµένων στην εφαρµογή της ορθογραφίας κάθε γλώσσας. Π.χ. για τα γερµανικά, τα γαλλικά και τα ισπανικά είναι πολύ συνηθισµένο να χρησιµοποιούνται µόνο οι απλοί 26 χαρακτήρες χωρίς τόνους ή άλλα διακριτικά (και στα γερµανικά οι ισοδύναµοι τύποι ae, oe, ue, και ss) είτε διότι κάποιο λογισµικό ή υλικό δεν υποστηρίζει την εµφάνιση ή την πληκτρολόγηση (εισαγωγή) άλλων χαρακτήρων, είτε διότι κάποιος χρήστης δεν γνωρίζει ή δεν κάνει την επιπλέον προσπάθεια εισαγωγής των ειδικών χαρακτήρων ή άλλων σηµαδιών (τονικών κ.ά.). Επιπλέον, υπάρχουν διάφοροι τρόποι συµβολισµού ειδικών χαρακτήρων και σηµαδιών που χρησιµοποιούνται ως επί το πλείστον σε µηνύµατα ηλεκτρονικού ταχυδροµείου και σε άλλες περιπτώσεις όταν οι συνθήκες ιστορικά επιβάλλουν ή ενθαρρύνουν τη χρήση απλού ASCII. Τέτοιοι είναι π.χ. ο συµβολισµός του ó ως o, o, /o, ή `o, ο συµβολισµός του ñ ως ~n, n~, ή n#, κ.λπ. Προφανώς η ποικιλία των συµβολισµών αυτών αποκλείει την αξιόπιστη ανίχνευση των στοιχείων εκείνων που χαρακτηρίζουν κάθε γλώσσα. Ένας ακόµα λόγος που καθιστά ασύµφορη τη χρήση της µεθόδου αυτής είναι και η προβληµατική επεκτασιµότητά της, διότι δεν µπορεί να είναι εκ των προτέρων γνωστό αν υπάρχει κατάλληλο σύνολο χαρακτήρων που να εµφανίζεται µε υψηλή συχνότητα και να χαρακτηρίζει επαρκώς κάθε γλώσσα η οποία µπορεί να χρειαστεί να ενσωµατωθεί στο σύστηµα µελλοντικά Συχνές λέξεις Μια άλλη µέθοδος, αρκετά παλιά όπως και η προηγούµενη, βασίζεται στην ύπαρξη ορισµένων µικρών πολύ συχνών λέξεων σε κάθε γλώσσα οι οποίες είναι χαρακτηριστικές για τη γλώσσα αυτή. Τέτοιες είναι συνήθως άρθρα, ο συνδετικός σύνδεσµος, κ.ά. Η µέθοδος αυτή αποτελεί ειδική περίπτωση της µεθόδου Ν-γραµµάτων που περιγράφεται στη συνέχεια, και µάλιστα πρόκειται για ιδιαίτερα δύσκαµπτη και απαιτητική µέθοδο και για το λόγο αυτό δε χρησιµοποιείται εδώ και αρκετά χρόνια. 3

4 Συγκεκριµένα, για να µπορεί να λειτουργήσει η µέθοδος αυτή πρέπει να εξασφαλίζεται κάποιο σηµαντικό µέγεθος κειµένου ώστε η πιθανότητα να απαντάται κάποια από τις χαρακτηριστικές λέξεις να είναι πολύ µεγάλη. Επίσης θα πρέπει να παρέχεται ρέον και όχι τηλεγραφικό κείµενο διότι στο τελευταίο τέτοιες λέξεις είναι αυτές που συνήθως παραλείπονται. Οι δύο αυτοί περιορισµοί είναι σηµαντικοί για ένα σύστηµα αναγνώρισης γλώσσας που µπορεί να κληθεί να αναγνωρίσει σύντοµα ή συνθηµατικά µηνύµατα. Το πρόβληµα επιδεινώνεται από το γεγονός ότι η µέθοδος αυτή δεν παρέχει διαβαθµισµένο αποτέλεσµα αλλά αποτυγχάνει εντελώς όταν δεν υπάρχουν στο κείµενο κάποιες από τις χαρακτηριστικές λέξεις. εν µπορεί δηλαδή, για κάποιο σύντοµο κείµενο, να δώσει µια µεγάλη πιθανότητα αυτό να είναι γραµµένο σε κάποια συγκεκριµένη γλώσσα και να δώσει τη δυνατότητα αξιολόγησης µιας πιθανοτικής επιλογής. Τέλος, όπως και στην προηγούµενη µέθοδο, η επεκτασιµότητα της µεθόδου αυτής είναι αµφίβολη διότι δεν µπορεί να προεξοφληθεί ότι για κάθε γλώσσα που µπορεί να χρειαστεί στο µέλλον θα υπάρχουν κατάλληλες αρκετά συχνές λέξεις οι οποίες θα είναι και διαφορετικές από αυτές κάθε άλλης υπάρχουσας γλώσσας Στατιστικές διγραµµάτων (και Ν-γραµµάτων) Η µέθοδος αυτή µάλλον πρωτοχρησιµοποιήθηκε από το σύστηµα της εταιρείας Automatic Language Processing Systems που κατασκεύασε ο Kenneth Beesley στα τέλη της δεκαετίας του 80 [4]. Πρόκειται για εκµετάλλευση των στατιστικών χαρακτηριστικών κάθε γλώσσας όσον αφορά στη συχνότητα εµφάνισης ζευγών χαρακτήρων, διότι η ορθογραφική κανονικότητα και συστηµατικότητα κάθε γλώσσας είναι εµφανής τόσο στις επιτρεπόµενες αλληλουχίες χαρακτήρων όσο και στη συχνότητα εµφάνισης κάθε αλληλουχίας. Π.χ., κάθε δίψηφο σύµφωνο ή φωνήεν, δίφθογγος, πρόθεµα ή µορφολογική κατάληξη αποτελούν αλληλουχίες χαρακτήρων που εµφανίζονται τακτικά ενώ υπάρχουν σε κάθε γλώσσα άλλες αλληλουχίες χαρακτήρων που απαγορεύονται ή εµφανίζονται σχετικά σπάνια. Η αρχή αυτή γενικεύεται παρακάτω σε αλληλουχίες Ν χαρακτήρων ενώ εδώ αναφερόµαστε ειδικά σε ζεύγη (Ν=2) χαρακτήρων. Για να λειτουργήσει η µέθοδος αυτή απαιτείται φυσικά κάποιο ευµέγεθες σώµα κειµένου από το οποίο θα εξαχθούν τα στατιστικά χαρακτηριστικά κάθε γλώσσας. Το µέγεθος του κειµένου για κάθε γλώσσα πρέπει να είναι τουλάχιστον της τάξης των 100 Kbytes. Το είδος του κειµένου πρέπει να είναι αντιπροσωπευτικό των κειµένων που θα κληθεί να ταξινοµήσει γλωσσικά το σύστηµα αν προβλέπεται χρήση σε κείµενα ειδικού τύπου, αλλιώς θα πρέπει το κείµενο να είναι όσο το δυνατόν πιο ουδέτερο και να ποικίλλει λεξιλογικά και υφολογικά ώστε να καλύπτει αντιπροσωπευτικά τη γλώσσα και όχι κάποιο συγκεκριµένο είδος περιεχοµένου. Πριν από την επεξεργασία καταµέτρησης απαιτείται προεπεξεργασία «καθαρισµού» του κειµένου από σηµεία στίξης και ενοποίηση όλων των λεκτικών συνόρων (white space) σε ένα χαρακτήρα. Στη συνέχεια κατασκευάζονται τα γλωσσικά µοντέλα από τη στατιστική επεξεργασία των σωµάτων κειµένου. Στη συγκεκριµένη περίπτωση καταρτίζεται πίνακας όλων των πιθανών ζευγών χαρακτήρων.και µετράται, για κάθε γλώσσα, η σχετική συχνότητα 4

5 εµφάνισης κάθε ζεύγους χαρακτήρων στο αντίστοιχο σώµα κειµένου για τη γλώσσα αυτή. Από τον πίνακα που προκύπτει για κάθε γλώσσα µπορούµε είτε να υπολογίσουµε τη λογαριθµική πιθανότητα εµφάνισης κάθε ζεύγους είτε να ταξινοµήσουµε τα ζεύγη χαρακτήρων κατά συχνότητα εµφάνισης. Αυτό εξαρτάται από τον τρόπο µε τον οποίο θα γίνεται η αναγνώριση, όπως εξηγείται στη συνέχεια. Ο τρόπος µε τον οποίο γίνεται η επιλογή της γλώσσας από τις γνωστές µπορεί να βασίζεται σε σύγκριση κατανοµής, σε πλειοψηφικό σύστηµα ή σε συγκεντρωτική πιθανότητα, ως εξής: Σύγκριση κατανοµής Από τη µέτρηση της σχετικής συχνότητας εµφάνισης διγραµµάτων καταρτίζουµε πίνακα διφωνηµάτων ταξινοµηµένο κατά συχνότητα. Αντικαθιστούµε δηλαδή την αριθµητική πληροφορία της σχετικής συχνότητας µε την πληροφορία της διάταξης (θέσης µετά την ταξινόµηση). Η διάταξη αυτή των διγραµµάτων (ή Ν-γραµµάτων για τη γενικότερη περίπτωση) αποτελεί και το γλωσσικό µοντέλο το οποίο αποθηκεύεται και αποτελεί µέρος της µόνιµης βάσης δεδοµένων του επιλογέα γλώσσας. Κάθε κείµενο προς αναγνώριση γλώσσας υπόκειται σε όµοια ανάλυση καταµέτρησης των εµφανιζοµένων ζευγών χαρακτήρων και ταξινόµησής τους κατά σχετική συχνότητα εµφάνισης. Στη συνέχεια συγκρίνεται για κάθε γλωσσικό µοντέλο η σειρά των διγραµµάτων στο µοντέλο µε τη σειρά διγραµµάτων που προέκυψε από την ανάλυση του κειµένου. Η σύγκριση αυτή µπορεί να γίνει είτε υπολογίζοντας για κάθε δίγραµµα τη διαφορά στην απόλυτη θέση κατάταξης µεταξύ µοντέλου και κειµένου είτε µε πιο περίπλοκες µεθόδους όπως ο υπολογισµός κάποιου µη παραµετρικού δείκτη συνάφειας (π.χ. συνάφεια διάταξης κατά Spearman, δείκτης τ κατά Kendall, κ.ά.). Η γλώσσα στης οποίας το µοντέλο η διάταξη διγραµµάτων είναι πιο όµοια µε τη διάταξη διγραµµάτων στο κείµενο προς αναγνώριση επιλέγεται ως γλώσσα του κειµένου. Παρατήρηση: Όπως και σε όλες τις στατιστικές µεθόδους, η επιλογή γλώσσας είναι σχετική και µπορεί να γίνει µόνο συγκριτικά µεταξύ γλωσσών. εν υπάρχει αξιόπιστος τρόπος απόρριψης όλων των γλωσσών µε εξαγωγή απόφασης «άγνωστης γλώσσας», ειδικά για κείµενα µικρού µεγέθους Πλειοψηφική επιλογή Το γλωσσικό µοντέλο για κάθε γλώσσα αποτελείται από το σύνολο των σχετικών συχνοτήτων (πιθανοτήτων) εµφάνισης όλων των ζευγών χαρακτήρων (διγραµµάτων). Οι τιµές αυτές αποθηκεύονται και αποτελούν µέρος της µόνιµης βάσης δεδοµένων του επιλογέα γλώσσας. Κάθε κείµενο προς αναγνώριση γλώσσας αναλύεται κατ αρχήν σε λέξεις (απορρίπτοντας σηµεία στίξης και ενοποιώντας διαφορετικούς χαρακτήρες διαστήµατος) και στη συνέχεια κάθε λέξη αναλύεται σε διγράµµατα (ή σε Ν-γράµµατα στη γενικότερη περίπτωση) χωρίς να παραλείπονται και τα δύο «ζεύγη» µε το χαρακτήρα διαστήµατος στην αρχή και στο τέλος της λέξης. Στη συνέχεια για 5

6 κάθε λέξη πολλαπλασιάζονται µεταξύ τους οι σχετικές συχνότητες εµφάνισης όλων των διγραµµάτων που περιέχει και αυτό γίνεται µε βάση κάθε ένα γλωσσικό µοντέλο ξεχωριστά. Το αποτέλεσµα είναι ανάλογο της σχετικής πιθανότητας της λέξη αυτή να προέρχεται από κάθε αντίστοιχη γλώσσα. Η γλώσσα από της οποίας το µοντέλο προκύπτει η µεγαλύτερη «πιθανότητα» για την κάθε λέξη θεωρείται ότι είναι η γλώσσα στην οποία είναι γραµµένη η λέξη αυτή, η οποία πλέον συνιστά µια «ψήφο» για τη συγκεκριµένη γλώσσα. Επειδή για όλες τις γλώσσες χρησιµοποιείται ο ίδιος αριθµός πολλαπλασιαστέων δεν είναι απαραίτητο να κανονικοποιηθεί το αποτέλεσµα και να υπολογιστεί ακριβώς η πιθανότητα βάσει του τύπου του Bayes. Αν κάποιο ζεύγος χαρακτήρων δεν εµφανίζεται ποτέ σε µια γλώσσα σύµφωνα µε το αντίστοιχο γλωσσικό µοντέλο τότε η αντίστοιχη σχετική συχνότητα είναι µηδέν και το γινόµενο για τη λέξη µηδενίζεται, οπότε και αποκλείεται από την «ψηφοφορία» η γλώσσα αυτή. Τελικώς γλώσσα του κειµένου θεωρείται η γλώσσα εκείνη µε τις περισσότερες «ψήφους», µε το µεγαλύτερο δηλαδή αριθµό λέξεων που να µεγιστοποιούν τη συγκεντρωτική πιθανότητα των διγραµµάτων τους χρησιµοποιώντας το αντίστοιχο γλωσσικό µοντέλο. Ας σηµειωθεί ότι ο υπολογισµός αυτός περιέχει µια σηµαντική µη-γραµµικότητα στον υπολογισµό διότι κάθε λέξη τελικά συνεισφέρει µε το ίδιο βάρος στην τελική απόφαση της γλώσσας του κειµένου ανεξάρτητα από το από πόσα και πόσο συχνά διγράµµατα αποτελείται. Εναλλακτικά, η µέθοδος συγκεντρωτικής πιθανότητας που ακολουθεί διαφέρει ακριβώς στο σηµείο αυτό διότι βασίζεται στη συγκεντρωτική πιθανότητα όλων των διγραµµάτων του κειµένου µε ίδιο βάρος (αντί όλων των λέξεων µε το ίδιο βάρος ανεξαρτήτως συχνότητας και πλήθους διγραµµάτων) Συγκεντρωτική πιθανότητα Αυτή είναι και η µέθοδος που είναι υλοποιηµένη και λειτουργεί στο ΙΕΛ σήµερα. Από τη µέτρηση της σχετικής συχνότητας εµφάνισης διγραµµάτων στο σώµα κειµένου υπολογίζουµε και αποθηκεύουµε για κάθε δίγραµµα (ή Ν-γραµµα στη γενικότερη περίπτωση) το λογάριθµο της πιθανότητας εµφάνισής του. Οι τιµές αυτές λογαριθµικής συχνότητας για το σώµα κειµένου κάθε γλώσσας αποτελούν και το γλωσσικό µοντέλο για τη γλώσσα αυτό το οποίο αποθηκεύεται και αποτελεί µέρος της µόνιµης βάσης δεδοµένων του επιλογέα γλώσσας. Κάθε κείµενο προς αναγνώριση γλώσσας αναλύεται σε διγράµµατα (ή σε Ν-γράµµατα στη γενικότερη περίπτωση), αφού απορριφθούν τα σηµεία στίξης και ενοποιηθούν οι διαφορετικοί χαρακτήρες διαστήµατος και χωρίς να παραλείπονται και τα δύο «ζεύγη» µε το χαρακτήρα διαστήµατος στην αρχή και στο τέλος κάθε λέξης. Στη συνέχεια αθροίζονται όλες οι λογαριθµικές συχνότητες εµφάνισης όλων των διγραµµάτων που περιέχει και αυτό γίνεται µε βάση κάθε ένα γλωσσικό µοντέλο ξεχωριστά. Το αποτέλεσµα είναι ανάλογο της σχετικής πιθανότητας του κειµένου συνολικά να είναι γραµµένο στην αντίστοιχη γλώσσα, βάσει της στατιστικής των διγραµµάτων. Η γλώσσα από της 6

7 οποίας το µοντέλο προκύπτει η µεγαλύτερη «πιθανότητα» για το κείµενο θεωρείται ότι είναι η γλώσσα στην οποία είναι γραµµένο το κείµενο. Ο λόγος που χρησιµοποιούνται λογάριθµοι και όχι απευθείας οι σχετικές συχνότητες, παρ ό,τι πρόκειται για υπολογισµό συγκεντρωτικής πιθανότητας, είναι για να αποφευχθεί η υποχείλιση του υπολογισµών µετά από πολλούς πολλαπλασιασµούς µικρών αριθµών (ειδικά για ένα κείµενο σχετικά µεγάλο όπου κατά πάσα πιθανότητα θα εµφανίζονται και διγράµµατα µε σχετική συχνότητα εµφάνισης πολύ µικρότερη του 1.0). Το άθροισµα λογαρίθµων ισοδυναµεί µε πολλαπλασιασµό των σχετικών συχνοτήτων και εφόσον µας ενδιαφέρει µόνο η σύγκριση των αποτελεσµάτων για κάθε γλωσσικό µοντέλο µας αρκεί η µονοτονικότητα της λογαριθµικής συνάρτησης. Η µέθοδος αυτή υπολογισµού και σύγκρισης είναι παρόµοια µε την προηγούµενη µε τη διαφορά ότι εδώ δεν παρεµβάλλεται η µη-γραµµικότητα της αποκοπής κατά λέξη κι έτσι κάθε δίγραµµα συνεισφέρει µε ίδιο βάρος στον τελικό υπολογισµό. Έτσι µια λέξη µε διγράµµατα µεγάλης συχνότητας (σε µια γλώσσα) µπορεί να αποβεί πιο σηµαντική για την τελική κατάταξη του κειµένου από µια άλλη λέξη µε διγράµµατα χαµηλότερης συχνότητας, ενώ στην προηγούµενη περίπτωση αυτό δεν µπορεί να συµβεί. Οι προαναφερθείσες µέθοδοι για ζεύγη χαρακτήρων (διγράµµατα) µπορούν να εφαρµοστούν και για απλούς χαρακτήρες αλλά και για µεγαλύτερα τµήµατα κειµένου, π.χ. τριγράµµατα, τετραγράµµατα, κ.ο.κ. Από δοκιµές µου αλλά και από τη βιβλιογραφία προκύπτει ότι η χρήση απλών γραµµάτων δεν είναι αξιόπιστη. Επίσης προκύπτει ότι δεν χρησιµοποιούνται αλληλουχίες µήκους µεγαλύτερου από τρία (δηλαδή τριγράµµατα) δεν παρατηρήθηκε καµία αναφορά σε χρήση τετραγραµµάτων ή αλληλουχιών µεγαλύτερου µεγέθους εκτός από την περίπτωση µικτών Ν-γραµµάτων που αναφέρεται στη συνέχεια, στην οποία περιλαµβάνονται λίγα µόνο Ν-γράµµατα µήκους µεγαλύτερου του 3 (τα πολύ συχνά). εν υπάρχει στη βιβλιογραφία συγκριτική µελέτη µεταξύ µεθόδων που να διαφέρουν αποκλειστικά στο µήκος των τµηµάτων-µονάδων που χρησιµοποιούνται. Κάθε ερευνητής προτείνει και υλοποιεί µια δικιά του µέθοδο και τη συγκρίνει µε µια ή δύο άλλες το πολύ (ή και µε καµία, παραθέτοντας απλώς αποτελέσµατα για τη µέθοδό του). Οι διαφορές µεταξύ των κειµένων που χρησιµοποιούνται σε κάθε µελέτη (τόσο για τη σύνταξη των γλωσσικών µοντέλων όσο και για τη µέτρηση της απόδοσης) καθιστούν αδύνατη την ουσιαστική σύγκριση µεταξύ µεθόδων. Ας αναφερθεί εδώ και µια συγκριτική µελέτη µεθόδων αναγνώρισης γλώσσας [3], κατά την οποία συγκρίθηκε η µέθοδος των συχνών λέξεων µε τη µέθοδο της συγκεντρωτικής πιθανότητας τριγραµµάτων. Τα αποτελέσµατα έδειξαν τεράστια υπεροχή της µεθόδου τριγραµµάτων για σύντοµα κείµενα (1-2 και 3-5 λέξεις) αλλά ισοδυναµία των µεθόδων για µεγαλύτερα κείµενα (6 λέξεις και πάνω). Για κείµενα άνω των 50 λέξεων και οι δύο µέθοδοι είχαν 100% επιτυχία µεταξύ 10 ευρωπαϊκών γλωσσών. 7

8 2.4. ιάταξη µικτών Ν-γραµµάτων Μια µέθοδος όµοια µε αυτές της οικογένειας των Ν-γραµµάτων που περιγράφηκε στην ενότητα 2.3 έχει παρουσιαστεί πιο πρόσφατα [2], η οποία διαφέρει κυρίως στο ότι χρησιµοποιεί αδιακρίτως και συγχρόνως αλληλουχίες χαρακτήρων διαφόρων µεγεθών µε µόνο κριτήριο τη συχνότητα εµφάνισής τους. Συγκεκριµένα, καταµετρούνται οι απλοί χαρακτήρες (1-γράµµατα), τα ζεύγη χαρακτήρων (διγράµµατα), οι τριάδες χαρακτήρων (τριγράµµατα) και ενδεχοµένως και µεγαλύτερες αλληλουχίες (τετράδες, πεντάδες, κ.ο.κ). Στη βιβλιογραφία αναφέρεται χρήση Ν-γραµµάτων για Ν από 1 έως 5. Στη συνέχεια ταξινοµούνται κατά σχετική συχνότητα εµφάνισης όλα τα Ν-γράµµατα ανεξαρτήτως µεγέθους, έτσι ώστε ένα ζεύγος γραµµάτων π.χ. που εµφανίζεται συχνότερα από όσο συναντάται κάποιο σπάνιο γράµµα µόνο του µπορεί να βρίσκεται ψηλότερα στην κατάταξη. (Προφανώς δεν είναι δυνατόν κάποιο δίγραµµα να είναι συχνότερο από κάποιον από τους δύο χαρακτήρες που το απαρτίζουν!) Πρέπει να καταστεί σαφές ότι δεν είναι δυνατόν να καταρτιστεί πίνακας όλων των Ν-γραµµάτων για Ν>2 εφόσον κάτι τέτοιο θα ήταν και απαγορευτικό από πλευράς αποθηκευτικών απαιτήσεων αλλά και ανούσιο διότι οι περισσότεροι συνδυασµοί για Ν>3 δε θα εµφανίζονται ποτέ ή σχεδόν ποτέ. Έτσι γίνεται εναλλακτικά καταγραφή και καταµέτρηση συγχρόνως των συνδυασµών που εµφανίζονται στο σώµα κειµένου κάθε γλώσσας, για κάθε Ν. Στη συνέχεια διατηρούνται τα k συχνότερα Ν-γράµµατα και αποτελούν, ως διατεταγµένο σύνολο, το γλωσσικό µοντέλο για κάθε γλώσσα από το σώµα κειµένου της οποίας έχουν υπολογιστεί. Το k µπορεί να κυµαίνεται πρακτικά µεταξύ 100 και 500 στοιχείων. Παροµοίως µε την προαναφερθείσα µέθοδο σύγκρισης κατανοµής, κάθε κείµενο προς αναγνώριση γλώσσας υφίσταται όµοια επεξεργασία (καταγραφή, καταµέτρηση, και ταξινόµηση των Ν-γραµµάτων που περιέχει, για Ν µεταξύ δύο προκαθορισµένων τιµών) µε αποτέλεσµα ένα διατεταγµένο σύνολο Ν-γραµµάτων. Το σύνολο αυτό συγκρίνεται µε το αντίστοιχο κάθε γλωσσικού µοντέλου µε τη διαφορά ότι επειδή δεν υπάρχουν κατ ανάγκη τα ίδια µέλη στα δύο σύνολα (και προφανώς δεν είναι αναµενόµενο να υπάρχουν εφόσον βασιζόµαστε στο ότι οι συχνότερες αλληλουχίες χαρακτήρων διαφέρουν µεταξύ γλωσσών) θέτουµε µια αυθαίρετη µεγάλη τιµή «εκτός συνόλου» η οποία αντιστοιχεί στη διαφορά κατάταξης ενός στοιχείου που υπάρχει µόνο σε ένα από τα δύο σύνολα. Τελικά ως γλώσσα του κειµένου επιλέγεται η γλώσσα εκείνη το µοντέλο της οποίας είναι πιο όµοιο µε το σύνολο συνηθέστερων Ν-γραµµάτων του κειµένου HMM Στη βιβλιογραφία έχει αναφερθεί επιτυχής εφαρµογή κρυµµένων Μαρκοβιανών µοντέλων, συγκεκριµένα ενός εργοδικού µοντέλου επτά καταστάσεων, στην αναγνώριση της γλώσσας ηλεκτρονικού κειµένου[5]. εδοµένης της υψηλής απόδοσης των προαναφερθεισών απλούστερων 8

9 στατιστικών µεθόδων πρώτης τάξεως είναι αµφίβολης σκοπιµότητας η χρήση τέτοιων µοντέλων για το πρόβληµα της αναγνώρισης γλώσσας. 3. Επιδόσεις Για τις µεθόδους που χρησιµοποιούνται σήµερα (εκτός δηλαδή από τις µεθόδους ειδικών χαρακτήρων και συχνών λέξεων) τα αποτελέσµατα που παρατηρούνται στη βιβλιογραφία αλλά και η σύµφωνη εµπειρία στο ΙΕΛ δείχνουν ότι η επιτυχία εξαρτάται κατά κύριο λόγο από το µήκος του προς αναγνώριση κειµένου και ξεπερνά χωρίς δυσκολία το 99% για κείµενα µερικών εκατοντάδων χαρακτήρων όταν ζητείται επιλογή µεταξύ λίγων µέχρι λίγων δεκάδων γλωσσών. Β. Σχεδίαση και υλοποίηση του συστήµατος του ΙΕΛ Στην παρούσα ενότητα περιγράφεται το σύστηµα ταξινόµησης κειµένων κατά γλώσσα που αναπτύχθηκε στο ΙΕΛ µε µια τροποποιηµένη µέθοδο συγκεντρωτικής πιθανότητας διγραµµάτων, το οποίο για την ώρα περιλαµβάνει γλωσσικά µοντέλα για πέντε γλώσσες: ελληνικά (δύο κωδικοποιήσεις, σύνολο τέσσερις γραφές), αγγλικά, γερµανικά, γαλλικά και ολλανδικά. Το σύστηµα µπορεί πολύ εύκολα να επεκταθεί σε άλλες γλώσσες και κωδικοποιήσεις µε µόνη απαίτηση την εκτέλεση του προγράµµατος προεπεξεργασίας σε ένα εκτενές σώµα κειµένων για κάθε νέα γλώσσα. Το σύστηµα µπορεί να λειτουργήσει αυτόνοµα ή στη µορφή δυναµικά συνδεόµενης βιβλιοθήκης (DLL). Η λειτουργία του συστήµατος έχει δοκιµαστεί εκτενώς σε διάφορες συνθήκες και για διάφορα µήκη ακολουθιών χαρακτήρων και η απόδοσή του είναι εφάµιλλη των ήδη υπαρχόντων στη βιβλιογραφία και στην αγορά. Τα αποτελέσµατα των δοκιµασιών παρουσιάζονται σε επόµενη ενότητα. 4. Μέθοδος ταξινόµησης Η υλοποιηµένη µέθοδος βασίζεται στη συγκεντρωτική πιθανότητα διγραµµάτων, υπολογισµένη επί του συνόλου της διαθέσιµης ακολουθίας χαρακτήρων (χωρίς περιορισµούς κατά λέξη ή φράσηπρόταση) Πιθανότητες Με την υπόθεση ότι κάθε γλώσσα είναι εκ προοιµίου ισοπίθανη για δεδοµένο διαθέσιµο κείµενο, η σχετική πιθανότητα καθεµιάς δεδοµένου του κειµένου ισούται µε την πιθανότητα του κειµένου δεδοµένου του αντίστοιχου γλωσσικού µοντέλου και δεν απαιτείται µετατροπή των πιθανοτήτων βάσει του νόµου του Bayes. Η πιθανότητα του κειµένου για δεδοµένο γλωσσικό µοντέλο υπολογίζεται πολλαπλασιάζοντας την πιθανότητα κάθε διγράµµατος που περιλαµβάνεται (ή, για µοντέλο απλών γραµµάτων, την πιθανότητα κάθε ενός γράµµατος). Όµως από το σηµείο αυτό στην πράξη εγκαταλείπεται η ορθή έννοια της πιθανότητας και πολλές υλοποιήσεις περνούν στη χρήση κατασκευασµάτων βασισµένων σε πιθανότητες που όµως δεν ακολουθούν τα θεωρητικά µοντέλα. 9

10 Αυτό συµβαίνει διότι τα διγράµµατα δεν είναι µεταξύ τους ανεξάρτητα αλλά, εφόσον χρησιµοποιούνται όλα, υπάρχει σηµαντική εξάρτηση µεταξύ διαδοχικών διγραµµάτων λόγω του υποχρεωτικά κοινού γράµµατος. Το πρόβληµα αντιµετωπίζεται µερικώς µε την κανονικοποίηση των πιθανοτήτων εµφάνισης κάθε διγράµµατος ως προς το πρώτο γράµµα του, παράγοντας έτσι µια δεσµευµένη πιθανότητα η οποία µπορεί µε αντίστοιχη κανονικοποίηση στην εφαρµογή του µοντέλου να αντιστοιχιστεί στην κατάλληλη ποσότητα. Από διάφορες δοκιµές που έγιναν όσον αφορά στη χρήση των πιθανοτήτων, µε και χωρίς κανονικοποίηση, προέκυψε ότι η ορθή ή όχι εφαρµογή δεν επηρεάζει το αποτέλεσµα, δηλαδή την τελική επίδοση του συστήµατος. Συνεπώς στην τελική εφαρµογή δεν έχει ληφθεί µέριµνα για την αποκανονικοποίηση και αποσυσχέτιση των διγραµµατικών πιθανοτήτων στον υπολογισµό της συγκεντρωτικής ποσότητας, µε µόνη συνέπεια την επιφύλαξη για τη χρήση του όρου «συγκεντρωτική πιθανότητα». Η παρατήρηση αυτή ισχύει για όλες τις κατωτέρω αναφορές σε συγκεντρωτική πιθανότητα, καθώς και για τους πίνακες συχνοτήτων και λογαριθµικών πιθανοτήτων στο παράρτηµα Ακολουθίες χαρακτήρων και περιορισµοί Το σύστηµα επεξεργάζεται προς ταξινόµηση οποιαδήποτε ακολουθία χαρακτήρων οκτώ ψηφίων, χωρίς εγγενή περιορισµό µήκους πέρα από τη διαθέσιµη µνήµη του υπολογιστή που µπορεί να διατεθεί σε έναν πίνακα χαρακτήρων. Στα γλωσσικά µοντέλα περιέχονται οι κανονικοποιηµένες συχνότητες εµφάνισης όλων των διγραµµάτων µεταξύ των επιτρεποµένων χαρακτήρων. Σε αυτούς περιλαµβάνονται όλα τα γράµµατα του λατινικού αλφαβήτου, κεφαλαία και πεζά (θέσεις ASCII από 65 έως 90 και από 97 έως 122), ένας χαρακτήρας γενικευµένου διαστήµατος (κατά σύµβαση εδώ ίσος µε το διάστηµα ASCII 32, καθώς και οι χαρακτήρες extended ASCII από τη θέση 192 και µέχρι τη θέση 254, στους οποίους περιλαµβάνονται οι ελληνικοί χαρακτήρες στην κωδικοποίηση ISO , τονισµένοι και άτονοι, καθώς και χαρακτήρες µε διακριτικά σηµεία (τόνοι, umlaut, κ.ά.) που χρησιµοποιούνται σε άλλες ευρωπαϊκές γλώσσες. εν θεωρήθηκε πρακτικά εφικτός ο κατακερµατισµός του συνόλου extended ASCII διότι το ποιοι χαρακτήρες είναι κάθε φορά επιτρεπτοί εξαρτάται από τη γλώσσα, ενώ για τους υπολογισµούς είναι στη γενική περίπτωση απαραίτητη η ένωση των συνόλων των χαρακτήρων που χρησιµοποιούνται σε όλες τις γλώσσες. Ας σηµειωθεί ότι δεν έχουν ληφθεί καθόλου υπόψη σηµεία στίξης ακόµα και αν ορισµένα απ αυτά (π.χ. η απόστροφος) ίσως θα µπορούσαν να παράσχουν χρήσιµη πληροφορία. εδοµένης της πολύ υψηλής επίδοσης του συστήµατος ως έχει και της σχετικά χαµηλής συχνότητας εµφάνισης των ενδεχοµένως χρήσιµων σηµείων στίξης, δε θεωρήθηκε σκόπιµο να προστεθούν περαιτέρω έλεγχοι και θέσεις χαρακτήρων για τη χρήση τους. 10

11 5. οµή και λειτουργία του προγράµµατος Το πρόγραµµα ταξινόµησης κειµένων ανά γλώσσα λειτουργεί αφού πρώτα έχουν κατασκευαστεί γλωσσικά µοντέλα για όλες τις «γνωστές» στο σύστηµα γλώσσες. Τα µοντέλα αυτά µπορούν να αποθηκευτούν σε αρχεία, τα οποία να διαβάζονται από το πρόγραµµα ταξινόµησης κάθε φορά που αυτό εκτελείται, ή µπορούν να ενσωµατωθούν στο πρόγραµµα ταξινόµησης κατά τη µεταγλώττιση. Η πρώτη µέθοδος έχει το πλεονέκτηµα της ευελιξίας και επεκτασιµότητας διότι πρόσθετα γλωσσικά µοντέλα µπορούν να παραχθούν µετά τη µεταγλώττιση και να καταστούν αµέσως ενεργά για χρήση µε την επόµενη εκτέλεση του προγράµµατος. Ένα σύντοµο αρχείο, το οποίο µπορεί εύκολα να ενηµερωθεί, περιέχει ένα κατάλογο των γνωστών γλωσσών και των αντίστοιχων αρχείων γλωσσικών µοντέλων. Η επιλογή αυτή έχει και το πλεονέκτηµα του µικρού µεγέθους του εκτελέσιµου αρχείου και της συµβατότητας των γλωσσικών µοντέλων µεταξύ υπολογιστικών συστηµάτων. Τέλος ακόµα και τα αρχεία γλωσσικών µοντέλων καταλαµβάνουν µε την επιλογή αυτή λιγότερο χώρο διότι είναι απλό να αποθηκευτούν συµπιεσµένα µετά τον υπολογισµό τους. Το κύριο µειονέκτηµα της ευέλικτης αυτής µεθόδου είναι ότι τα γλωσσικά µοντέλα πρέπει να φορτώνονται από το δίσκο κάθε φορά που εκτελείται το πρόγραµµα, κάτι που µπορεί να επιµηκύνει σηµαντικά το χρόνο εκτέλεσης, ειδικά σε περίπτωση πολλάκις επαναλαµβανόµενης εκτέλεσης. Αντιθέτως, η δεύτερη εναλλακτική λύση (αυτή της ενσωµάτωσης των γλωσσικών µοντέλων στο πρόγραµµα ταξινόµησης κατά τη µεταγλώττιση) προσφέρει υψηλότερη ταχύτητα εκτέλεσης, λόγω της µείωσης στις απαιτούµενες λειτουργίες I/O, κάτι που καθίσταται ιδιαίτερα εµφανές και σηµαντικό σε επαναλαµβανόµενες αιτήσεις ταξινόµησης όπως στις δοκιµασίες του προγράµµατος που περιγράφονται στη συνέχεια. Και οι δύο επιλογές έχουν υλοποιηθεί και λειτουργούν στο σύστηµα του ΙΕΛ, έτσι οι διάφορες εφαρµογές µπορούν να χρησιµοποιήσουν όποια από τις δύο εξυπηρετεί καλύτερα τις ιδιαίτερες προτεραιότητες κάθε περίπτωσης χρήσης Προεπεξεργασία σωµάτων κειµένων Η κατασκευή των γλωσσικών µοντέλων γίνεται µε στατιστική ανάλυση σωµάτων κειµένων από κάθε γλώσσα. Στη βιβλιογραφία αναφέρονται ικανοποιητικά αποτελέσµατα ακόµα µε ιδιαιτέρως σύντοµα κείµενα για την εξαγωγή των γλωσσικών µοντέλων, της τάξης λίγων χιλιάδων χαρακτήρων. Στην παρούσα υλοποίηση χρησιµοποιήθηκαν µεγαλύτερα σώµατα, αρκετών εκατοντάδων χιλιάδων χαρακτήρων για κάθε γλώσσα, µε σκοπό την πιο αξιόπιστη στατιστική ανάλυση και την εξαγωγή έγκυρων στοιχείων. Τα σώµατα κειµένων που χρησιµοποιήθηκαν προήλθαν από τον παγκόσµιο ιστό και περιλαµβάνουν κείµενα ελληνικά (757 kb), αγγλικά (2299 kb), γαλλικά (1881 kb), γερµανικά (1215 kb) και ολλανδικά (594 kb). Από τα κείµενα αυτά εξήχθησαν στατιστικά στοιχεία για τη συχνότητα εµφάνισης γραµµάτων και διγραµµάτων σε κάθε γλώσσα (υπολογίζοντας µόνο τις προαναφερθείσες θέσεις κωδικοποίησης). Οι συχνότητες εµφάνισης γραµµάτων και οι κανονικοποιηµένες (δεσµευµένες) συχνότητες των 11

12 διγραµµάτων αποθηκεύτηκαν λογαριθµικά σε αρχεία µεγέθους 54 kb για κάθε γλώσσα (χωρίς συµπίεση). ηλαδή ο απαιτούµενος χώρος για κάθε ένα γλωσσικό µοντέλο κρίνεται ιδιαίτερα µικρός. Η προσθήκη άλλων γλωσσικών µοντέλων είναι ιδιαίτερα απλή, µε την επεξεργασία του αντίστοιχου σώµατος κειµένων και την αποθήκευση του αντίστοιχου αρχείου συχνοτήτων, καθώς και την ενηµέρωση του αρχείου γλωσσικών µοντέλων. Πρέπει να σηµειωθεί εδώ η ειδική µέριµνα για τους διαφορετικούς τρόπους γραφής των ελληνικών. Το αρχικό σώµα κειµένου των ελληνικών, το οποίο ήταν εξ ολοκλήρου σε κωδικοποίηση ISO µε κανονική ορθογραφία, µετατράπηκε σε τρεις διαφορετικές µορφές γραφής ελληνικών µε χαρακτήρες ASCII. Για τη µετατροπή ελήφθησαν υπόψη οι συνήθεις χρήσεις ελληνικών στο ηλεκτρονικό ταχυδροµείο για τη γραφή των ελληνικών χαρακτήρων. Αυθαίρετα ορίστηκαν, µε βάση το αρχικό σύνολο χαρακτήρων elot="άέήίόύώϊϋάέήίόύώϊϋαβγδεζηθικλµνξοπρσςτυφχψωαβγ ΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΓΧΨΩ; " οι εξής τρεις αντιστοιχίες (ενώ µε τον ίδιο τρόπο πολύ εύκολα µπορούν να οριστούν και άλλες): asc1="aeniouwiuaehioywiyabgdezn9iklmv3oprsstufxywabgdezh0iklmn3oprstyfxuw;"; asc2="aehioywiyaehioywiyabgdezh*iklmn*oprsstyfx*wabgdezh*iklmn*oprstyfx*w?"; asc3: "aehioyviyaehioyviyabgdezhuiklmnjoprswtyfxcvabgdezhuiklmnjoprstyfxcv;"; Έτσι δηµιουργήθηκαν τρία νέα σώµατα κειµένων µε το ίδιο περιεχόµενο αλλά διαφορετική γραφή («κωδικοποίηση»), από κάθε ένα από τα οποία προέκυψε ένα ξεχωριστό γλωσσικό µοντέλο, µε στόχο την αναγνώριση της ελληνικής γλώσσας όταν αυτή παρουσιάζεται γραµµένη µε µια από τις ιδιόµορφες συµβάσεις που συναντώνται συχνά σε επικοινωνίες ηλεκτρονικού ταχυδροµείου. Οι κωδικές ονοµασίες elot, asc1, asc2 και asc3 χρησιµοποιούνται εφεξής για να υποδηλώσουν τα τεχνητά αυτά σώµατα κειµένων και τα αντίστοιχα γλωσσικά µοντέλα για «ASCII ελληνικά». Για ένα πλήρες σύστηµα ίσως θα ήταν σκόπιµο να συµπεριληφθεί και ένα γλωσσικό µοντέλο ελληνικών χαρακτήρων αλλά χωρίς τόνους, µια και δυστυχώς είναι αρκετά σύνηθες το φαινόµενο, ειδικά σε ηλεκτρονικά κείµενα, να παραλείπονται εντελώς τα τονικά σηµάδια. Έτσι συνολικά στο τρέχον σύστηµα υπάρχει δυνατότητα ταξινόµησης σε πέντε γλώσσες µέ βάση οκτώ συνολικά γλωσσικά µοντέλα Προεπεξεργασία κειµένου Το προς ταξινόµηση κείµενο (ακολουθία χαρακτήρων) υφίσταται την ίδια προεπεξεργασία όπως και τα σώµατα κειµένων που χρησιµοποιήθηκαν για την κατασκευή των γλωσσικών µοντέλων. ηλαδή αφαιρούνται όλα τα σηµεία στίξης και µετατρέπονται σε ένα χαρακτήρα γενικευµένου διαστήµατος, µαζί µε όλους τους χαρακτήρες «white space» (όπως tab, carriage return κλπ.). Με τον τρόπο αυτό 12

13 µένουν µόνο λέξεις που χωρίζονται µεταξύ τους από γενικευµένο διάστηµα, το οποίο έχει ουσιαστικά το ρόλο του συνόρου για το διαχωρισµό των λέξεων. Ο χαρακτήρας αυτός προστίθεται επίσης στο τέλος της ακολουθίας χαρακτήρων για να σηµειωθεί και εκεί το προφανές τέλος λέξης. Στη συνέχεια η προεπεξεργασµένη ακολουθία χαρακτήρων παραδίδεται στο σύστηµα ταξινόµησης ώστε να αναλυθεί στατιστικά και να εκτιµηθεί η συµβατότητα µε κάθε υπάρχον γλωσσικό µοντέλο Κριτήριο ταξινόµησης Όπως και κατά την επεξεργασία του σώµατος κειµένων, η προς γλωσσική ταξινόµηση ακολουθία χαρακτήρων υφίσταται στατιστική ανάλυση ως προς το περιεχόµενό της σε χαρακτήρες και ζεύγη αυτών (διγράµµατα). Επί του παρόντος η καταµέτρηση χαρακτήρων δε χρησιµοποιείται για την ταξινόµηση ούτε για κανονικοποίηση διότι σε δοκιµαστικές εκτελέσεις του προγράµµατος δε φάνηκε να προσθέτει κάποιο πλεονέκτηµα. Επίσης σε δοκιµές κατέστη σαφές ότι η συχνότητα απλών γραµµάτων µόνη δεν επαρκεί για ικανοποιητική απόδοση του συστήµατος, όπως ήταν άλλωστε αναµενόµενο. Έτσι η ταξινόµηση γίνεται µόνο βάσει διγραµµάτων. Συγκεκριµένα, για κάθε γλωσσικό µοντέλο, κάθε ζεύγος χαρακτήρων στην προς ταξινόµηση ακολουθία συνεισφέρει σε ένα τρέχον συγκεντρωτικό άθροισµα τη λογαριθµική δεσµευµένη πιθανότητα εµφάνισής του (του ζεύγους) στο αντίστοιχο σώµα κειµένου. Το άθροισµα των λογαρίθµων ισοδυναµεί µε πολλαπλασιασµό των πιθανοτήτων, έτσι το τελικό αποτέλεσµα για κάθε γλωσσικό µοντέλο καλείται συγκεντρωτική πιθανότητα της ακολουθίας χαρακτήρων δεδοµένου του γλωσσικού αυτού µοντέλου. Όπως προαναφέρθηκε δεν πρόκειται για πραγµατική πιθανότητα λόγω της αλληλεξάρτησης µεταξύ διγραµµάτων και λόγω της σχετικής (δεσµευµένης) πιθανότητας κάθε διγράµµατος που χρησιµοποιείται. Όµως η µαθηµατική αυτή επιφύλαξη δεν έχει καµία αρνητική συνέπεια στην απόδοση του συστήµατος, όπως έγινε φανερό µετά από πλήθος δοκιµών µε διαφόρους δείκτες και παραµέτρους. Αφού υπολογιστεί η συγκεντρωτική πιθανότητα της προς ταξινόµηση ακολουθίας χαρακτήρων για κάθε ένα γλωσσικό µοντέλο και κανονικοποιηθεί ως προς το µήκος της ακολουθίας, συγκρίνονται τα αποτελέσµατα όλων των γλωσσικών µοντέλων και επιστρέφεται ο κωδικός του γλωσσικού µοντέλου βάσει του οποίου η υπολογίστηκε η µέγιστη συγκεντρωτική πιθανότητα. Το γλωσσικό µοντέλο αυτό θεωρείται και το πλέον πιθανό για τη συγκεκριµένη ακολουθία και η αντίστοιχη γλώσσα επιλέγεται ως η πιο πιθανή γλώσσα του κειµένου (της ακολουθίας χαρακτήρων). Ο κώδικας που επιτελεί τις ανωτέρω λειτουργίες είναι εξαιρετικά απλός και αποτελεσµατικός, και δεν αναµένεται να καθυστερήσει σηµαντικά οποιαδήποτε εφαρµογή τον χρησιµοποιήσει (µε τις επιφυλάξεις για επαναλαµβανόµενες εκτελέσεις στην περίπτωση αποθήκευσης των γλωσσικών µοντέλων σε ξεχωριστά αρχεία). 13

14 5.4. ιαθεσιµότητα και συµβατότητα Το σύστηµα ταξινόµησης ακολουθιών χαρακτήρων βάσει γλωσσικών µοντέλων έχει υλοποιηθεί σε περιβάλλον Borland C++ Builder 3 και τρέχει σε λειτουργικό σύστηµα Windows 98. εν αναµένεται καµία δυσκολία στην προσαρµογή του σε Windows 95, Windows Millennium Edition, Windows 2000, ή Windows NT, µε ενδεχόµενη ανάγκη επαναµεταγλώττισης στο αντίστοιχο σύστηµα Builder σε κάποιες περιπτώσεις. εδοµένου ότι όλος ο κώδικας είναι απλή standard C και χρησιµοποιούνται απλά αρχεία κειµένου για τα σώµατα κειµένων, η µετατροπή για χρήση σε οποιοδήποτε άλλο σύστηµα, π.χ. Unix, δεν θα πρέπει να παρουσιάσει καµία δυσκολία πέραν της ανάγκης µεταγλώττισης. Ούτως ή άλλως δε γίνεται χρήση γραφικών λειτουργιών του Builder παρά µόνο για µία εφαρµογή επίδειξης που χρησιµοποιεί το σύστηµα ταξινόµησης για ακολουθίες χαρακτήρων εισαγόµενες από το χρήστη µέσω πληκτρολογίου σε ένα µικρό παράθυρο. Η εφαρµογή αυτή φυσικά δεν αποτελεί µέρος του κυρίως συστήµατος και δεν είναι απαραίτητη για τη χρήση του. Συνοπτικά, η δηµιουργία δυναµικά συνδεοµένων βιβλιοθηκών για Windows είναι δεδοµένη, ενώ πολύ απλά µπορεί να επιτευχθεί το αντίστοιχο αποτέλεσµα και σε άλλα συστήµατα. 6. Απόδοση του συστήµατος Βασικό κριτήριο απόδοσης ενός συστήµατος ταξινόµησης είναι φυσικά το ποσοστό επιτυχίας για ταξινόµηση αγνώστων κειµένων στο σύνολο των «γνωστών» γλωσσών (δηλαδή των υπαρχόντων γλωσσικών µοντέλων). Από το πλήθος των πειραµάτων και δοκιµαστικών εφαρµογών που πραγµατοποιήθηκαν στο ΙΕΛ κατά τη διάρκεια της ανάπτυξης του συστήµατος παρατίθενται στο παράρτηµα για λόγους οικονοµίας χώρου αποτελέσµατα από δύο µόνο δοκιµασίες µε το σύστηµα που τελικά επελέγη. Συνοπτικά οι επιδόσεις του συστήµατος είναι τουλάχιστον ικανοποιητικές, εφάµιλλες ή καλύτερες συγκριτικά µε τα αναφερόµενα στη βιβλιογραφία, στο βαθµό που µια τέτοια σύγκριση είναι εφικτή. Οι συγκρίσεις είναι δύσκολες διότι διαφέρουν πολλές παράµετροι µεταξύ συστηµάτων και µεταξύ δοκιµασιών, αλλά και γιατί τα εµπορικά συστήµατα δεν αναφέρουν συστηµατικές µετρήσεις των επιδόσεών τους ενώ εστιάζουν κυρίως στο πλήθος των γλωσσών που µπορούν να «αναγνωριστούν». Στην παρούσα εφαρµογή το πλήθος γλωσσών δεν περιορίζεται από τη σχεδίαση του συστήµατος, ούτε και αναµένεται να έχει σηµαντική επίδραση στις επιδόσεις διότι ήδη συµπεριλαµβάνονται γλώσσες αρκετά συγγενικές. Πάντως εκείνο που µας ενδιαφέρει κυρίως είναι το όσο δυνατόν χαµηλότερο ποσοστό σφαλµάτων για ένα µικρό πλήθος γλωσσών, κείµενα στις οποίες αναµένεται να συναντηθούν Μέθοδος δοκιµασιών Για την πραγµατοποίηση των δοκιµασιών κατατµήθηκαν τα σώµατα κειµένων σε διάφορα µήκη αλληλουχιών ώστε να ελεγχθεί η λειτουργία του συστήµατος µε περιορισµένη πληροφορία. Ας σηµειωθεί ότι τα κείµενα δεν υπέστησαν καµία επεξεργασία «καθαρισµού» και έτσι περιλαµβάνουν 14

15 αριθµούς, αρκτικόλεξα, ονόµατα και πιθανώς λέξεις από άλλες γλώσσες, οι οποίες δυσχεραίνουν την ακριβή ταξινόµηση διότι δεν προβλέπονται από το γλωσσικό µοντέλο αλλά και γιατί αν περιλαµβάνουν ανενεργούς χαρακτήρες µειώνουν ουσιαστικά το χρήσιµο µήκος της ακολουθίας. Αυτό αποτελεί συνειδητή επιλογή για τον έλεγχο της λειτουργίας του συστήµατος σε πραγµατικές συνθήκες, διότι στην προτεινόµενη χρήση του δεν πρόκειται να αντιµετωπιστούν µόνο προεπεξεργασµένα ή άλλως ελεγµένα κείµενα. Ας σηµειωθεί όµως ότι για το λόγο αυτό η κατωτέρω παρουσιαζόµενη επίδοση δεν είναι µια βέλτιστη «εργαστηριακή» επίδοση της οποίας θα ανεµένετο επιδείνωση κάτω από συνθήκες πραγµατικής χρήσης. Για να είναι πάντα δυνατή η χρήση της πληροφορίας τέλους λέξης, όπως αναµένεται και σε πραγµατικές συνθήκες χρήσης, δεν ήταν δυνατό να κατατµηθούν τα κείµενα σε αλληλουχίες µε επακριβώς προκαθορισµένο µήκος. Η διαδικασία που χρησιµοποιήθηκε ήταν ο περιορισµός του ελάχιστου µήκους, πέρα από το οποίο η αλληλουχία έληγε όποτε έληγε η λέξη κατά την οποία επετεύχθη το ελάχιστο µήκος. Έτσι το πραγµατικό µήκος των αλληλουχιών αναµένεται να είναι κατά µέσο όρο µακρύτερο από το ελάχιστο µήκος κατά µισή λέξη, όπως και είναι φανερό από τη µελέτη των στοιχείων του παραρτήµατος (ενώ φυσικά το µήκος λέξης εξαρτάται από τη γλώσσα) υνατότητα απόρριψης άγνωστης γλώσσας Κάθε τέτοια αλληλουχία ταξινοµήθηκε από το σύστηµα και κατεγράφησαν οι συγκεντρωτικές πιθανότητες όλων των γλωσσικών µοντέλων. Στους πίνακες του παραρτήµατος φαίνεται το εύρος τιµών των συγκεντρωτικών πιθανοτήτων που ελήφθησαν ως βέλτιστες, δηλαδή οδήγησαν σε αντίστοιχη ταξινόµηση. Είναι ιδιαιτέρως σηµαντικό να σηµειωθεί ότι το εύρος αυτό είναι ιδιαίτερα µεγάλο και δε φαίνεται καµία κατάλληλη τιµή αποκοπής η οποία να µπορεί αξιόπιστα να χρησιµοποιηθεί για την απόρριψη αλληλουχιών χαρακτήρων ως «αγνώστου γλώσσας». Σχετικές δοκιµές κατέδειξαν αποφασιστικά ότι η προσπάθεια απόρριψης είναι µάταιη και οδηγεί σε σηµαντική επιδείνωση της επίδοσης του συστήµατος στις γνωστές γλώσσες µε την ανεπιθύµητη απόρριψη σηµαντικού ποσοστού κειµένων γνωστής γλώσσας. Στα πλαίσια των δοκιµών αυτών ο ενδιαφερόµενος µπορεί να µελετήσει τα αποτελέσµατα της δοκιµής που παρατίθεται στο παράρτηµα, κατά την οποία δεν συµπεριλαµβάνεται το γλωσσικό µοντέλο για τα ολλανδικά και συνεπώς τα ολλανδικά κείµενα κατατάσσονται υποχρεωτικά σε άλλη γλωσσική κατηγορία, µε συχνότερη τη γερµανική η οποία είναι και η πιο παρόµοια. Όπως φαίνεται από τους πίνακες, το εύρος τιµών επιλογής των (λανθασµένων) γλωσσικών µοντέλων δε διαφέρει σηµαντικά από αυτά των δοκιµών µε κείµενα των άλλων (δηλ. γνωστών) γλωσσών Επιδόσεις και εξάρτηση από µήκος αλληλουχίας Από τη µελέτη των ενδεικτικών πινάκων του παραρτήµατος είναι φανερό ότι για τέσσερις γλώσσες (επτά γλωσσικά µοντέλα λόγω των διαφόρων τρόπων γραφής των ελληνικών) το ποσοστό σφάλµατος 15

16 πέφτει κάτω από 1% για κείµενο οποιασδήποτε γλώσσας που ξεπερνά σε µήκος τους 35 χαρακτήρες περίπου, ενώ για κείµενο 200 χαρακτήρων το ποσοστό σφάλµατος γίνεται αµελητέο (της τάξης του 1 ή χαµηλότερο). Η επίδοση αυτή είναι ιδιαίτερα καλή αν αναλογιστεί κανείς ότι για ένα σύνηθες µήκος µιας σειράς κειµένου των 80 χαρακτήρων χρειάζεται µισή µόνο σειρά (4 6 λέξεις, ανάλογα και µε τη γλώσσα) για επίτευξη 99% επιτυχίας, ενώ µε τρεις σειρές η επιτυχία είναι ουσιαστικά εξασφαλισµένη (ένα λάθος σε 50 σελίδες κειµένου). Ιδιαίτερο ενδιαφέρον παρουσιάζει η µελέτη της επίδοσης του συστήµατος σε σύντοµες αλληλουχίες χαρακτήρων, οι οποίες µπορεί να περιέχουν µία ή δύο λέξεις. Τέτοιες περιπτώσεις µπορούν να προκύψουν σε αναγνώριση σύντοµων µηνυµάτων, καταλόγων επιλογών προγραµµάτων, ή επιλογώνδεικτών. Στην περίπτωση αυτή η επίδοση του συστήµατος είναι σηµαντικά χαµηλότερη, όπως άλλωστε και όλων των άλλων υπαρχόντων συστηµάτων. Για µέσο πραγµατικό µήκος αλληλουχίας γύρω στους 10 χαρακτήρες το ποσοστό σφάλµατος κυµαίνεται γύρω στο 10% για τις συγγενικές γλώσσες των αγγλικών, γερµανικών και γαλλικών, ενώ παραµένει ιδιαίτερα υψηλό στην περίπτωση των ελληνικών είτε αυτά είναι γραµµένα µε πραγµατικούς ελληνικούς χαρακτήρες είτε όχι. Ας σηµειωθεί εδώ ότι η αναγνώριση ενός κειµένου ως ASCII-ελληνικού αλλά µε λίγο διαφορετική αντιστοιχία ελληνικών-λατινικών δεν αποτελεί λειτουργικό σφάλµα του συστήµατος (παρ ό,τι καταγράφεται ξεχωριστά στους πίνακες σύγχυσης) διότι εκείνο που µας ενδιαφέρει είναι η αναγνώριση της γλώσσας, η οποία είναι επιτυχής. εδοµένης της συγγένειας µεταξύ αγγλικών, γαλλικών και γερµανικών η σχετικά υψηλή σύγχυση µεταξύ τους για πολύ σύντοµες αλληλουχίες χαρακτήρων δεν αποτελεί έκπληξη. Εδώ θα µπορούσε να γίνει ίσως κάποια βελτίωση µε συνολική βελτιστοποίηση µε εκ των προτέρων πιθανότητες αλλά αυτό θα εξαρτηθεί από την τελική εφαρµογή στην οποία θα χρησιµοποιηθεί το σύστηµα και το σύνολο κειµένων το οποίο θα κληθεί να επεξεργαστεί και ταξινοµήσει. 7. Συµπέρασµα Συµπερασµατικά µπορεί να υποστηριχθεί ότι η επίδοση του συστήµατος είναι ιδιαίτερα ικανοποιητική, τόσο για σύντοµες αλληλουχίες χαρακτήρων οι οποίες αποτελούν δοκιµασία υψηλής δυσκολίας, όσο και για αλληλουχίες µεγαλύτερου µήκους, στις οποίες το σφάλµα γίνεται αµελητέο. Το σύστηµα κρίνεται όχι απλώς χρησιµοποιήσιµο αλλά συγκρίσιµο µε άλλα που αναφέρονται στη βιβλιογραφία ή διατίθενται ως εµπορικά προϊόντα, ενώ µικροβελτιώσεις ίσως είναι δυνατές για πολύ συγκεκριµένες εφαρµογές. Βιβλιογραφία και διαδικτυακές παραποµπές [1] Yeshwant K. Muthusamy & A. Lawrence Spitz (1996). Automatic language identification (Section 8.7 of Survey of the State of the Art in Human Language Technology edited by R. A. Cole, J. Mariani, H. Uszkoreit, A. Zaenen, & V. Zue) at 16

17 [2] William B. Cavnar & John M. Trenkle (1994). N-gram-based text categorization. In Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, NV: UNLV Publications/Reprographics, pp [3] Gregory Grefenstette (1995). Comparing Two Language Identification Schemes. In Proceedings of the 3rd International Conference on Statistical Analysis of Textual Data (JADT'95), Rome, Italy. [4] Kenneth R. Beesley (1988). Language Identifier: A computer program for automatic naturallanguage identification of on-line text. In Languages at Crossroads: Proceedings of the 29 th Annual Conference of the American Translators Association, October 1988, pp Available online at [5] Yoshio Ueda and Seiichi Nakagawa (1990). Prediction for phoneme/syllable/word-category and identification of language using HMM. In Proceedings of the 1990 International Conference on Spoken Language Processing, Vol. 2 (pp ). Kobe, Japan. [6] H. K. Kwan and K. Hirose (1997). Use of Recurrent Network for Unknown Language Rejection in Language Identification System. In Proceedings of the 5th European Conference on Speech Communication and Technology (Eurospeech 97). Rhodes, Greece. Εταιρείες και συστήµατα: [a] Alis Technologies Inc., language technology solutions at system for identification of language and character encoding at [b] Stochastic Language Identifier by Doug Beeferman at [c] TextCat Language Guesser by Gertjan van Noord, implementing the Cavnar & Trenkle algorithm, at [d] Automatic Language Identification Bibliography, maintained by Diamantino Caseiro, at [e] Xerox Research Centre Europe online Language Identifier demo, at 17

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

Κ15 Ψηφιακή Λογική Σχεδίαση 2: Δυαδικό Σύστημα / Αναπαραστάσεις

Κ15 Ψηφιακή Λογική Σχεδίαση 2: Δυαδικό Σύστημα / Αναπαραστάσεις Κ15 Ψηφιακή Λογική Σχεδίαση 2: Δυαδικό Σύστημα / Αναπαραστάσεις Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυαδικό Σύστημα Αρίθμησης Περιεχόμενα 1 Δυαδικό

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

o AND o IF o SUMPRODUCT

o AND o IF o SUMPRODUCT Πληροφοριακά Εργαστήριο Management 1 Information Συστήματα Systems Διοίκησης ΤΕΙ Τμήμα Ελεγκτικής Ηπείρου Χρηματοοικονομικής (Παράρτημα Πρέβεζας) και Αντικείµενο: Μοντελοποίηση προβλήµατος Θέµατα που καλύπτονται:

Διαβάστε περισσότερα

Εισαγωγή στην επιστήµη των υπολογιστών ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ

Εισαγωγή στην επιστήµη των υπολογιστών ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ Εισαγωγή στην επιστήµη των υπολογιστών ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ 1 Αριθµητικό Σύστηµα! Ορίζει τον τρόπο αναπαράστασης ενός αριθµού µε διακεκριµένα σύµβολα! Ένας αριθµός αναπαρίσταται διαφορετικά σε κάθε σύστηµα,

Διαβάστε περισσότερα

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1 ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1 ΣΥΝΑΡΤΗΣΕΙΣ Η έννοια της συνάρτησης είναι θεμελιώδης στο λογισμό και διαπερνά όλους τους μαθηματικούς κλάδους. Για το φοιτητή είναι σημαντικό να κατανοήσει πλήρως αυτή

Διαβάστε περισσότερα

Ψηφιακά Κυκλώματα Ι. Μάθημα 1: Δυαδικά συστήματα - Κώδικες. Λευτέρης Καπετανάκης

Ψηφιακά Κυκλώματα Ι. Μάθημα 1: Δυαδικά συστήματα - Κώδικες. Λευτέρης Καπετανάκης ΤΛ2002 Ψηφιακά Κυκλώματα Ι Μάθημα 1: Δυαδικά συστήματα - Κώδικες Λευτέρης Καπετανάκης ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΗΣ Άνοιξη 2011 ΤΛ-2002: L1 Slide 1 Ψηφιακά Συστήματα ΤΛ-2002:

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων 1 2.1 Τύποι Δεδομένων Τα δεδομένα σήμερα συναντώνται σε διάφορες μορφές, στις οποίες περιλαμβάνονται αριθμοί,

Διαβάστε περισσότερα

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Σύνοψη Στο κεφάλαιο αυτό παρουσιάζονται δύο κριτήρια απόρριψης απομακρυσμένων από τη μέση τιμή πειραματικών μετρήσεων ενός φυσικού μεγέθους και συγκεκριμένα

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα Εργαστήριο Μαθηµατικών & Στατιστικής Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ η Πρόοδος στο Μάθηµα Στατιστική 5//8 ο Θέµα To % των ζώων µιας µεγάλης κτηνοτροφικής µονάδας έχει προσβληθεί από µια ασθένεια. Για τη διάγνωση της συγκεκριµένης

Διαβάστε περισσότερα

Σηµειώσεις στις σειρές

Σηµειώσεις στις σειρές . ΟΡΙΣΜΟΙ - ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ Σηµειώσεις στις σειρές Στην Ενότητα αυτή παρουσιάζουµε τις βασικές-απαραίτητες έννοιες για την µελέτη των σειρών πραγµατικών αριθµών και των εφαρµογών τους. Έτσι, δίνονται συστηµατικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Εισαγωγή στην επιστήµη των υπολογιστών. Υπολογιστές και Δεδοµένα Κεφάλαιο 3ο Αναπαράσταση Αριθµών

Εισαγωγή στην επιστήµη των υπολογιστών. Υπολογιστές και Δεδοµένα Κεφάλαιο 3ο Αναπαράσταση Αριθµών Εισαγωγή στην επιστήµη των υπολογιστών Υπολογιστές και Δεδοµένα Κεφάλαιο 3ο Αναπαράσταση Αριθµών 1 Δεκαδικό και Δυαδικό Σύστηµα Δύο κυρίαρχα συστήµατα στο χώρο των υπολογιστών Δεκαδικό: Η βάση του συστήµατος

Διαβάστε περισσότερα

Εισαγωγή στην επιστήµη των υπολογιστών. Αναπαράσταση Αριθµών

Εισαγωγή στην επιστήµη των υπολογιστών. Αναπαράσταση Αριθµών Εισαγωγή στην επιστήµη των υπολογιστών Αναπαράσταση Αριθµών 1 Δεκαδικό και Δυαδικό Σύστηµα Δύο κυρίαρχα συστήµατα στο χώρο των υπολογιστών Δεκαδικό: Η βάση του συστήµατος είναι το 10 αναπτύχθηκε τον 8

Διαβάστε περισσότερα

Στάδιο Εκτέλεσης

Στάδιο Εκτέλεσης 16 ΚΕΦΑΛΑΙΟ 1Ο 1.4.2.2 Στάδιο Εκτέλεσης Το στάδιο της εκτέλεσης μίας έρευνας αποτελεί αυτό ακριβώς που υπονοεί η ονομασία του. Δηλαδή, περιλαμβάνει όλες εκείνες τις ενέργειες από τη στιγμή που η έρευνα

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

Αριθμητική Ανάλυση & Εφαρμογές

Αριθμητική Ανάλυση & Εφαρμογές Αριθμητική Ανάλυση & Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 2017-2018 Υπολογισμοί και Σφάλματα Παράσταση Πραγματικών Αριθμών Συστήματα Αριθμών Παράσταση Ακέραιου

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Εισαγωγή στον προγραµµατισµό Η έννοια του προγράµµατος Ο προγραµµατισµός ασχολείται µε τη δηµιουργία του προγράµµατος, δηλαδή του συνόλου εντολών που πρέπει να δοθούν στον υπολογιστή ώστε να υλοποιηθεί

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΚΟΙΝΟΤΙΚΗΣ ΡΑΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΚΟΛΟΥΘΗΣΗ ΤΗΣ ΥΓΕΙΑΣ ΠΡΟΓΡΑΜΜΑ ΕΡΓΑΣΙΑΣ ΓΙΑ ΤΟ (Άρθρο 5.2.β) της απόφασης 1400/97/EΚ)

ΠΡΟΓΡΑΜΜΑ ΚΟΙΝΟΤΙΚΗΣ ΡΑΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΚΟΛΟΥΘΗΣΗ ΤΗΣ ΥΓΕΙΑΣ ΠΡΟΓΡΑΜΜΑ ΕΡΓΑΣΙΑΣ ΓΙΑ ΤΟ (Άρθρο 5.2.β) της απόφασης 1400/97/EΚ) VERSION FINALE ΠΡΟΓΡΑΜΜΑ ΚΟΙΝΟΤΙΚΗΣ ΡΑΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΚΟΛΟΥΘΗΣΗ ΤΗΣ ΥΓΕΙΑΣ ΠΡΟΓΡΑΜΜΑ ΕΡΓΑΣΙΑΣ ΓΙΑ ΤΟ 2000 (Άρθρο 5.2.β) της απόφασης 1400/97/EΚ) 1. Εισαγωγή Οι δραστηριότητες της Ευρωπαϊκής Ένωσης στον

Διαβάστε περισσότερα

Κεφάλαιο 10 ο Υποπρογράµµατα

Κεφάλαιο 10 ο Υποπρογράµµατα Κεφάλαιο 10 ο Υποπρογράµµατα Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον Η αντιµετώπιση των σύνθετων προβληµάτων και η ανάπτυξη των αντίστοιχων προγραµµάτων µπορεί να γίνει µε την ιεραρχική σχεδίαση,

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

Το λογισµικό εκπόνησης οικονοµοτεχνικών µελετών COBA. Η δυνατότητα εφαρµογής του στην Ελλάδα.

Το λογισµικό εκπόνησης οικονοµοτεχνικών µελετών COBA. Η δυνατότητα εφαρµογής του στην Ελλάδα. Το λογισµικό εκπόνησης οικονοµοτεχνικών µελετών COBA. Η δυνατότητα εφαρµογής του στην Ελλάδα. Κ.Μ. Ευθυµίου Πολιτικός µηχανικός, Msc. Λέξεις κλειδιά: COBA, οικονοµοτεχνική µελέτη ΠΕΡΙΛΗΨΗ: Το λογισµικό

Διαβάστε περισσότερα

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Θεωρία Πληροφορίας Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ατζέντα Διακριτή πηγή πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

Τηλεπικοινωνιακά Συστήματα ΙΙ

Τηλεπικοινωνιακά Συστήματα ΙΙ Τηλεπικοινωνιακά Συστήματα ΙΙ Διάλεξη 11: Κωδικοποίηση Πηγής Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ατζέντα 1. Αλγόριθμοι κωδικοποίησης πηγής Αλγόριθμος Fano Αλγόριθμος Shannon Αλγόριθμος Huffman

Διαβάστε περισσότερα

Λύβας Χρήστος Αρχική επιµέλεια Πιτροπάκης Νικόλαος και Υφαντόπουλος Νικόλαος

Λύβας Χρήστος Αρχική επιµέλεια Πιτροπάκης Νικόλαος και Υφαντόπουλος Νικόλαος ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ IΙ Λύβας Χρήστος chrislibas@ssl-unipi.gr Αρχική επιµέλεια Πιτροπάκης Νικόλαος και Υφαντόπουλος Νικόλαος >_ ΣΥΝΑΡΤΗΣΕΙΣ ΣΤΗ C (1/3) +- Στη C χρησιμοποιούμε συχνα τις συναρτήσεις (functions),

Διαβάστε περισσότερα

Βασική δοµή και Λειτουργία Υπολογιστή

Βασική δοµή και Λειτουργία Υπολογιστή Βασική δοµή και Λειτουργία Υπολογιστή Η τεχνολογία των Η/Υ έχει βασιστεί στη λειτουργία του ανθρώπινου οργανισµού. Οπως ο άνθρωπος πέρνει εξωτερικά ερεθίσµατα από το περιβάλλον τα επεξεργάζεται και αντιδρά

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Γ. Πειραματισμός Βιομετρία

Γ. Πειραματισμός Βιομετρία Γενικά Πειραματικό σχέδιο και ANOVA Η βασική διαφορά μεταξύ των πειραματικών σχεδίων είναι ο τρόπος με τον οποίο ταξινομούνται ή κατατάσσονται οι πειραματικές μονάδες (πειραματικά τεμάχια) Σε όλα τα σχέδια

Διαβάστε περισσότερα

Ανάπτυξη και αποτελέσµατα πολυκριτηριακής ανάλυσης Κατάταξη εναλλακτικών σεναρίων διαχείρισης ΟΤΚΖ Επιλογή βέλτιστου σεναρίου διαχείρισης

Ανάπτυξη και αποτελέσµατα πολυκριτηριακής ανάλυσης Κατάταξη εναλλακτικών σεναρίων διαχείρισης ΟΤΚΖ Επιλογή βέλτιστου σεναρίου διαχείρισης Ανάπτυξη και αποτελέσµατα πολυκριτηριακής ανάλυσης Κατάταξη εναλλακτικών σεναρίων διαχείρισης ΟΤΚΖ Επιλογή βέλτιστου σεναρίου διαχείρισης 1. Εισαγωγή Στην τεχνική αυτή έκθεση περιγράφεται αναλυτικά η εφαρµογή

Διαβάστε περισσότερα

3.1 εκαδικό και υαδικό

3.1 εκαδικό και υαδικό Εισαγωγή στην επιστήµη των υπολογιστών Υπολογιστές και εδοµένα Κεφάλαιο 3ο Αναπαράσταση Αριθµών 1 3.1 εκαδικό και υαδικό εκαδικό σύστηµα 2 1 εκαδικό και υαδικό υαδικό Σύστηµα 3 3.2 Μετατροπή Για τη µετατροπή

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

Μεταβλητές τύπου χαρακτήρα

Μεταβλητές τύπου χαρακτήρα Μεταβλητές τύπου χαρακτήρα 31 Μαρτίου 014 1 Μεταβλητές τύπου char Για χειρισμό χαρακτήρων η C διαθέτει τον τύπο char. Ο τύπος είναι βαθμωτός δηλαδή ακέραιης αναπαράστασης. Τυπικά έχει μέγεθος ενός byte

Διαβάστε περισσότερα

ΥΠΟΛΟΓΙΣΤΕΣ Ι. Τα επιμέρους τμήματα Η ΟΜΗ TOY ΥΠΟΛΟΓΙΣΤΗ. Αναπαράσταση μεγεθών. Αναλογική αναπαράσταση ΚΕΝΤΡΙΚΗ ΜΝΗΜΗ ΜΟΝΑ Α ΕΛΕΓΧΟΥ

ΥΠΟΛΟΓΙΣΤΕΣ Ι. Τα επιμέρους τμήματα Η ΟΜΗ TOY ΥΠΟΛΟΓΙΣΤΗ. Αναπαράσταση μεγεθών. Αναλογική αναπαράσταση ΚΕΝΤΡΙΚΗ ΜΝΗΜΗ ΜΟΝΑ Α ΕΛΕΓΧΟΥ ΥΠΟΛΟΓΙΣΤΕΣ Ι Η ΟΜΗ TOY ΥΠΟΛΟΓΙΣΤΗ Τα επιμέρους τμήματα ΕΙΣΟ ΟΣ ΚΕΝΤΡΙΚΗ ΜΝΗΜΗ ΕΛΕΓΧΟΥ ΑΡΙΘΜΗΤΙΚΗ ΛΟΓΙΚΗ ΕΞΟ ΟΣ ΚΕΝΤΡΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑΣ 1 2 Αναπαράσταση μεγεθών ΜΕΤΡΟΥΜΕΝΟ ΜΕΓΕΘΟΣ ΑΝΑΛΟΓΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ

Διαβάστε περισσότερα

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας πληθυσμιακής παραμέτρου. Είναι

Διαβάστε περισσότερα

Οργάνωση Υπολογιστών

Οργάνωση Υπολογιστών Οργάνωση Υπολογιστών Επιμέλεια: Γεώργιος Θεοδωρίδης, Επίκουρος Καθηγητής Ανδρέας Εμερετλής, Υποψήφιος Διδάκτορας Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών 1 Άδειες Χρήσης Το παρόν υλικό

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #08 Συµπίεση Κειµένων Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο Επιλέξτε μία σωστή απάντηση σε κάθε ένα από τα παρακάτω ερωτήματα. 1) Η χρήση απόλυτων δεσμεύσεων για τη συνόρθωση ενός τοπογραφικού

Διαβάστε περισσότερα

Κεφάλαιο 4: Λογισμικό Συστήματος

Κεφάλαιο 4: Λογισμικό Συστήματος Κεφάλαιο 4: Λογισμικό Συστήματος Ερωτήσεις 1. Να αναφέρετε συνοπτικά τις κατηγορίες στις οποίες διακρίνεται το λογισμικό συστήματος. Σε ποια ευρύτερη κατηγορία εντάσσεται αυτό; Το λογισμικό συστήματος

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ

ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ Εισαγωγή Ηεµφάνιση ηλεκτρονικών υπολογιστών και λογισµικού σε εφαρµογές µε υψηλές απαιτήσεις αξιοπιστίας, όπως είναι διαστηµικά προγράµµατα, στρατιωτικές τηλεπικοινωνίες,

Διαβάστε περισσότερα

1. Σκοπός της έρευνας

1. Σκοπός της έρευνας Στατιστική ανάλυση και ερμηνεία των αποτελεσμάτων των εξετάσεων πιστοποίησης ελληνομάθειας 1. Σκοπός της έρευνας Ο σκοπός αυτής της έρευνας είναι κυριότατα πρακτικός. Η εξέταση των δεκτικών/αντιληπτικών

Διαβάστε περισσότερα

γρηγορότερα. Αν θέλουμε να μηδενίσουμε όλα τα υπόλοιπα bit μπορούμε να χρησιμοποιήσουμε την εντολή:

γρηγορότερα. Αν θέλουμε να μηδενίσουμε όλα τα υπόλοιπα bit μπορούμε να χρησιμοποιήσουμε την εντολή: A. Tips 1. Τοποθέτηση σημαίας ή bit ενός καταχωρητή ή μεταβλητής... 2 2. Καθάρισμα σημαίας ή bit ενός καταχωρητή ή μεταβλητής... 2 3. Σύγκριση μονοδιάστατων πινάκων (στο παράδειγμα 5 στοιχείων)... 2 4.

Διαβάστε περισσότερα

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης Κεφάλαιο 13 Εισαγωγή στην Ανάλυση ιακύµανσης 1 Η Ανάλυση ιακύµανσης Από τα πιο συχνά χρησιµοποιούµενα στατιστικά κριτήρια στην κοινωνική έρευνα Γιατί; 1. Ενώ αναφέρεται σε διαφορές µέσων όρων, όπως και

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL 8.1. Εισαγωγή ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PACAL Πως προέκυψε η γλώσσα προγραμματισμού Pascal και ποια είναι τα γενικά της χαρακτηριστικά; Σχεδιάστηκε από τον Ελβετό επιστήμονα της Πληροφορικής Nicklaus Wirth to

Διαβάστε περισσότερα

Κατακερματισμός (Hashing)

Κατακερματισμός (Hashing) Κατακερματισμός (Hashing) O κατακερματισμός είναι μια τεχνική οργάνωσης ενός αρχείου. Είναι αρκετά δημοφιλής μέθοδος για την οργάνωση αρχείων Βάσεων Δεδομένων, καθώς βοηθάει σημαντικά στην γρήγορη αναζήτηση

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας

Διαβάστε περισσότερα

2. ΑΡΙΘΜΗΤΙΚΗ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. 2.1 Αριθμητικά συστήματα

2. ΑΡΙΘΜΗΤΙΚΗ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. 2.1 Αριθμητικά συστήματα 2. ΑΡΙΘΜΗΤΙΚΗ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ 2.1 Αριθμητικά συστήματα Κάθε πραγματικός αριθμός χ μπορεί να παρασταθεί σε ένα αριθμητικό σύστημα με βάση β>1 με μια δυναμοσειρά της μορφής, -οο * = ± Σ ψ β " (2 1) η - ν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ ΚΕΦΑΛΑΙΟ ΔΙΑΤΑΞΕΙΣ ΜΕΤΑΘΕΣΕΙΣ ΣΥΝΔΥΑΣΜΟΙ Εισαγωγή. Οι σχηματισμοί που προκύπτουν με την επιλογή ενός συγκεκριμένου αριθμού στοιχείων από το ίδιο σύνολο καλούνται διατάξεις αν μας ενδιαφέρει η σειρά καταγραφή

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος 2001-2002 ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #4

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος 2001-2002 ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #4 ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος 2001-2002 ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #4 «Προγραμματισμός Η/Υ» - Τετράδιο Εργαστηρίου #4 2 Γενικά Στο Τετράδιο #4 του Εργαστηρίου θα αναφερθούμε σε θέματα διαχείρισης πινάκων

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 Περιεχόμενα 1 Εισαγωγή 2 2 Μεγιστικός τελέστης στην μπάλα 2 2.1 Βασικό θεώρημα........................ 2 2.2 Γενική περίπτωση μπάλας.................. 6 2.2.1 Στο

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα 1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα Δεκαδικοί Αριθµοί Βάση : 10 Ψηφία : 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 Αριθµοί: Συντελεστές Χ δυνάµεις του 10 7392.25 = 7x10 3 + 3x10 2 + 9x10 1 + 2x10 0 + 2x10-1 + 5x10-2

Διαβάστε περισσότερα

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό Υπολογιστικά συστήματα: Στρώματα 1 ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό δεδομένα Αναπαράσταση δεδομένων 2 Τύποι δεδομένων Τα δεδομένα

Διαβάστε περισσότερα

Πίνακας 4.4 Διαστήματα Εμπιστοσύνης. Τιμές που Επίπεδο εμπιστοσύνης. Διάστημα εμπιστοσύνης

Πίνακας 4.4 Διαστήματα Εμπιστοσύνης. Τιμές που Επίπεδο εμπιστοσύνης. Διάστημα εμπιστοσύνης Σφάλματα Μετρήσεων 4.45 Πίνακας 4.4 Διαστήματα Εμπιστοσύνης. Τιμές που Επίπεδο εμπιστοσύνης Διάστημα εμπιστοσύνης βρίσκονται εκτός του Διαστήματος Εμπιστοσύνης 0.500 X 0.674σ 1 στις 0.800 X 1.8σ 1 στις

Διαβάστε περισσότερα

1. Στατιστική Ανάλυση της Έρευνας

1. Στατιστική Ανάλυση της Έρευνας 1. Στατιστική Ανάλυση της Έρευνας 1.1 Προοπτικές Απασχόλησης Προοπτικές Απασχόλησης - ΛΟΓ 26% 11% 63% Όχι Προσωρινά Μόνιµα Σχήµα 1.1: Προοπτικές Απασχόλησης ΛΟΓ Προοπτικές Απασχόλησης : ΤΜΗΜΑ Όχι Προσωρινά

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

1. Στατιστική Στοιχεία

1. Στατιστική Στοιχεία Στην παρούσα ενότητα γίνεται µια ανάλυση-σύγκριση των στοιχείων που προέκυψαν από την ανά τµήµα ανάλυση, ώστε να εξαχθεί µια σφαιρική εικόνα, σε σχέση µε τις οµοιότητες και διαφορές που διαπιστώνονται

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall 3..2 Ο Συντελεστής Συσχέτισης τ Του Kendall Ο συντελεστής συχέτισης τ του Kendall μοιάζει με τον συντελεστή ρ του Spearman ως προς το ότι υπολογίζεται με βάση την τάξη μεγέθους των παρατηρήσεων και όχι

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

2. Στοιχεία Πολυδιάστατων Κατανοµών

2. Στοιχεία Πολυδιάστατων Κατανοµών Στοιχεία Πολυδιάστατων Κατανοµών Είναι φανερό ότι έως τώρα η µελέτη µας επικεντρώνεται κάθε φορά σε πιθανότητες που αφορούν µία τυχαία µεταβλητή Σε αρκετές όµως περιπτώσεις ενδιαφερόµαστε να εξετάσουµε

Διαβάστε περισσότερα

Εισαγωγή στην Πληροφορική & τον Προγραμματισμό

Εισαγωγή στην Πληροφορική & τον Προγραμματισμό ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Εισαγωγή στην Πληροφορική & τον Προγραμματισμό Ενότητα 3 η : Κωδικοποίηση & Παράσταση Δεδομένων Ι. Ψαρομήλιγκος Χ. Κυτάγιας Τμήμα

Διαβάστε περισσότερα

1. Στατιστική Ανάλυση της Έρευνας

1. Στατιστική Ανάλυση της Έρευνας 1. Στατιστική Ανάλυση της Έρευνας 1.1 Προοπτικές Απασχόλησης Προοπτικές Απασχόλησης - Ε 12% 20% 68% Όχι Προσωρινά Μόνιµα Σχήµα 1.1: Προοπτικές Απασχόλησης Ε Προοπτικές Απασχόλησης : ΤΜΗΜΑ Όχι Προσωρινά

Διαβάστε περισσότερα

Ψευδοκώδικας. November 7, 2011

Ψευδοκώδικας. November 7, 2011 Ψευδοκώδικας November 7, 2011 Οι γλώσσες τύπου ψευδοκώδικα είναι ένας τρόπος περιγραφής αλγορίθμων. Δεν υπάρχει κανένας τυπικός ορισμός της έννοιας του ψευδοκώδικα όμως είναι κοινός τόπος ότι οποιαδήποτε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

προβλήµατος Το φίλτρο Kalman διαφέρει από τα συνηθισµένα προβλήµατα ΜΕΤ σε δύο χαρακτηριστικά: παραµέτρων αγνώστων

προβλήµατος Το φίλτρο Kalman διαφέρει από τα συνηθισµένα προβλήµατα ΜΕΤ σε δύο χαρακτηριστικά: παραµέτρων αγνώστων Φίλτρα Kalman Εξαγωγή των εξισώσεων τους µε βάση το κριτήριο ελαχιστοποίησης της Μεθόδου των Ελαχίστων Τετραγώνων. Αναλυτικές Μέθοδοι στη Γεωπληροφορική Μεταπτυχιακό Πρόγραµµα ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ ιατύπωση του

Διαβάστε περισσότερα

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη Επιλογή και επανάληψη Η ύλη που αναπτύσσεται σε αυτό το κεφάλαιο είναι συναφής µε την ύλη που αναπτύσσεται στο 2 ο κεφάλαιο. Όπου υπάρχουν διαφορές αναφέρονται ρητά. Προσέξτε ιδιαίτερα, πάντως, ότι στο

Διαβάστε περισσότερα

Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ

Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» 2000-2006 ΑΞΟΝΑΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ: 1 - ΠΑΙ ΕΙΑ ΚΑΙ ΠΟΛΙΤΙΣΜΟΣ ΜΕΤΡΟ: 1.3 ΤΕΚΜΗΡΙΩΣΗ, ΑΞΙΟΠΟΙΗΣΗ ΚΑΙ ΑΝΑ ΕΙΞΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Αναπαράσταση δεδομένων Υπολογιστικά συστήματα: Στρώματα 1 επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό δεδομένα Τύποι δεδομένων 2 Τα δεδομένα

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ. Μη Παραµετρική Στατιστική, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών

ΕΙΣΑΓΩΓΗ. Μη Παραµετρική Στατιστική, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών Εισαγωγή Στα προβλήµατα που έχουµε ασχοληθεί µέχρι τώρα, υποστηρίζουµε ότι έχουµε ένα δείγµα X = (X 1, X 2,...,X n ) F(,θ). π.χ. X 1, X 2,...,X n τ.δ. N(µ,σ 2 ),

Διαβάστε περισσότερα

Υπολογιστικά & Διακριτά Μαθηματικά

Υπολογιστικά & Διακριτά Μαθηματικά Υπολογιστικά & Διακριτά Μαθηματικά Ενότητα 1: Εισαγωγή- Χαρακτηριστικά Παραδείγματα Αλγορίθμων Στεφανίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Κεφάλαιο 2. Συστήματα Αρίθμησης και Αναπαράσταση Πληροφορίας. Περιεχόμενα. 2.1 Αριθμητικά Συστήματα. Εισαγωγή

Κεφάλαιο 2. Συστήματα Αρίθμησης και Αναπαράσταση Πληροφορίας. Περιεχόμενα. 2.1 Αριθμητικά Συστήματα. Εισαγωγή Κεφάλαιο. Συστήματα Αρίθμησης και Αναπαράσταση Πληροφορίας Περιεχόμενα. Αριθμητικά συστήματα. Μετατροπή αριθμών από ένα σύστημα σε άλλο.3 Πράξεις στο δυαδικό σύστημα.4 Πράξεις στο δεκαεξαδικό σύστημα.5

Διαβάστε περισσότερα

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ Γ ΤΑΞΗ

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ Γ ΤΑΞΗ ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Σ ΗΜΕΡΗΣΙΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 1 ΙΟΥΛΙΟΥ 2004 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ (ΚΥΚΛΟΥ

Διαβάστε περισσότερα

Υπολογιστές Ι. Άδειες Χρήσης. Εισαγωγή. Διδάσκοντες: Αν. Καθ. Δ. Παπαγεωργίου, Αν. Καθ. Ε. Λοιδωρίκης

Υπολογιστές Ι. Άδειες Χρήσης. Εισαγωγή. Διδάσκοντες: Αν. Καθ. Δ. Παπαγεωργίου, Αν. Καθ. Ε. Λοιδωρίκης ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Άδειες Χρήσης Υπολογιστές Ι Εισαγωγή Διδάσκοντες: Αν. Καθ. Δ. Παπαγεωργίου, Αν. Καθ. Ε. Λοιδωρίκης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test 1 Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου One-Sample t-test 2 Μια σύντομη αναδρομή Στα τέλη του 19 ου αιώνα μια μεγάλη αλλαγή για την επιστήμη ζυμώνονταν στην ζυθοποιία Guinness. Ο William Gosset

Διαβάστε περισσότερα

Διαδικασιακός Προγραμματισμός

Διαδικασιακός Προγραμματισμός Τμήμα ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ ΤΕΙ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ Διαδικασιακός Προγραμματισμός Διάλεξη 3 η Είσοδος Δεδομένων Οι διαλέξεις βασίζονται στο βιβλίο των Τσελίκη και Τσελίκα C: Από τη Θεωρία στην Εφαρμογή

Διαβάστε περισσότερα

ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ Έστω ότι επιθυμούμε να μελετήσουμε ένα τυχαίο πείραμα με δειγματικό χώρο Ω και έστω η πιθανότητα να συμβεί ένα ενδεχόμενο Α Ω Υπάρχουν περιπτώσεις όπου ενώ δεν γνωρίζουμε

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος

Διαβάστε περισσότερα

Α. Ερωτήσεις Ανάπτυξης

Α. Ερωτήσεις Ανάπτυξης οµηµένος Προγραµµατισµός-Κεφάλαιο 7 Σελίδα 1 α ό 10 ΕΝΟΤΗΤΑ ΙΙΙ (ΠΡΟΓΡΑΜΜΑΤΑ) ΚΕΦΑΛΑΙΟ 7: Είδη, Τεχνικές και Περιβάλλοντα Προγραµµατισµού Α. Ερωτήσεις Ανάπτυξης 1. Τι ονοµάζουµε γλώσσα προγραµµατισµού;

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 11/10/07

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 11/10/07 ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 11/10/07 Τμήμα θεωρίας: Α.Μ. 8, 9 Κάθε Πέμπτη, 11πμ-2μμ, ΑΜΦ23. Διδάσκων: Ντίνος Φερεντίνος Γραφείο 118 email: kpf3@cornell.edu Μάθημα: Θεωρία + προαιρετικό

Διαβάστε περισσότερα

C: Από τη Θεωρία στην Εφαρµογή 2 ο Κεφάλαιο

C: Από τη Θεωρία στην Εφαρµογή 2 ο Κεφάλαιο C: Από τη Θεωρία στην Εφαρµογή Κεφάλαιο 2 ο Τύποι Δεδοµένων Δήλωση Μεταβλητών Έξοδος Δεδοµένων Γ. Σ. Τσελίκης Ν. Δ. Τσελίκας Μνήµη και Μεταβλητές Σχέση Μνήµης Υπολογιστή και Μεταβλητών Η µνήµη (RAM) ενός

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Καθηγητής Πληροφορικής ΠΕ19 1 ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΚΕΦΑΛΑΙΟ 6 ο : ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΙΣΤΟΣΕΛΙΔΑ ΜΑΘΗΜΑΤΟΣ: http://eclass.sch.gr/courses/el594100/ Η έννοια του προγράμματος

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος ΑΛΓΟΡΙΘΜΟΙ Στο σηµείωµα αυτό αρχικά εξηγείται η έννοια αλγόριθµος και παραθέτονται τα σπουδαιότερα κριτήρια που πρέπει να πληρεί κάθε αλγόριθµος. Στη συνέχεια, η σπουδαιότητα των αλγορίθµων συνδυάζεται

Διαβάστε περισσότερα

Οδηγίες Ηλεκτρονικής Υποβολής Προτάσεων

Οδηγίες Ηλεκτρονικής Υποβολής Προτάσεων ΥΠΟΥΡΓΕΊΟ ΑΝΑΠΤΥΞΗΣ ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΒΙΟΜΗΧΑΝΙΑΣ /ΝΣΗ ΜΜΕ ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΑΝΤΑΓΩΝΙΣΤΙΚΟΤΗΤΑ ΚΑΙ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ» 2007 2013 ΠΡΟΓΡΑΜΜΑΤΑ «ΕΝΙΣΧΥΣΗ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑΣ ΝΕΩΝ» «ΕΝΙΣΧΥΣΗ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑΣ

Διαβάστε περισσότερα

«Παρατηρήσεις και προβλήµατα. Παντελής Α. Μπράττης Βιβλιοθηκονόµος Τεχνική Υποστήριξη ΣΚΕΑΒ

«Παρατηρήσεις και προβλήµατα. Παντελής Α. Μπράττης Βιβλιοθηκονόµος Τεχνική Υποστήριξη ΣΚΕΑΒ «Παρατηρήσεις και προβλήµατα στη βάση του ΣΚΕΑΒ» Παντελής Α. Μπράττης Βιβλιοθηκονόµος Τεχνική Υποστήριξη ΣΚΕΑΒ pbrattis@unioncatalog.gr 1 Εισαγωγή - Στόχος ΣΚΕΑΒ η δηµιουργία ενιαίου καταλόγου, µε µια

Διαβάστε περισσότερα

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ Διακριτά Μαθηματικά Ι Ενότητα 5: Αρχή Εγκλεισμού - Αποκλεισμού Διδάσκων: Χ. Μπούρας (bouras@cti.gr) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

ΠΛΗΚΤΡΟΛΟΓΙΟ. Η ελληνική διάταξη πλήκτρων είναι η παρακάτω (δεν υπάρχουν άλλες διατάξεις για το ελληνικό αλφάβητο):

ΠΛΗΚΤΡΟΛΟΓΙΟ. Η ελληνική διάταξη πλήκτρων είναι η παρακάτω (δεν υπάρχουν άλλες διατάξεις για το ελληνικό αλφάβητο): ΠΛΗΚΤΡΟΛΟΓΙΟ Διατάξεις χαρακτήρων Το πληκτρολόγιο περιλαμβάνει όλους τους χαρακτήρες κάποιου αλφάβητου π.χ. του λατινικού, και πολλά σημεία στίξης, διακριτικά σύμβολα, και βοηθητικά πλήκτρα. Ανάλογα με

Διαβάστε περισσότερα