4. ΤΟ ΚΕΙΜΕΝΟ ΣΤΑ ΠΟΛΥΜΕΣΑ
ΓΕΝΙΚΑ Ιστορικά Κωδικοποίηση Πληροφορίας στον Η/Υ Δυαδικό σύστημα αρίθμησης Bits & bytes Αναπαράσταση κειμένου ASCII Κωδικοσελίδες ISO Unicode Mark-up κείμενο Δομημένο κείμενο Hypertext
ΓΕΝΙΚΑ Χειρισμός Κειμένου Πράξεις χαρακτήρων Πράξεις συμβολοσειρών Επεξεργασία (Editing) κειμένου Φορμάρισμα κειμένου Γραμματοσειρά Μορφοποίηση Παρουσίαση Κειμένου Γραμματοσειρές Χαρτογραφικές (bitmap fonts) Διανυσματικές (Postscript, True Type) Γλώσσες Περιγραφής Κειμένου
Κείμενο O γραπτός λόγος αποτελεί τον βασικό φορέα πληροφορίας. Η γραφή υπήρξε σημαντικός παράγοντας στην εξέλιξη των πολιτισμών Ο γραπτός λόγος απελευθέρωσε την ανθρώπινη επικοινωνία από τους περιορισμούς του χώρου και του χρόνου. Ταυτόχρονα θυσίασε την αμφίδρομη αλληλεπίδραση, την αμφιδραστικότητα (interactivity) του προφορικού λόγου.
Ιστορικά Πρώτες συμβολικές αναπαραστάσεις Ανάγλυφα σε βράχους (Petroglyphs) Διάγραμμα με εικόνες (Pictographs) Ιδεόγραμμα (Ideographs) Πρώτα συστήματα γραφής Σφηνοειδής (Cuneiform) - Σουμέριοι Ιερογλυφικά (Hieroglyphics) - Αιγύπτιοι Λογογράμματα (logographs) - Κινέζοι Αλφάβητα Φοινικικό (Phoenician) Early Greek Early Roman Late Greek Late Roman
Εξέλιξη Γραμματομορφών.
Τυπογραφία Οι Κινέζοι είχαν ανακαλύψει τις σφραγίδες, 9ο αιώνα Οι μοναχοί έκανα ρέπλικες. Ο Gutenberg (1397-1468) ήταν ο 1ος επαγγελματίας τυπογράφος. Κατάφερε τη μηχανική αναπαραγωγή γραμμάτων και σχεδίων. Διαχώρισε τις έννοιες «γράμματα» και «εικόνες».
Κείμενο και Η/Υ Ο πρώτος τρόπος απεικόνισης της πληροφορίας σε υπολογιστή Μέχρι πρόσφατα το αποκλειστικό μέσο επικοινωνίας ανθρώπου-υπολογιστή για: εισαγωγή δεδομένων συγγραφή προγραμμάτων
Αναπαράσταση Κειμένου Το κείμενο μπορεί να περιγραφεί σαν ένα σύνολο από χαρακτήρες. Η επιμέλεια κειμένου περιλαμβάνει: Κωδικοποίηση Χαρακτήρων: περιγράφεται μόνο το νοηματικό περιεχόμενο του κειμένου Μορφοποίηση Σελίδας: καθορίζεται ο τρόπος παρουσίασης του κειμένου
Συστήματα Αρίθμησης Η αναπαράσταση ενός αριθμού σε ένα σύστημα αρίθμησης με βάση b έχει τη μορφή: c n b n +... c 1 b 1 + c 0 b 0 d 1 b -1 +... + d n b -n όπου c i and d i είναι συντελεστές τιμής Για παράδειγμα ο αριθμός 983.75 Στο δεκαδικό σύστημα: 9 10 2 + 8 10 1 + 3 10 0 + 7 10-1 + 5 10-2. Στο δυαδικό σύστημα: 1 2 9 + 1 2 8 + 1 2 7 + 1 2 6 + 1 2 4 + 1 2 2 + 1 2 1 + 1 10 0 + 1 2-1 + 1 2-2 δηλ. 1111010111.11 Στο οχταδικό σύστημα 1 8 3 + 7 8 2 + 2 8 1 + 7 8 0 + 6 8-1 δηλ. 1727.6
Το Δυαδικό Σύστημα Δεκαδικ ή Τιμή Δυαδικό ς Αριθμός 0 0000 1 0001 2 0010 Πρόσθεση 0+0 =0 1+0 = 1 1+1 = 10 Αφαίρεση 0-0 =0 1-0 = 1 1-1 = 0 Αριθμητικές Πράξεις 3 0011 4 0100 5 0101 6 0110 7 0111 AND 0 0 =0 1 0 = 0 1 1 = 1 OR 0 0 =0 1 0 = 1 1 1 = 1 ΝΟΤ 0 =1 1 = 0 8 1000 9 1001 Λογικές Πράξεις
Αποθήκευση Πληροφορίας στους Η/Υ Bit (BInary digit) Η μικρότερη μονάδα αποθήκευσης που χρησιμοποιείται στον Η/Υ 0 Μπορεί να αποθηκεύσει μόνο 2 (=2 1 ) τιμές: 1 Επειδή ένα bit μπορεί να πάρει μονάχα 2 τιμές, συνδυασμοί από bits χρησιμοποιούνται για την αποθήκευση μεγαλύτερου εύρους τιμών 0 0 Για παράδειγμα 2bit μπορούν να 0 1 αποθηκεύσουν 4 (=2 2 ) διαφορετικές τιμές 1 0 Byte (Ψηφιολέξη) 1 1 Συνδυασμός 8 bits Μπορεί να αποθηκεύσει 256 (=2 8 ) διαφορετικές τιμές
Κωδικοποίηση Πληροφορίας στους Η/Υ Η μετατροπή της πληροφορίας σε συνδυασμό από bits Κωδικοποίηση Χαρακτήρων Σε κάθε χαρακτήρα αντιστοιχούμε ένα συνδυασμό bit (δηλ. ένα δυαδικό αριθμό) Δεν υπάρχει μοναδικός τρόπος κωδικοποίησης Για να είναι κατανοητό ένα κείμενο σε 2 διαφορετικούς Η/Υ θα πρέπει να χρησιμοποιούν την ίδια κωδικοποίηση χαρακτήρων
ASCII (American Standard Code for Information Interchange) Απλή κωδικοποίηση των λατινικών χαρακτήρων συν κάποια ειδικά σύμβολα Μια κωδική λέξη ASCII έχει μήκος 7 bit (αποθηκευτικός χώρος 1 byte = 8 bits), άρα μπορούν να παρασταθούν 2 8 =256 διαφορετικοί χαρακτήρες Οι πλεονάζοντες 128 χαρακτήρες μπορούν να χρησιμοποιηθούν για ειδικά σύμβολα ή χαρακτήρες άλλων αλφάβητων. Το περιεχόμενο των πλεοναζόντων θέσεων δεν έχει τυποποιηθεί
Hello H E L L O 48 69 76 76 79 0011000 1000101 1001100 1001100 1001111
ASCII εναντίον ASCII IBM PC MS Windows
Κωδικοσελίδες ISO (International Standards Organisation) Σύνολο εναλλακτικών κωδικοποιήσεων με στόχος να αντιμετωπιστεί η αδυναμία του ASCII να υποστηρίξει άλλες γλώσσες πλην της αγγλικής: πχ ISO Latin = υπερσύνολο του ASCII το οποίο παρέχει κωδικοποίηση για τις περισσότερες ευρωπαϊκές γλώσσες Οι κωδικοποιήσεις του ISO έχουν διαδοθεί ευρέως και χρησιμοποιούνται σε διεθνείς εκδόσεις πακέτων λογισμικού
Παραδείγματα Kωδικοποιήσεων ISO ISO Latin 1 ISO Greek
Κωδικοσελίδα Unicode Λόγω περιορισμών μεγέθους όμως, σε καμία κωδικοσελίδα δεν χωρούσαν αρκετοί χαρακτήρες: η Ευρωπαϊκή Ένωση χρειαζόταν πλήθος διαφορετικών κωδικοσελίδων για να καλύψει όλες τις γλώσσες των χωρώνμελών της. Το Unicode προτείνει έναν μοναδικό αριθμό για κάθε χαρακτήρα, ανεξάρτητα από το λειτουργικό σύστημα, ανεξάρτητα από το λογισμικό, ανεξάρτητα από την γλώσσα. Μια κωδική λέξη Unicode έχει μήκος 16 bit Το Unicode Standard παρέχει κωδικοποίηση για τους χαρακτήρες όλων γραπτών γλωσσών συμπεριλαμβανομένων των Ευρωπαϊκών των γλωσσών της Μέσης Ανατολής (δεξιά-αριστερά) και της Ασίας. Για περισσότερες πληροφορίες επισκεφτείτε το http://www.unicode.org/
Εισαγωγή Κειμένου Με τη χρήση interactive εφαρμογών: Κειμενογράφοι (text editors) Windows Notepad Επεξεργαστές Κειμένου (word processors) MS Word Συστήματα Ηλεκτρονικής Τυπογραφίας (computer typesetting systems) T E X, Pagemaker, QuarkXpress
Μορφοποίηση Κειμένου Η διαδικασία επιβολής κάποιων χαρακτηριστικών εμφάνισης στο κείμενο. Επιλογή Τυπογραφικών Στοιχείων (Font) Μορφοποίηση Font Δόμηση Κειμένου Εισαγωγή Hyperlink Επιπλέον, δίνεται η δυνατότητα μίξης του κειμένου με εικόνες, διαγράμματα ακόμα και ήχους ή άλλα μη εκτυπώσιμα αντικείμενα, δημιουργώντας έτσι ένα νέο είδος κειμένου: το ηλεκτρονικό πολυμεσικό κείμενο (multimedia document).
Μοντέλα Μορφοποίησης Κειμένου WYSIWYG (What You See is What You Get) Κάθε αλλαγή στο φορμάρισμα εμφανίζεται στην οθόνη ακριβώς όπως θα τυπωθεί στον εκτυπωτή. Mark Up Κείμενο Χρησιμοποιούνται οδηγίες παρουσίασης (tags) Mark-up κείμενο πχ \center{text}, \it{text} Η εμφάνιση του φορμαρισμένου κειμένου στην οθόνη γίνεται με τη βοήθεια άλλης εφαρμογής
HTML (HyperText Markup Language) <HTML> <HEAD> <TITLE> Department of Computer Science, University of Crete, Greece </TITLE> </HEAD> <BODY BGCOLOR=#f8e8c7 LINK=#902b37 VLINK=#3e2c00 ALINK=#c07f00> <BR> <P><FONT FACE="Times New Roman" SIZE=+1 color="black"> Welcome to the Department of Computer Science of the University of Crete, in Heraklion. <BR> <BR> <BR> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=iso- </FONT> 8859-7"> </P> <CENTER><IMG SRC="graphics/new_univ.gif" ALT="Department of Computer Science"> The mission of the Department is to provide education and conduct state-of-the-art research in Computer Science. The Department is a member of the European Community Course Credit Transfer System <A HREF=http://www.uch.gr/ects/index.html>(ECTS)</A>.
Παράδειγμα Ιστοσελίδας
Είδη Γραμματοσειρών Χωρίζονται σε: Serif Sans serif Διακοσμητικές (Decorative) ABCDEFGHIJKLMNOPQRSTUVWXYZ ABCDEFGHIJKLMNOPQRSTUVWXYZ ABCDEFGHIJKLMNOPQRSTUVWXYZ
Περιγραφή Γραμματοσειρών Χαρτογραφική (Raster) Τα στοιχεία περιγράφονται σαν ένα πλέγμα. Οι πρώτες γραμματοσειρές είχαν αυτή τη μορφή. Αν και η επεξεργασία και εκτύπωση αυτών είναι γρήγορη, χάνουν σε ανεξαρτησία από τη μονάδα εξόδου, απατήσεις χώρου αποθήκευσης και ποιότητα μετά από κάποιο μετασχηματισμό (όπως μεγέθυνση ή περιστροφή). Διανυσματική (Vector) Η περιγραφή των τοιχείων γίνεται με μαθηματικό τρόπο, γεγονός που διορθώνει τα ελαττώματα των χαρτογραφικών γραμματοσειρών αλλά αυξάνει το χρόνο εκτύπωσης. Αυτή τη λογική ακολουθούν οι: PostScript Type 1 και ΤrueType
Περιγραφή Γραμματοσειρών bb b
Γλώσσες Περιγραφής Γραμματοσειρών PostScript Type 1 Πρότυπο ψηφιακών χαρακτήρων(international Standards Organization outline font standard, ISO 9541.) Αρχικά αναπτύχθηκε από Adobe Systems για PostScript. Αναγνωρίζεται από κάθε τύπο Η/Υ (microcomputers - mainframes) Τυπώνεται σε κάθε εκτυπωτή True Type Αναπτύχθηκε από Apple Computer, και μετά δόθηκε άδεια στη Microsoft Corporation. Όπως τα Type 1, TrueType format είναι διαθέσιμο για δημιουργία νέων fonts
Open Type fonts Νέο πρότυπο για ψηφιακά fonts Αναπτύχθηκε από κοινού: Adobe and Microsoft. OpenType fonts περιλαμβάνουν: PostScript είτε TrueType σε ένα «περιτύλιγμα». Ένα OpenType font είναι ένα αρχείο που ανταποκρίνεται το ίδιο σε Macintosh and Windows platforms. Πλεονεκτήματα OpenType fonts περισσότερους γλυφικούς χαρακτήρες υποστηρίξουν περισσότερες γλώσσες επιπλέον τυπογραφικά χαρακτηριστικά όπως small caps, oldstyle figures, and ligatures όλα σε ένα μοναδικό font Για περισσότερες πληροφορίες επισκεφτείτε http://www.truetype.demon.co.uk
Συμβουλές σχετικά με τη χρήση Γραμματοσειρών Επιλογή fonts Όχι πολλές διαφορετικές «οικογένειες» στοιχείων Έμφαση, όταν χρειάζεται, είτε μέσω στοιχείων μεγαλύτερου μεγέθους ή μέσω έντονων ή πλάγιων στοιχείων (πάντα από την ίδια οικογένεια) Μέγεθος στοιχείων ανάλογα με την έμφαση που πρέπει να δοθεί Απόσταση μεταξύ γραμμών, κενά, περιθώρια, στοίχιση Χρώμα κειμένου και φόντου
Εργαλεία Σχεδιασμού Γραμματοσειρών ResEdit From Apple, Macintosh O/S Fontographer From Macromedia, Windows & Macintosh O/S Type-Designer From DS Design, Windows O/S FontMonger From Ares Software, Macintosh O/S FontChameleon From Ares Software, Windows & Macintosh O/S
Γλώσσες Περιγραφής Σελίδας PostScript Διεθνές standard The PostScript programming language αναπτύχθηκε από την Adobe Systems Είναι ανεξάρτητο από τη συσκευή εξόδου που χρησιμοποιείται Adobe Portable Document Format (PDF) Περιγράφει την εμφάνιση του κειμένου στην οθόνη του Η/Υ Για περισσότερες πληροφορίες: http://www.adobe.com
Χειρισμός κειμένου Πράξεις χαρακτήρων Αναζήτηση, σύνθεση Πράξεις συμβολοσειρών Συνένωση, σύγκριση,αναζήτηση Επεξεργασία κειμένου Αντιγραφή, επικόλληση, εισαγωγή Μορφoποίηση (formatting) κειμένου
Hypertext Κείμενο που μπορεί να διαβαστεί από τον Η/Υ και δεν είναι οργανωμένο με κάποια συγκεκριμένη σειρά, αλλά με τρόπο ώστε σχετικά θέματα να είναι συνδεδεμένα. Συλλογή εγγράφων (nodes) με "συνδέσμους" (links) οι οποίοι, μέσω ενός διαδραστικού προγράμματος (browser), επιτρέπουν στον αναγνώστη να μετακινείται εύκολα από το ένα έγγραφο στο άλλο.