1. Sissejuhatus 1.1 Infoühiskond Näiteid igapäevaelust. Süsteemid ja tagasiside. 1.2 Andmed ja informatsioon On kolm sõna, millel tavakõnes ei pruugita vahet teha: andmed see on andmetöötluse ja andmeanalüüsi põhimõiste, seal mõistetakse seda kui informatsiooni töötlemiseks sobival kujul, mingisugusel konkreetsel, märgilisel või numbrilisel kujul. teave intuitiivselt me mõistame teavet kui kõike seda, mis on teadasaamisväärne, tähenduslik - seega kõikmõeldavaid andmeid, mida me saame sidekanalite vahendusel kommunikatsiooni kaudu. näit.: - päevauudised -> raadiost, TV-st, ajalehest; - kirjanduslik info -> romaani lugedes; - USA osariikide pealinnad -> teatmeteosest; aga ka: - mis süüa on? -> restorani menüüst; - kas võib minna? -> valgusfoori tuli; - kas on külm? -> naharetseptorid. informatsioon see sõna tekkis alles siis (20.s. kolmekümnendail aastail), kui oli vaja kahel eelneval vahet teha ja kui seoses sidetehnika arenguga tekkis vajadus neisse nähtustesse lähemalt süveneda. Siis tekkis informatsiooniteooria kui informatsiooni mõõtmist, tema edastamise ja muundumise üldisi seaduspärasusi uuriv distsipliin, mis oli otsustava tähtsusega küberneetika tekkel neljakümnendail aastail. 1.3 Informatsiooni kvantitatiivne, semantiline ja pragmaatiline aspekt Peatumata pikemalt informatsiooniteooria ajaloolisel arengul püüame nüüd informatsiooni mõistet ja tema eri külgi lahti mõtestada. 1.3.1. Informatsioon üldteadusliku metodoloogilise mõistena: peegeldus- ja regulatsiooniprotsessides esinev, ajas ja ruumis edasikanduv struktuursus või mitmekesisus. Selliselt mõistetuna on informatsioon: - omane kõigile materiaalsetele objektidele (aine, energia, info kui mateeria mõistmise "kolm vaala"); - mõõdetav. Samal ajal on ilmne (selle lähem käsitlus kuulub rohkem filosoofia pärusmaale), et - niisugune käsitlus on paljude konkreetsete juhtude jaoks liiga üldine; - bioloogilistes ja sotsiaalsetes süsteemides (aga ka juhtimissüsteemides üldse) - seega siis küberneetilistes süsteemides on informatsioonil olulised eripärad, mis kajastuvad informatsiooni mõiste semantilises ja pragmaatilises aspektis. I.1
1.3.2. Informatsiooni kvantitatiivne aspekt: sellisel juhul mõõdetakse informatsiooniga entroopia [korrapäratuse, mitmekesisuse] vähenemise määra. Eeltoodust tulenevalt eksisteerivad omakorda: - entroopia termodünaamiline tõlgendus: i propos - entroopia mõiste võttis kasutusele Rudolf Clausius 1865, sellele andis Ludwig Bolzmann 1877 järgmise statistilise tõlgenduse: S = k * ln W, kus k - Bolzmanni konstant 1,38 * 10 **23 J/deg W - süsteemi oleku termodünaamiline tõenäosus - ja entroopia tõenäosuslik (tõenäosusteooria-alane) tõlgendus: entroopia kui sündmuste kogumi määramatuse ja üksiksündmuse varieeruvuse mõõt. Selle võttis kasutusele Claude Shannon 1948 n H = - Σ p i * log 2 p i. i=1 Kui enne mingit teadet on meil sündmuste kogumi määramatus H 1 ja pärast teadet - H 2, siis see teade kandis endas infot, mille hulk on: I = H 1 - H 2. Näiteks täringu viskamine (see on lihtne süsteem, kus kõik tõenäosused on võrdsed): - määramatus enne H 1 = - 6*1/6 * log 2 (1/6) = 2,59 ; - kui öeldi, et tulid paarisarvulised silmad, siis H2 = - 3*1/3 * log2(1/3) = 1,59 ; - informatsioon kui määramatusete vahe: I = H1 - H2 = 2, 59-1, 59 = 1,00 [bitti]. Kui oleks öeldud näiteks, et tuli "4", siis: H3 = -[5*(0*log 2 0) + 1*(1*log 2 0)] = 0 ning sellest teatest saadud informatsioon oleks: I = H1 - H3 = 2,59-0 = 2,59 bitti. Bitile vastavaks infohulgaks on määramatuse vähenemine ühe elementaar(täpsemini binaar-)valiku võrra, millele on hea vastavusse viia kahendsüsteemi arvud: 0 - "ei ole" 1 - "on". Kui täring oleks: - 8-tahuline, siis H1 = 3 bitti (8 eri võimalust), H2 = 2 bitti (4 eri võimalust); - n-tahuline, siis H1 = log 2 n H2 = (log 2 n) - 1. I.2
i propos - arvutikasutuse praktikas on oluline hästi teada arvu 2 esimest kümmet astet: 2 0 = 1 2 1 = 2 2 2 = 4 2 3 = 8 2 4 = 16 2 5 = 32 2 6 = 64 2 7 = 128 2 8 = 256 2 9 = 512 2 10 =1024 Informatsioonihulk, mis vastab 8 bitile, on BAIT (byte). Vaadeldes astmete tabelit näeme, et saamaks ühe baidi infot peaks täring olema 256-tahuline - seega 1 bait infot tähendab valida välja üks kahesaja viiekümne kuue seast. Bait ongi arvutimaailmas infohulga põhiühik. Suuremate üksuste puhul säilib aga ikka kahendsüsteem: 1 kilobait [1 Kbyte] = 1 Kb = 210 baiti = 1024 baiti; 2 megabait = 1 Mb = 210 Kb = 1024 Kb Kuueteistkümnendsüsteem. Eeltoodust ilmneb, et suurim kümnendsüsteemi number, mida saame kirjutada n-kohalise kahendarvuna on 2n-1. Seega näiteks kaheksandsüsteemi ühele numbrile vastaks 3-kohaline kahendarv: 0 8-0 2 4 8-100 2 1 8-1 2 5 8-101 2 2 8-10 2 6 8-110 2 3 8-11 2 7 8-111 2. 16-süsteemi ühele numbrile vastaks 4-kohaline kahendarv (kuna 4=2 2 ). Arvutimaailmas, eriti nüüdisaegsetes IBM PC-des on põhiliseks just kuueteistkümnendsüsteem: 0 10-0 16 4 10-4 16 8 10-8 16 12 10 - C 16 16 10 - F 16 1 10-1 16 5 10-5 16 9 10-9 16 13 10 - D 16 2 10-2 16 6 10-6 16 10 10 - A 16 14 10 - E 16 3 10-3 16 7 10-7 16 11 10 - B 16 15 10 - F 16 1 baidi info kodeerimiseks läheb vaja kaks kuueteistkümnendkohta. ASCII kood. Töö personaalarvutiga on korraldtud nii, et standartne infovahetus toimub baidikaupa (füüsiliselt - kahekohaliste 16-arvude kaupa). Sellise töö juures on kasutada 255 erinevat koodi (256. koodiks on null - koodi puudumine). Need koodid on standardiseeritud. Kõige levinum neist PC-l on ASCII - American Standard Code for Information Interchange. ASCII hõlmab: - tähestiku (suur- ja väiketähed); - numbrimärgid; - kirjavahemärgid; - graafikamärgid; - arvuti mõningad juhtsümbolid jmt. märgid. Arvuti klahvistikul vastab enamkasutatavatele märkidele oma kindlad klahvid, teisi on võimalik sisestada, vajutades alla <Alt> (alternate) klahvi ja sisestades paremalt numbrisõrmiselt ASCII koodi numbri. Info kvantitatiivse aspekti paradoksid: Esimene. Kui me määratleme H1 lähtudes kas - eesti keele tähestiku märkide hulgast (arvestades ka ühe või teise tähe esinemise tõenäosust) või - ASCII koodi märkide hulgast, siis saame tähemärkide kaupa leida ühes või teises tekstis sisalduva info hulga. Põhimõtteliselt samuti saaksime teha sõnade, lausete jne. kaupa. Osutub aga, et kõige informatiivsem on tekst, mis on koostatud juhuslikult. Tavanäide - ahv kirjutusmasina taga: iga k-s sümbol tekstis ei kanna mingit infot k+1 sümboli kohta. Mõtestatud tekstis aga küll. JÄRELDUS: info kvantitatiivne aspekt on oluline infomahuti suuruse ja sidekanali I.3
läbilaskevõime hindamisel. Ja ainult. Teine. Kuna nii Boltzmanni kui ka Shannoni entroopia valemis esineb tõenäosus, on püütud neid juurdeminekuid ühendada. Osutub, et entroopia statistlise tõlgenduse alusel kannab teekannutäie vee keemaajamine endas rohkem informatsiooni, kui kogu inimkonna ajaloo jooksul kirja pandud raamatutarkus. JÄRELDUS: informatsiooniliste protsesside mikro- ja makrotasandi ühitamisel tekivad keerulised metodoloogilised probleemid. Eeltoodud probleemidele on pühendatud hulgaline füüsika- ja filosoofia-alane kirjandus, mis meie teemast läheb kaugele. Info kvantitatiivse aspekti mehhanistliku rakendusega tuleb olla väga ettevaatlik -> see puudutab matemaatiliste meetodite geograafilist rakendamist. 1.3.3. Informatsiooni semantiline aspekt Eeltoodud käsitluse piiratus saab ilmsiks niipea, kui hakkame vaatlema küberneetilisi süsteeme. Informatsioon ei ole mingi objekti, süsteemi absoluutne omadus (nagu näiteks mass füüsikas), vaid informatsioon on ühe süsteemi omadus teise süsteemi suhtes. Ta on suhe, mis tekib peegeldusprotsessis. Näiteks küberneetikud määratlevad: informatsioon on vahetu keskkonna peegeldus juhtimissüsteemi signaalides, mis on selle info füüsilisteks kandjateks. See peegeldus on alati keskkonna lihtsustatud kujutis, mudel. Ja kui selline ei ole ta üheselt määratletud. Informatsioonil on info saaja jaoks teatud tähendus: informatsiooni tähenduslikku aspekti nimetatakse semantiliseks aspektiks. Näiteks: - roheline tuli valgusfooris tähendab tsivili-seeritud inimesele, et võib üle tänava minna, kuid d_unglist tulnud pärismaalasele ei pruugi ta mitte midagi tähendada; - ütlemise "2*2=4" tähendus keskmisele 3-, 8- ja 18-aastasele inimesele on täiesti erinev. 1.3.4. Informatsiooni pragmaatiline aspekt Nägime, et info semantiline aspekt ei olene mitte info kvantitatiivsest hulgast, vaid kuidagimoodi info vastuvõtjast. Informatsiooni saamine keskkonna kohta on küberneetiliste süsteemide käitumise aluseks: tõlgendades (s.t. andes neile tähenduse) keskkonnast saadavaid signaale kui sõnumit võimalikest palju kordi tugevamatest mõjudest, valib küberneetiline süsteem (näiteks organism) sellise vastureaktsiooni, mis võimaldab tal käituda keskkonnamuutusi ennetavalt. Näiteks sõjas pommitamise puhul: õhuhäire -> tähendus: hakatakse pommitama -> varjendisse minek; vilin -> tähendus: pommi kukkumine lähedusse -> pikali viskumine. I.4
Informatsiooni pragmaatiline aspekt kajastab informatsiooni mõju informatsiooni saaja käitumisele. Osutub, et pragmaatiline aspekt on veelgi subjektiivsem ning tuleneb omakorda semantilisest (näiteks, inimesele öeldakse: "Mine metsa!"). Samal ajal info kui kauba tarbimisväärtuse määrab just tema pragmaatiline aspekt. Üldiselt on info hankimine, talletamine ja töötlemine seda tähtsam, mida keerukam on küberneetiline süsteem. 1.4 Informatsioon otsustuste alusena Nägime, et semantilise aspekti alusel formeerub pragmaatiline ja viimane on aluseks otsustustele Püüame nüüd lühidalt selgitada mehhanismi, kuidas info semantiline külg oleneb vastuvõtjast. Üsna tavapärane on esitada järgmised nõuded: a) info peab olema arusaadaval kujul, b) info peab seostuma sellega, mida juba teatakse ja c) info peab sisaldama ka midagi sellist, mida veel ei teata (omama uudsust; see moment seostub ka pragmaatilise küljega). (a) kujutab endast kommunikatsiooniprobleemi, (b) ja (c) on määratud varasemate teadmiste süsteemiga -> võib öelda ka, et info vastuvõtja informatsioonisüsteemiga. Selles tähenduses kasutatakse aga kõige enam natuke vanamoelist sõna "tesaurus" (kr. k. 'varamu'). Algselt oli tesaurus mingi keele (näit. ladina) kogu sõnavara ammendada püüdev hiidsõnastik. Klassikalises informaatikas mõisteti tesauruse all mingi valdkonna märksõnade ja nendevaheliste seoste kogumit, millele tuginedes infot salvestati ja otsiti. Tesaurust võib niisiis piltlikult mõista (hiljem me asendame ta hulga konkreetsete ja kitsamate tunnuste hulgaga) kui infohoidlat, kus on nii olemasolev info kui ka tühjad kohad (riiulid, sahtlid) uue info jaoks. Info omab tähendust sedavõrd, kuivõrd talle leidub kohta info saaja (inimese) tesauruses. Vastasel korral: "Oh, ma juba tean!" selles kohas on info juba olemas ning tekib küsimus, kas alles jätta uus või vana info; "Ah soo, või nii!!" õnnestus täita pragmaatiliselt oluline tühi koht; "Ei saa aru..." infole ei leidu kohta, kuid sellise situatsiooni sagenemine võib viia tesauruse muutumisele. i propos - ilmselt nii mõnelegi torkab silma tesauruse mõiste sarnasus T. Kuhni poolt kasutusele võetud paradigma mõistega. Vahe on eelkõige sotsiaalsuse astmes. Kommunikatsioon on info edastamise ja vastuvõtmise protsess, mille põhilülid on: teate saatja (küberneetiline süsteem, kommunikaator) teade teate saaja (adressaat, retsipient). Kommunikatsiooni käsitluses on olulised juba ka psühholoogilised ja sotsiaalsed probleemid ("suhtlemine"), mida me selles kursuses ei käsitle. Kommunikatsioon (sidetehnika mõttes) toimub mingite sümbolite (või koodide - I.5
ärgem siin peensustesse laskume) alusel, kusjuures neid sümboleid on lõplik arv. Niisugust elementaarsümbolite kogumit nimetatakse tähestikuks. Näiteks: eesti keele tähestik, ladina tähestik, kümnendsüsteemi tähestik (10 numbrit ning punkt/koma kui eraldaja), kahendsüsteemi tähestik, ASCII kood kui baidiline tähestik. Ühe tähestiku tähtede esitamist teise tähestiku tähtede abil nimetatakse kodeerimiseks. Arvutis kodeeritakse kõik lõppkokkuvõttes kahendsüsteemi tähestikku. Vältides liigset detailsust võib öelda, et teatud reeglite järgi koostatud tähekonstruktsioon moodustab sõna, sõnad omakorda lause. Tekib hierarhiline süsteem. Sõnade ja lausete koostamise reegleid nimetatakse grammatikaks. Neid reegleid peab olema lõplik hulk ning nad peavad võimaldama üheselt määratleda, missugused sõnad kuuluvad antud keele sõnade hulka ja millised mitte. Sõnade tähendus (semantika) on hoopis omaette küsimus. Kuidas selles valguses aru saada kehakeelest? Lisaks tavalistele, n.ö. inimkeelsetele, on loodud tehis- ja mitmesuguseid andmekirjelduskeeli. Kaasaegses informaatikas on välja töötatud mitmesugused formaalsete keelte grammatikate esitamise viisid, millest üht või teist kasutatakse ühe või teise konkreetse keele õppimisel. Seega: kommunikatsioon toimub mingi keele vahendusel. Mida keerukam on keel (vrd. inimkeel ja kahendsüsteem), seda olulisemaks muutub semantika. Mida keerukamad on kommunikeeruvad süsteemid (vrd. persoon ja PC; kaks firmat), seda rohkem aspekte tuleb arvesse võtta (näit. rahvuslikud traditsioonid). Vajalike andmete olemasolu on neist vaid üks, kuid väga tahtis osa. 1.5 Andmeringe Selleks, et otsustada, on vaja informatsiooni, selleks et saada informatsiooni, on vaja andmeid; andmeid saame reaalsest maailmast vastavalt meie ettekujutusele sellest maailmast. Otsustused on suunatud selleks, et muuta maailma (meile soovitavas suunas). Muutunud maailma ei kirjelda endised andmed enam adekvaatselt, vaid on vaja uusi andmeid. I.6