Korrelatsiooni mudelid ja mõõdud küberkindlustuses Uuno Puus, Cybernetica AS, Tartu Andmeturbelabor, uuno.puus@cyber.ee 22. oktoober 2006. a. 1 Sissejuhatus Juba pikka aega on inimesed ja ettevõtted kasutanud oma riskide maandamiseks kindlustust. Kuna üha enam ja enam kasutatakse infotehnoloogiat või teisiti öeldes muutub inimtegevus infotehnoloogiast sõltuvaks, siis paratamatult kerkib küsimus kas on võimalik kübermaailmas rakendada samasuguseid meetodeid kui tavakindlustuses. Ehk teisiti öeldes, millised küberohtudega seotud kindlustusturgu iseloomustavad parameetrid. Vastust sellele küsimusle otsitaksegi Rainer Böhme ja Gaurav Kataria artiklis Models and Measures for Correlation in Cyber-Insurance [1] (siin ja edaspidi artikli) Eeldame, et küberohtudega seotud kindlustusturg on eriline, sest vastasel juhul (kui sellel turul valitseksid samad seaduspärasused kui elu või varakindlustuses) oleks küberohtudega seotud kindlustusturg juba välja arenenud. See aga pole nõnda, sest artikli andmetel oli infoturbega seotud intsidentide kahju USA-s rohkem kui $200 miljardit (nii 2003. kui 2004. aastal) [2], kuid vastava kindlustusturu maht USA-s vaid $ 2 miljardit. Üheks küberkuritegevusega seotud kindlustusturu eripäraks on kahjustuste korrelatiivne iseloom. Korrelatiivse iseloomu all mõeldakse artiklis asjaolu, et arvutite ja süsteemide kahjustumisel on see massiline (nii lokaalses - asutuse sisevõrk kui globaalses - ülemaailmne võrk st Internet mõttes ). Ühe arvuti ründe tõttu välja langemisel levib see kahjustus suhteliselt kiiresti teiste (samas võrgus paiknevate) arvutiteni nii lokaalses kui globaalses võrgus. Näiteks viirus MyDoom, mis levis elektronposti abil, kahjustades miljoneid arvuteid üle maailma kõigest viie päeva jooksul. Mitte ükski teine (traditsioonilise kindlustuse mõttes) õnnetus ei levi sellisel viisil ja sellise kiirusega. Sellele eripärale ongi suures osas pühendatud refereeritav artikkel. 1.1 Arvutitevahelise korrelatsiooni kahetine iseloom Antud artilis vaadeldakse infotehnoloogiaga seotud kahjustuste (viirused, rämpspost, mitmesugused ründed jne) korrelatiivset iseloomu kahel tasandil. Firmasisesel (lokaalvõrgu) tasandil ja firmavälisel (globaalvõrgu) tasandil. Firmasisesel tasandil seesmise rünnaku puhul korrelatsioon kõrge, kuid 1
firmvälisel tasandil madal, sest näiteks firma administraatori parooli lekkimine võib kahjustada ainult selle firma infosüsteeme, aga mitte naaberfirma omasid. Artiklis eristatakse eelpool kirjeldatud sisemist ja välimist korrelatsiooni küberkindlustusturu parameetrite leidmisel. Nimetatud korrelatsioone on püütud hinnata kahel viisil (1) teoreetiliselt, ehitades vastavad mudelid ning kasutades simulatsiooni uuritakse nende mudelite käitumist ja (2) praktiliselt, kasutades eksperimentaal kogutud võrguründe andmeid hinnatakse mudelite vastavust tegelikule olukorrale. 2 Kindlustusturu modelleerimine Kõigepealt analüüsitakse kindlustusteenuse pakkujat huvitavaid parameetreid st tõenäosusi, et arvutid langevad rivist välja erinevate rünnete tagajärjel. 2.1 Sisemine korrelatsioon, pakkumise pool Firmasisese korrelatsiooni arvutamiseks vaadeldakse arvuti välja langemist (ründe tagajärjel) kui mündiviset (kas arvuti läheb rikki või mitte), mis sõltub teiste selle firma teiste arvutite olukorrast (kas välja langenud või töökorras). Kõikide arvutite rikkimineku sõltumau tõenäosus on aga ühesugune, kuna autorid eeldavad, et firmasiselt on tegemist samasuguste arvutitega. Samal viisil on modelleeritud ründe tagajärgi ka teiste autorite poolt. Sel juhul on tõenäosus, et X BB(n, π, ρ I ) arvutit langeb intsidendi puhul rivist välja arvutatav järgmiselt: P (X = x n, π, ρ I ) = kus α = π ( 1 ρ I 1), β = (1 π) ( 1 ρ I B(n x + β, x + α) (n + 1)B(n x + 1, x + 1)B(α, β) 1) ja B(a, b) = Γ(a) Γ(b) Γ(a+b) Γ on Gammafunktsioon, B on beetafunktsioon ja parameetritena on valemis n - arvutite arv firma võrgus, π - kõikide arvutite jaoks võrdne (sõltumatu) väljalangemise tõenäosus ja ρ I sisemise korrelatsiooni mõõt vahemikus 0 (korrelatsioon puudub) kuni 1 (täielik sõltuvus). Infoturbe seisukohalt on oluline vähendada sõltumatut tõenäosust π, kuid sealjuures võib sisemine korrelatsioon jääda ikkagi kõrgeks, mis tähendab, et kuigi arvuti väljalangemis tõenäosus on väike, siis, kui see juhtub, on kogu võrk suure tõenösusega rivist väljas. 2.2 Väline korrelatsioon, pakkumise pool Kuna modelleeritakse indlustusteenuse pakkumise poolt, siis vaadeldakse mudelis nn kindlustusprotfelli, mis koosneb k firmast, millest igaühe arvutite välja langemise tõenäosus on kirjeldatav valemi (1) abil. Globaalse korrelatsiooni ρ G kirjeldamiseks kasutavad autorid copulat. Copula on küllatki keerukas statistiline aparatuur ja antud artiklis kasutatakse t-copulat. k-dimensionaalne C copula on k-dimensionaalne jaotusfunktsioon ühikruumis [0, 1] k. (1) 2
2.3 Nõudmise pool st firmad, kes oma varasid soovivad kindlustada Nõudluse poolelt vaatlevad autorid firmasid, kes oma infovarasid kindlustada tahavad või ei taha. See otsus vetakse vastu olukorras, kus riskipreemia suurus (raha, mis tuleb kindlustuse eest maksta) on teada. Sealjuures on vaja lisaks riskipreemiale teada ka infovarade väärtust. Firma otsust (kas kindlustada või mitte) modelleeritakse järgmiselt. Süsteemi vaadeldakse koosnevana n sõlmest/arvutist (nodest). Süsteemis esineb mõistlik liiasus ja süsteemi reaalseks toimiseks on vaja vaid m sõlme. Selleks, et süsteem rivist vlja viia, on tarvis, et vähemalt p sõlme on rivist vljas. Sealjuures on loomulik, et n m p. Kasutades sellist mudelit on autorid andnud infoturbes kasutatavale konfidentsiaalsuse, tervikluse ja käideladvuse mõistele järgmise interpretatsiooni: Konfidentsiaalsus - selleks, et varastada süsteemi salvestatud info, peaks ründaja enda valdusse saama n sõlme. Mingit infot saab ründaja, kui on saanud enda valdusse vähemalt p või rohkem sõlme. Terviklus - info (terviklus) on taastatav kui kompromiteeritud sõlmede arve pole suurem kui n m. Käideldavus - kuna sõlmed on üksteisest sõltuvad, siis he välja langemine mõjutab ka teisi. Samas on eri sõlmede mõju erinev. Suurema mõjuga on paljude sõltuvustega sõlmed. Seetõttu pole käideldavuse hindamine nii täpselt võimalik kui tervikluse ja konfidentsiaalsuse puhul. Siiski ei kirjelda selline lähenemine piisava täpsusega arvutite välja langemise mõju ja võimaliku kahju väljendamine funktsioonina puuduvatest sõlmedest pole piisava täpsusega võimalik. Firmade otsuse, kas kindlustada vi mitte, modelleerimiseks kasutatakse CR- RA (Constant Realtive Risk Aversion) kõverat. See kõver on esitatud teljestikus, kus ühel teljel on firma sissetulek tavatingimustes, kui turvaleket ei toimu ja teisel (horisontaalteljel) on vimalik kompensatsioon kindlustuselt turvalekke toimumisel. CRRA kõver ühendab kõiki neid punkte, mille puhul firma sissetulek on sama. 3 Empiiriliste andmete analüüs Alljärgnevas peatükis analüüsitakse sisemist ja välimist korrelatsiooni empiiriliste andmete põhjal. Autorite arvates on pole seini olemas piisavat faktilist tõestust IT turvariskide korrelatsiooni olemasolule, kuigi seda on sageli võetud kui ilmselget asjaolu. Nüüd tahavad nad kasutades empiirilisi andmeid kontrollida oma nimetatud eeldusel põhineva teoreetilise mudeli paikapidavust. Empiiriliste andmete kogumiseks on kasutatud nn meepoti (honeypot) tehnoloogiat, kus meepotiks on turvamatuna võrku paigutatud arvutid, mis lihtsalt on võrgus ja muud ei tee kui registreerivad nende pihta suunatud pöördumised. Meepotte (edaspid sensoreid) on kahte liiki (1) need mis suhtlevad ründajaga, kui nende poole pöördutakse ja (2) need, mis pole orienteeritud suhtlemisele. Need sensorid on mõeldud nn automaatsete e siis teiste arvutite poolt sooritatavate pöördumiste registreerimiseks. Selline erinevatest sensoritest koosnev võrk 3
peaks artikli autorite arvates olema sobilik reaalsele võrgus valitsevale olukorrale vastvate empiiriliste andmete kogumiseks. Sensoritest saadud andmeid saab vaadelda kui järjestatud sündmuste seeriaid, mille kirjed on järgmised (t, L, S, h), kus L tähendab h > 0 pöördumist pordijärjestusega S ajavahemikul t. Pordijärjestus (edaspidi jada) on loetelu ühest või mitmest TCP/IP pordist, mille poole pöörduti ühest ja sellestsamast allikast. Probleeme võib olla populaarsete portidega (nende puhul pole alati võimalik tuvastada, kas pöördumine saabus ikka ühest ja sellestsamast allikast), kuid seda asjaolu on peetud ebaoluliseks. Ajavahemik t on üks päev mõõdetuna GMT järgi. Analüüsiks kasutatud toorandmed sisaldavad 183 000 sedalaadi sündmust 35-lt sensorilt ajavahemikul veebruar 2003 kuni september 2005. Arv h on konkreetsest hostist saabuvate pöördumiste absoluutarv. Probleemiks on info puuudumine selle kohta kui palju aega olid sensorid maas (st polnud võrku lülitatud) seetõttu ning samuti andmete eelneva korrastamise eesmärgil toimus toorandmete puhastamine. Peale puhastamist jäi alles ligikaudu 70% andmetest, mis pärinesid 13 sensorilt. Euroopa oli selgelt üleesindatud st suur osa sensoritest (mille andmeid kasutati) paiknes Euroopas. 3.1 Globaalse korrelatsiooni lähendamine. Globaalse korrelatsiooni lähendmiseks kasutatakse kahte mudelit (1) beeta binomiaalset ja (2) ühefaktorilist peitmudelit. Kahe mudeli kasutamine mitte ainult ei tõsta leitava korrelatsiooni usaldusväärsust vaid ühtlasi vaid võib vastata ka küsimusele, kumb mudelitest paremini sobib võrgus toimuva kirjeldamiseks. 3.1.1 Beeta binomiaalne mudel Beeta binomiaalses (BB) mudelis vaadeldakse rünnatud sensorite arvu x t, mida on tabanud vähemalt üks löök päeval t, mis on beeta binomiaalse juhusliku suuruse X BB(n t, π, ρ BB ) realisatsioon, kus n t on päeval t aktiivsete sensorite koguarv. Erinevatele päevadele vastavad seega juhusliku suuruse X erinevate sõltumatud realisatsioonid. Vastavalt sellele mudelile on olemas globaalne korrelatsioon portide vahemikule 19-27. Üksikute portide 22 ja 23 puhul on korrelatsioon 0.1. See korrelatsioon võib olla praktiliselt kasutatav küberkindlustuse turu kirjeldamisel, kuid sellega tuleks ettevaatlik olla. 3.2 Sisemise korrelatsiooni lähendamine Sisemise korrelatsiooni tarvis tehakse kaks eeldust (1) iga arvuti, mis on langenud ründe ohvriks asub ründama teisi arvuteid. (2) suure tõenäosusega ründab nakatatud arvuti teisi samas lokaalvõrgus paiknevaid arvuteid. Teine eeldus ei pruugi paika pidada (seetõttu, et kasutusel võivad olla sisemised tulemüürid jms). Sellistel eeldustel teavad sensorid kõigi nakatunud arvutite arvu x L,t sisemises võrgus L. Kuna hostide arv iga sensori piirkonnas pole teada peame me seda kuidagi hindama. Seega võtame arvesse vaid need hostid, mis aktiivselt skaneerivad oma ümbrust. Selliseid oli 5 13-st. See võib sõltuda näiteks võrguadministraatori oskustest ja/või asjaolust, et vastav sensor paiknes väljaspool tu- 4
lemüüri. Arvestati ka veel nn IP järku so võimalikku teoreetilist alamvõrgu suurust sensori ümbruses. Sisemised korrelatsioonid erinevad oluliselt võrkude kaupa. See on interpreteeritav kui (1) võrkude struktuuri ja nende haldamise ja (2) võrgus paiknevate hostide hinnangu ebatäpsuse tulemus Edasised uuringud peaksid näitama, kuidas on võimalik eristada sisulist turvalisuse kvaliteeti (hea võrguhaldus) ja mõõtmisviga (pole võimalik hostide arvu täpselt kokku lugeda). Kuigi pole midagi teada nende võrkude kvaliteedist, milles sensorid paiknevad, ei mõjuta see uuringu tulemusi, sest korrelatsiooni ρ I ja tõenäosuse π hinnagud on indikatiivsed, nende põhjal ei tehta järeldusi võrguhalduse kavliteedi kohta. Samuti ei mõjuta tehtud järeldusi misahes turvameetemete IDS, VLAN kasutamine neis võrkudes, kus sensorid paiknevad. Viited [1] Rainer Böhme, Gauram Kataria, Models and Measures in Cyber-Insurance, In Workshop on the Economics of Information Security, WEIS 2006 [2] FAQ: SIPS and EVEDA http://www.mi2g.com/cgi/mi2g/press/faq.pdf 5