Примена статистике у кинематографији Горан Мићовић Факултет техничких наука Чачак Мастер професор технике и информатике, 526/20 goranmico@gmail.com Ментор рада: др Вера Лазаревић,ванр. проф. Сажетак. У овом раду је представљена статистичка анализа над конкретим узорком. Рад се сатоји од неколико теоријских и практичних целина. Теоријске се баве статистичким посматрањем, дескриптивном статистиком, регресионом анализим. Пректичне се баве анализом у пакету Statistica, где је приказана дескриптивна статистика над конкретним узорком као и тестирање хипотеза и Пирсонов тест. Кључне речи: статистика, истраживање, анализа, хипотезе, дескриптивна статистика.увод Израз статистика се у почетку односио на прикупљање података који су били од значаја за државу, као што су евиденције о становништву, поседима и приходима, а води порекло од италијанске речи ''стато'' што значи држава. Потреба за ефикаснијом државном администрацијом, као и оснивање првих осигуравајућих друштава, утицали су на развој виталне статистике. Широка примена рачунарске технологије од осамдесетих година XX века допринела је да статистика постане једна од научних области са највећим степеном развоја у последњих тридесет година. Кинематографија је укупан друштвени процес производње, дистрибуције и приказивања филмова, са пропратним делатностима, занимањима и установама. Филм је тотална уметност која омогућава свом творцу да покретним сликама и звуцима, као што су говор, музика и шум, у потпуности изрази идеје, осећања и поглед на свет. Сајт који представља највећу филмску базу података на интернету, надалеко познати www.imdb.com (The Internet Movie Database), објавио је листу 250 најбољих филмова свих времена, креирану на основу оцена регистрованих корисника и одређених математичких прорачуна. Овај рад се бави статистичком обрадом података везаних за те, најбоље, филмове. Први део рада се бави теоријским основама статистичког истраживања, док други део се бави статистичком обрадом тим података у програмском пакету Statistica. 2. Дефиниција и основни појмови статистике Статистику можемо дефинисати као метод квантитативног истраживања појава. Предмет истраживања статистике су скупови (популације, масе, целокупности) чији су елементи, објекти и појаве разноликог карактера. Те скупове називамо популацијама, а њихове елементе статистичким јединицама. Статистика изучава суштинска, нумеричка обележја јединица популације, па се зато таква обележја називају статистичким обележјима 3. Етапе статистичког проучавања Прва етапа у статистчког проучавања представља избор узорка над којим ће бити извршено посматрање, односно прикупљање података. Друга етапа се састоји у статистичком посматрању изабраног узорка. У овој етапи врше се анкетирања и прикупљање података на терену или нека друга мерења над елементима узорка у циљу прикупљања потребних података. У трећој етапи групишемо и сређујемо податке добијене при статистичком посматрању. Четврта етапа се састоји из обраде сређених података и научне анализе резултата. Резултати добијени на основу обраде узорка придружују се целој популацији.
4. Дескриптивна статистика Сређивањем података добијају се статистичке серије које се по начину формирања и анализирања деле на структурне и временске серије. Серије структуре расподеле статистичког скупа по вредностима обележја састоји се из два реда обавештења: модалитета и фреквенције (броја јединица). У зависности од врсте обележја постоје серије структуре са номиналним (квалитативним) и са нумеричким (квантитативним) обележјем. 4.. Графичко приказивање расподела фреквенција Обавља се уз помоћ графикона који се конструишу тако што се на хоризонталноиј оси наноси вредност обележја Х (Х=прекидно) или границе групних интервала (Х=непрекидно). Код графикона апсолутних фреквенција на Y оси се наносе вредности одговарајућих фреквенција за групни интервал или Х, и констуришу се правоугаоници изнад групних интервала са висинама једнаким фреквенцијама; када се споје тачке на среднама групних интервала добија се полигон апсолутних фреквенција. Код релативних фреквенција користе се хистограми: на Х оси су средине групних интервала, а затим се око тих тачака врши конструисање правоугаоника чије ће површине бити једнаке вредностима релативних фреквенција. 4.2. Средње вредности обележја Слика. Пример хистограма Аритметичка средина низа бројева је број који се добије кад се њихов збир подели са укупним бројем чланова тог низа. x x... x n Геометријска средина (најпогоднија у анализама временских серија) низа бројева је -ти корен из производа његових чланова. Нека су вредности посматраног обележја Х на елементима статистичког скупа. Геометријска средина је једнака: G X X 2... X n Хармонијска средина низа бројева је реципрочна вредност аритметичке средине реципрочних вредности чланова тог низа. Ако су X..., X вредности обележја Х на елемената статистичког скупа, тада је хармонијска средина: H... x x x 2 n n, H i x i H i x i
4.4 Интервали поверења Код неких проблема није неопходно утврдити једну вредност параметра, већ неки интервал у коме би могла да се налази права вредност тог параметра. Кад такав интервал одређујемо преко узорка онда тај интервал зовемо интервал поверења. 5. Регресиона анализа Регресиона анализа показује облик повезаности између две променљиве помоћу регресионе линије. Слика 2. Регресиона права 6. Примена рачунара у статистици Своју експанзију у последњих тридесет година статистика највише дугује рачунарима. Ако у обради податак користимо рачунар наш задатек се своди само на тачно уношење података добијених посматрањем. Данас постоји велики број пакета за статистичку обраду. Неки од њих су једноставнији за коришћење, тако да се намењени за широку популацију, док постоје и пакети намењени професионалном бављењу статистиком. Неки од њих су: S-Plus. Statgraphics. SPSS, Statistica 7. Статистичка обрада над конкретном узорку уз помоћ софтвера Статистика У овом делу биће приказана статистичка обрада над конкретном узорку. Пре било какве статистичке анализе потребно је направити базу прикупљених података. Ова база се може формирати у самом програму или може бити унета из неког другог пакета. У свом конкретном примеру користио сам Microsoft Excel. За узорак узео сам 250 најбољих филмова свих времена са IMDB ( internet movie datebase ) сајта. У овој листи можемо видети називе филмова са годином приказивања и оцену која им је додељена, на основу које је и направњена листа. Поред ових података, у своју базу сам унео и време трајања филма, буџет и зараду филма као и број регистрованих чланова горе поменутог сајта који су гласали за филм са листе. 7.. Дескриптивна статистика у програмском пакету Statistica Служи за израчунавање нумеричких карактеристика обележја и за графичко приказивање узорачке расподеле. Дескриптивна статистика за обележје буџет :
Слика 3. Сумарна табела за обележје Буџет Слика 4. Табела фреквенција за обележје Буџет Слика 5. Група графика за обележје Буџет 7.2. Тестирање хипотеза Тестирање статистичких хипотеза је вид статистичког закључивања који се примењује у ситуацијама: када се унапред претпоставља постојање одређене везе међу изучаваним појавама, када се претпоставља да посматрано обележје има одређену расподелу. Статистичка хипотеза је свака претпоставка која се односи на расподелу обележја. Она може бити тачна или нетачна. Одлука о прихватању или одбацивање хипотезе доносе се на основу узорка. Статистички тест је поступак верификовања статистичке хипотезе на основу узорка. 7.2.. Тестирање хипотезе о параметру m када је познато σ2
Отвара се Statistics Basic Statistics/Tables Difference tests: r, %, means Тестираћемо хипотезу да је средња вредност обележја оцена 8.3. Ту вредност уносимо за М2. Из сумарне таеле за ову обележје узећемо средњу вредност и стандарну девијацију и унећемо те вредности за М и StDev. Са слике видимо да је p= 0.0936 што је веће од α за које је узето 0.05. Можемо са 95 % сигурношћу прихватити хипотезу да средња вредност обележја оцена износи 8.3 Слика 6. Тачна хипотеза 7.2.2. Тестирање хипотезе о параметру m када је непознато σ2 Отвара се Statistics - Basic Statistics/Tables - t test, single sample Изабрали смо обележје трајање. Тестираћемо хипотезу да је средња вредност за ову обележје 30. Кликнемо на summary и добијемо следећу табелу Слика 7. Табела добијених резултата. Из табеле видимо стварну вредност средње вредности као и да је p= 0.2335, тако да хипотезу да је средња вредност 30 можемо прихватити 7.2.3. Тестирање Н0 (m = m2) против H (m m2) када је непознато σ2, σ22 Пре почетка овог теста морамо направити два подузорка користећи опцију data-subset/random sampling. За оба подузорка копирећемо подате о заради филмова у excel документ а затим ћемо направити нову листу у програмском пакету статистика. Имаћемо два обележја, зарада и зарада 2 и те вредности ћемо искористити за овај тест.
Слика 8. Изглед листе са подацима о вредности зарада из 2 насумична подузорка Отвара се са Statistics - Basic Statistics/Tables - t-test, independent, by Variables После избора обележја и потврђивања добијамо табелу као на слици Слика 9. Табела са резултатима. 7.3.Непараметарски тестови Базирани су на моделу који укључује никакве предуслове у вези параметара популације из које је узорак извучен. Одређене претпоставке су карактеристичне за већину непараметарских тестова, али их је мање и слабије су него код параметарских, па непараметарски тестови не захтевају тако прецизна мерења као параметарских из чега произилази њихова значајна улога. 7.4. ПИРСОНОВ Х 2 ТЕСТ Пирсонов Х2 тест је непараметарски тест који се се користи за испитивање: сагласности узорка са претпостављеном расподелом, независности два обележја 7.4.. Пирсонов тест у програмског пакету Statistica. Користи се опција Statistics Disribution Fitting, одаберемо ormal од Countinuous distributions.
Слика 0. Табела груписаних фрекфенција Видимо да је p вредност већа од 0.05 тако да обележје трајање филма има нормалну расподелу. 7.4.2. Испитивање независности Х 2 тестом Идемо на Basic Statistics/Tables а затим на Tables and Banners. Затим изаберемо обележја, у овом случају тестираћемо да ли су обележја година приказивања и буџет зависна или независна обележја. Слика. Резултати теста За p=0.00092 са 95 % сигурношћу одбацујемо хипотезу да су обележја буџет и година приказивања независна обележја. Стога закључујемо да ово јесу зависна обележја. 7. Закључак Математичка статистика је савремено оруђе инжињера, економиста, лекара, биолога, физичара, психолога и многих других. У почетку су се на прсте могле набројати области људског истраживања које су користиле статистику. Данас се на прсте могу набројати области које не користе математичку статистику. Примена рачунара и програмских пакета данас знатно олакшава статистичку обраду и смањује могућност грешке на минимум. Као што је речено у раду, данас постоје многи алати и програмски пакети за статистичку обраду. У свом раду сам представио примену пакета Statistica. Као љубитељ седме уметности чинило ми се занимљивим да статистички обрадим податке везане за филмове, нарочито за листу од 250 најбољих филмова свих времена. У овом раду сам приказаo фазе статистичког истраживања и обраду података на узорку који сам прикупио. Пакет Statistica се показао као веома користан пакет за статистичку обраду, у ком се и без неког великог теоријско знања о статистици, корисник лако снађе. Приказани су основни подаци о филмовима, табеле, графикони, регресиона анализа и тестирање хипотеза. Могли смо да приметимо како се са годинама буџети за снимање филмова, али и зарада повећавали, да би данас износиле огромне цифре. Такође се могло приметити да огроман број људи посећује IMDb сајт, прегледава новости везане за кинематографију и даје оцене филмовима. Занимљиво је и то да је један српски филм на поменутој листи, то је филм Подземље редитеља Емира Кустурице.
9. Литература [] Андреа Тепавчић, Зорана Лужанин, Математичке методе у таксономији, Нови Сад, Србија: Природноматематички факултет, Нови Сад, 2006. [2] Вера Лазаревић, Марија Ђукић, Инжењерска математика, Чачак, Србија: Технички факултет Чачак, 200. [3] Светозар Вукадиновић, Елементи теорије вероватноће и математичке статистике, Београд, Србија: Привредни преглед 988. [4] Ж. Мицић, М. Вујичић, В. Лазаревић, Analysis of Knowledge Base Unit within Standardized Eectrical Engeenering Subfields, Acta Polytechnica Hungarica, Vol. o.2, 204. Коришћени сајтови:. http://www.statsoft.com 2. http://www.imdb.com 3. http://www.fonforum.org 4. http://en.wikipedia.org 5. http://www.the-numbers.com