ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 3: ΔΙΕΡΕΥΝΗΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΙΑ ΕΠΙΣΚΟΠΗΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΕΝΔΥΣΕΙΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗ ΑΝΑΠΤΥΞΗ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 3: ΔΙΕΡΕΥΝΗΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΙΑ ΕΠΙΣΚΟΠΗΣΗ Δρ. Μαρί-Νοέλ Ντυκέν, Καθηγήτρια, mdyken@prd.uth.gr Τηλ. 24210-74438 Γραφείο Γ.6

1. Προετοιμασία των Δεδομένων 2

Αντικείμενο της ανάλυσης Θέμα: Οι ανισότητες στο χώρο της ΕΕ-28 ως προς την Έρευνα & Ανάπτυξη (Ε&Α): 2004-2013. Παραδοχές: Οι οικονομικές ανισότητες μεταξύ των χώρων της Ε.Ε.-28 έχουν πολλαπλές διαστάσεις. Αν γενικότερα εκφράζονται μέσω του δείκτη ΑΕΠ κατά κεφαλήν, μπορούν επίσης να εξεταστούν με την χρήση διαφορετικών δεικτών οι όποιοι επικεντρώνονται σε συγκεκριμένες πτυχές της αναπτυξιακής διαδικασίας όπως είναι η περίπτωση των εθνικών δαπανών σε Έρευνα & Ανάπτυξη (Ε&Α). Ερωτήματα: (α) πως εξελίσσεται η Έρευνα & Ανάπτυξη στην Ε.Ε.-28; (β) σε ποιο βαθμό οι χώρες της Ε.Ε. παρουσιάζουν σημαντικές ανισότητες ως προς την Ε&Α; (γ) σε ποιο βαθμό υπάρχει τάση μείωσης των ανισοτήτων; 3

Αντικείμενο της ανάλυσης Τα δεδομένα: Τα στατιστικά στοιχεία Ε&Α προέρχονται από την Βάση της Eurostat και αφορούν τις δαπάνες που εκτελούνται στο εσωτερικό κάθε χώρας (intramural R&D expenditures). Εκφράζονται σε εκατομμύρια ΜΑΔ (PPS) (*). Όπως αναφέρει η Eurostat, «οι συνολικές δαπάνες Ε&Α αναλύονται σε 4 τομείς στους οποίους κατηγοριοποιούνται οι φορείς που εκτελούν δραστηριότητες Ε&Α». Σύμφωνα με τους συμβολισμούς που υιοθετεί η Eurostat, οι 4 τομείς είναι οι ακόλουθοι: BES (Business Sector): Τομέας επιχειρήσεων GOV(Government Sector): Κρατικός τομέας HES (Higher Education Sector): Τομέας τριτοβάθμιας και μεταδευτεροβάθμιας εκπαίδευσης PNP (Private Non Profit Organisations): Τομέας ιδιωτικών μη κερδοσκοπικών ιδρυμάτων (*) Μονάδα Αγοραστικής Δύναμης (ΜΑΔ) : γίνεται μετατροπή των δαπανών σε της κάθε χώρας σε τεχνητό κοινό νόμισμα, εξαλείφοντας την επίδραση των διαφορετικών επίπεδων τιμών μεταξύ των χωρών. Η μετατροπή σε ΜΑΔ αναφέρεται σε συγκρίσιμο μέγεθος. 4

Αντικείμενο της ανάλυσης Βασικοί ορισμοί της Eurostat (metadata): Main concepts and definitions used for the production of R&D statistics are given by the Frascati Manual: "Proposed standard practice for surveys of research and experimental development", OECD 2002, which is internationally recognized standard methodology for collecting R&D statistics. "Research and experimental development (R&D) comprise creative work undertaken on a systematic basis in order to increase the stock of knowledge, including knowledge of man, culture and society and the use of this stock of knowledge to devise new applications." ( 63, Frascati Manual, OECD 2002). "Intramural R&D expenditures are all expenditures for R&D performed within a statistical unit or sector of the economy during a specific period, whatever the source of funds." ( 358, Frascati Manual, OECD 2002). 5

Δεδομένα / Μεταβλητές Βλέπε: Αρχείο = DATA_ΜΕΘΟΔΟΙ_ΕΡΕΥΝΑΣ_03.xlsx, Φύλλο εργασίας: METADATA 6

Δεδομένα / Μεταβλητές Περιορισμένη χρησιμότητα των αδρών δεδομένων Ρίσκο στατιστικού τεχνήματος (statistical artefact) Βλέπε: Αρχείο = DATA_ΜΕΘΟΔΟΙ_ΕΡΕΥΝΑΣ_03.xlsx, Φύλλο εργασίας: SPSS1 Απαραίτητη η επιλογή «συγκρίσιμων δεικτών» 7

Ορισμός κατάλληλου δείκτη Ο δείκτης: «Ένταση Δαπανών Ε&Α» = (α) αποτελεί συγκρίσιμο δείκτη εφόσον λαμβάνει υπόψη το «οικονομικό μέγεθος» της κάθε χώρας, (β) αποτυπώνει επίσης τον στόχο της στρατηγικής ΕU2020 σύμφωνα με την οποία οι δαπάνες σε Ε&Α θα πρέπει να φτάσουν το 3% του ΑΕΠ της Ε.Ε.. To 2013, οι δαπάνες της Ισπανίας είναι 8 φόρες υψηλότερες από τις αντίστοιχες της Ελλάδας όταν το ΑΕΠ είναι 5 φορές μεγαλύτερο. Έτσι η ένταση των δαπανών είναι μόνο 1,5 φόρα μεγαλύτερη! 8

Μια πρώτη «ανάγνωση» Σχετική βελτίωση σε επίπεδο Ε.Ε.-28 Υπάρχει ακόμα σημαντική απόκλιση σε σχέση με το στόχο των 3% Το 2013, τρεις χώρες έχουν ξεπεράσει το 3% από τις οποίες οι δύο το είχαν ήδη ξεπεράσει το 2004 (Φινλανδία και Σουηδία). Ορισμένες χώρες είναι πολύ κοντά στο στόχο (Αυστρία, Γερμανία και σε λιγότερο βαθμό η Σλοβενία). Δέκα χώρες δεν έχουν φτάσει τον 1/3 του στόχου!!! 9

2. Ξεκίνημα της ανάλυσης με το SPSS Τα δεδομένα βρίσκονται: στο αρχείο DATA_ΜΕΘΟΔΟΙ_ΑΝΑΛΥΣΗΣ_03 (Excel) Στο φύλλο εργασίας με όνομα SPSS1 10

Φάση 1: Άνοιγμα των δεδομένων (Excel) μέσω SPSS ΑΣ ΥΣ ΤΗΣ ΈΡΕΥΝ ΤΟΥΣ ΣΤΌΧΟ ΜΕ ΆΤΩΝ Ν ΖΗΤΗΜ ΤΩΝ ΕΡΕΥΝ ΗΤΙΚΏ ΣΗ 1. File, Open, Data ΣΎΝΔΕ ΦΆΣΗ 1: Τρεις χρήσιμες μορφές αρχείων: Data (δεδομένα) è.sav Output (αποτελέσματα) Syntax (προγραμματισμός εντολών) 2. Επιλογή του τύπου αρχείου (Excel) Μετά την επιλογή του τύπου αρχείου, εμφανίζεται το αρχείο Excel (αρκεί να έχουμε επιλέξει το φάκελο όπου έχουμε αποθηκεύσει το αρχείο με τα δεδομένα), το επιλέγουμε και 3. Open 11

Φάση 1: Άνοιγμα των δεδομένων (Excel) μέσω SPSS ΑΣ ΥΣ ΤΗΣ ΈΡΕΥΝ ΤΟΥΣ ΣΤΌΧΟ ΜΕ ΆΤΩΝ Ν ΖΗΤΗΜ ΤΩΝ ΕΡΕΥΝ ΗΤΙΚΏ ΣΗ ΣΎΝΔΕ ΦΆΣΗ 1: 4. Επιλογή του Φύλλου Εργασίας Τα δεδομένα βρίσκονται στο φύλλο εργασίας : SPSS1 του αρχείου DATA_ΜΕΘΟΔΟΙ_ΕΡΕΥΝΑΣ_03.xlxs Σε αυτό το φύλλο, υπάρχουν δεδομένα από το κελί Α1 έως και το κελί F30, δηλαδή έχουμε 29 παρατηρήσεις (28 χώρες της Ε.Ε. + την ΕΕ-28) και μια γραμμή (αναγκαστικά, η πρώτη στο αρχείο Excel) με τα ονόματα των μεταβλητών. 5. Άνοιγμα του αρχείου: OK Σε αυτή τη συγκεκριμένη περίπτωση, δεν έχουμε ανάγκη να προσδιορίσουμε στο πλαίσιο Range, την περιοχή με τα δεδομένα. Αν θέλαμε να εισάγουμε τα δεδομένα μόνο για τις 28 χώρες (χωρίς τη τελευταία γραμμή με το σύνολο Ε-Ε28), τότε στο πλαίσιο Range, θα προσδιορίσαμε τη σωστή περιοχή= A1:Q29 12

Φάση 2: Τα δεδομένα A B Γ 13

Φάση 2: Τα δεδομένα A Είναι το πρώτο σετ δεδομένων που ανοίξαμε [DataSet1] και όσο δεν έχουμε αποθηκεύσει τα δεδομένα σε μορφή SPSS (.sav), εμφανίζεται η ένδειξη Untitled. Με την εντολή File, Save + νέο όνομα, θα γίνει αυτόματα αλλαγή με αντικατάσταση του Untitled με τον όνομα που δώσαμε σε αυτό το αρχείο (π.χ. DATA_03.sav) B Τα ονόματα των μεταβλητών εμφανίζονται στη μπλε γραμμή χωρίς αριθμό, έτσι ώστε τα δεδομένα της 1 ης παρατηρήσεις (Βέλγιο) να βρίσκονται στην 1 η γραμμή (Case 1) ενώ η Ε-Ε28 αποτελεί τη τελευταία παρατήρηση (Case 29). Γ Τα δεδομένα εμφανίζονται στο φύλλο εργασίας (Data View) ενώ υπάρχει δεύτερο φύλλο εργασίας (Variable View) όπου μπορούμε να εισάγουμε πληροφορίες σχετικά με κάθε μεταβλητή όπως περιγραφή της μεταβλητής (Label), τύπος μεταβλητής (Type) κ.ά. Το φύλλο Variable View είναι πολύ χρήσιμο όταν έχουμε πολλές και διαφορετικές μεταβλητές και ειδικότερα όταν έχουμε κωδικοποιημένες μεταβλητές. 14

Φάση 2: Τα δεδομένα / βασικά χαρακτηριστικά Οι δύο πρώτες μεταβλητές είναι μεταβλητές αναγνώρισης των παρατηρήσεων (οι χώρες) Η μεταβλητή RD04 εμφανίζεται με 3 δεκαδικά ενώ η RD13 με 11! Μπορούμε να τα αλλάξουμε για να εμφανιστούν χωρίς δεκαδικό (δεν σημαίνει ότι, χάνουμε πληροφορία. Πρόκειται μόνο για παρουσίαση των δεδομένων). Τα δεδομένα είναι έτοιμα για επεξεργασία και ανάλυση 15

3. Επεξεργασία - Ανάλυση 16

Υπολογισμός των Δεικτών Έντασης των Δαπανών Εντολή: Transform, Compute Variable Νέα μεταβλητή Φόρμουλα = Με τον ίδιο τρόπο, υπολογίζουμε τον 2 ο δείκτη (2013). Η νέα μεταβλητή = WRD13 και η φόρμουλα = 100*RD13/GDP13 Οι δύο νέες μεταβλητές εμφανίζονται στο τέλος του φύλλου με τα δεδομένα. 17

Υπολογισμός των Δεικτών Έντασης των Δαπανών Προσοχή: Όπως ήδη αναφέρθηκε, έχουμε 29 παρατηρήσεις. Όμως η τελευταία αφορά το σύνολο των χώρων και ως εκ τούτου δεν μπορεί να περιλαμβάνεται στην ανάλυση. Θα πρέπει να την ουδετεροποιήσουμε με τη χρήση φίλτρου. 18

Εφαρμογή Φίλτρου Εντολή: Data, Select Cases Για την επιλογή των ενεργών παρατηρήσεων, παίρνουμε ως προϋπόθεση: ID > 0, έτσι ώστε η τελευταία παρατήρηση να είναι απενεργοποιημένη (ΕΕ-28). Η ενεργοποίηση φίλτρου εμφανίζεται ως εξής: 19

Υπολογισμός των παραμέτρων κεντρικής τάσης και διασποράς για τους δύο δείκτες «Έντασης των Δαπανών» Εντολή: Analyze, Descriptive Statistics, Explore(*) Statistics: Επιλέγουμε τις παραμέτρους που θέλουμε να εξετάσουμε. Plots: Επιλέγουμε τα διαγράμματα που είναι χρήσιμα για την ανάλυση, όπως το ιστόγραμμα και τα διαγράμματα που αναδεικνύουν σε ποιο βαθμό οι δείκτες μας ακολουθούν την κανονική κατανομή. 20

Αποτελέσματα. Output Σύνοψη των αποτελεσμάτων WRD04 WRD13 E.E.28(*) 1,67 1,93 Ελάχιστη τιμή 0,338 0,387 Μέγιστη τιμή 3,391 3,306 Εύρος 3,054 2,919 Μέση τιμή 1,298 1,618 Διάμεσος 1,046 1,362 Τυπική απόκλιση 0,861 0,903 CV = Τυπική απόκλιση / Μέση τιμή WRD04 0,663 (66,3%) WRD13 0,558 (55,8%) 21

Συμπεράσματα. Σύνοψη των αποτελεσμάτων WRD04 WRD13 E.E.28(*) 1,67 1,93 Ελάχιστη τιμή 0,338 0,387 Μέγιστη τιμή 3,391 3,306 Εύρος 3,054 2,919 Μέση τιμή 1,298 1,618 Διάμεσος 1,046 1,362 Τυπική απόκλιση 0,861 0,903 CV = Τυπική απόκλιση / Μέση τιμή WRD04 0,663 (66,3%) WRD13 0,558 (55,8%) Σε επίπεδο Ε.Ε., οι παράμετροι κεντρικής τάσης (μέση τιμή και διάμεσος) αυξήθηκαν. Όμως η διάμεσος παραμένει σε επίπεδο πολύ κατώτερο από τη μέση τιμή και το μέσο επίπεδο της Ε.Ε. 28, αναδεικνύοντας ότι οι χώρες με μικρή ένταση των δαπανών επηρεάζουν σημαντικά (και αρνητικά) την επίτευξη του στόχου των 3%. Αυτό επιβεβαιώνεται από το γεγονός ότι, η μέση τιμή των δεικτών έντασης είναι διαφορετική και μικρότερη από το μέσο επίπεδο της Ε.Ε. στο σύνολο της. Το μεγάλο εύρος τιμών εξηγεί επίσης αυτή τη διαφορά 22

Συμπεράσματα. Υπολογισμός των δεικτών σε επίπεδο Ε.Ε.28 : Σύνοψη των αποτελεσμάτων 04 = 04 04 = 184071 = 0,0167 (1,67%) 11024412 WRD04 WRD13 E.E.28(*) 1,67 1,93 Ελάχιστη τιμή 0,338 0,387 Μέγιστη τιμή 3,391 3,306 Εύρος 3,054 2,919 Μέση τιμή 1,298 1,618 Διάμεσος 1,046 1,362 Τυπική απόκλιση 0,861 0,903 Υπολογισμός της μέσης τιμής: 04 = = 0,1298 (1,30%) Πρέπει εδώ να αναφέρουμε ότι το 95% Διάστημα Εμπιστοσύνης της μέσης τιμής για το 2004 είναι αρκετά μεγάλο: (0,964 1,632). Με σφάλμα 5%, η μέση τιμή κυμαίνεται μεταξύ περίπου 1% και 1,6%. Για το 2013, το 95% Δ.Ε. = (1,268 1,968) δηλαδή η μέση ένταση κυμαίνεται μεταξύ περίπου 1,3% και 2,0%. 23

Συμπεράσματα. Σύνοψη των αποτελεσμάτων WRD04 WRD13 E.E.28(*) 1,67 1,93 Ελάχιστη τιμή 0,338 0,387 Μέγιστη τιμή 3,391 3,306 Εύρος 3,054 2,919 Μέση τιμή 1,298 1,618 Διάμεσος 1,046 1,362 Τυπική απόκλιση 0,861 0,903 Η διάμεσος αποτελεί χρήσιμο δείκτη διότι σε αντίθεση με τη μέση τιμή δεν επηρεάζεται από τις ακραίες τιμές. Πάρα μια γενική βελτίωση της έντασης των δαπανών Ε&Α, το 2013, το 50% των χώρων της ΕΕ (14 στις 28) παρουσιάζουν ακόμα δείκτη έντασης ιδιαίτερα χαμηλό: ούτε το μισό του στόχου (< 1,4). Υπάρχει όντως γενική βελτίωση : Αύξηση της ελάχιστης τιμής Διατήρηση της μέγιστης τιμής Μείωση του εύρους τιμών 24

Συμπεράσματα. Η αξιοπιστία των συμπερασμάτων μας : (α) γενική βελτίωση της έντασης (β) σημαντική διαφορά μεταξύ της μέσης τιμής του δείκτη και το μέσο επίπεδο της Ε.Ε.28 στο σύνολο της πρέπει να ελεγχθεί με στατιστικούς όρους. (Test) Αυτός είναι ο ρόλος της διαδικασίας ελέγχου υποθέσεων. Για το (α), ο έλεγχος διατυπώνεται ως έξης: Ηο: μέση τιμή του WRD13 = μέση τιμή του WRD04 Η1: μέση τιμή του WRD13 μέση τιμή του WRD04 è paired sample T Test Για το (b), ο έλεγχος για κάθε μεταβλητή διατυπώνεται ως έξης: Ηο: μέση τιμή του WRD04 = 1,67 (επίπεδο Ε.Ε.28) Η1: μέση τιμή του WRD04 1,67 Ηο: μέση τιμή του WRD13 = 1,93 (επίπεδο Ε.Ε.28) Η1: μέση τιμή του WRD04 1,93 è Η απόφαση (ποια από τις δύο εναλλακτικές υποθέσεις ισχύει) βασίζεται στην σημαντικότητα του ελέγχου (ισχύ) δηλαδή στην p-value. 25

Έλεγχοι υποθέσεων σχετικά με τη μέση τιμή 1 η περίπτωση: Σύγκριση της διαφοράς μεταξύ δύο μέσων τιμών (δύο μεταβλητών) Εντολή: Analyze, Compare means, Paired-Sample T Test Επιλέγουμε τις 2 μεταβλητές (WRD13 & WRD04) και ΟΚ Επιλέγοντας πρώτα WRD13 και έπειτα WRD04, η διαφορά θα είναι θετική. Η διαφορά είναι θετική (=0,32), η τιμή του t-student = 4,937 (πολύ μεγαλύτερη από την κριτική τιμή 2), Η ισχύ του ελέγχου (p-value) = 0,000 < 1% è Η υπόθεση μηδέν απορρίπτεται, ισχύει η υπόθεση Η1, δηλαδή οι μέσες διαφέρουν σημαντικά και έχουμε τάση βελτίωσης. 26

Έλεγχοι υποθέσεων σχετικά με τη μέση τιμή 2 η περίπτωση: Σύγκριση της μέσης τιμής μιας μεταβλητής με μια δεδομένη τιμή Εντολή: Analyze, Compare means, One-sample T test Επιλέγουμε την μεταβλητή WRD04 καθώς και τη τιμή για ελέγχου = 1,67 (Ε.Ε.28) Επιλέγοντας πρώτα WRD13 και έπειτα WRD04, η διαφορά θα είναι θετική. Η διαφορά είναι αρνητική (= - 0,372), η τιμή του t-student = 2,288, Η ισχύ του ελέγχου (p-value) = 0,030 (3%) < 5% è Με 3% σφάλμα (97% βεβαιότητας) η υπόθεση μηδέν απορρίπτεται, ισχύει η υπόθεση Η1, δηλαδή η μέση τιμή του δείκτη έντασης διαφέρει σημαντικά από το μέσο επίπεδο της Ε.Ε.28 στο σύνολο της. 27

Εκτίμηση του βαθμού ανισοτήτων : τάση για μείωση; Σύνοψη των αποτελεσμάτων WRD04 WRD13 Ελάχιστα περιορίζεται το εύρος τιμών. E.E.28(*) 1,67 1,93 Εύρος 3,054 2,919 Μέση τιμή 1,298 1,618 Τυπική απόκλιση 0,861 0,903 Ο συντελεστής μεταβλητότητας παραμένει υψηλός όμως μειώθηκε. Εξετάζοντας τα εκατοστημόρια (Percentiles), επιβεβαιώνεται ότι, οι ανισότητες τείνουν να μειωθούν. CV = Τυπική απόκλιση / Μέση τιμή WRD04 0,663 (66,3%) WRD13 0,558 (55,8%) Τεταρτημόρια : Q1 (πρώτο 25% των παρατηρήσεων με τις μικρότερες τιμές) Q3 (τελευταίο 25% των παρατηρήσεων με τις μεγαλύτερες τιμές) 28

Εκτίμηση του βαθμού ανισοτήτων : τάση για μείωση; Το1 ο,2 ο και3 ο τεταρτημόριο είναι 3 δείκτες που χωρίζουν την κατανομή (σειρά δεδομένων) σε τέσσερα ίση μέρη. Το 2 ο τεταρτημόριο δεν είναι τίποτα άλλο από τη Διάμεσο. Η θέση των τεταρτημόριων δίνεται από: p Q p : ( n + 1). 100 p = 25 για το 1 ο Τεταρτημόριο : Q 25 p = 75 για το 3 ο Τεταρτημόριο: Q 75 Η έννοια των Τεταρτημόριων μπορεί να γενικευθεί. Σε αρκετές περιπτώσεις, είναι χρήσιμο να υπολογίσουμε ορισμένα δεκατημόρια (10%, 90%) ή ακόμα εκατοστημόρια (5%, 95%). 29

ΠΑΡΑΡΤΗΜΑ: 30

Central Parameters [01] ü Arithmetic Mean: Sum of all elements of the data set divided by the number of elements. X n å i= = 1 n X i ü Weighted Mean: Sum of the weighted scores X n = å wi. X i å w n i= 1 i= 1 = 1 ü Geometric Mean: The nth root of the product of data elements X = n n Õ X i i= 1 i Central Parameters [02] ü Mode: The observed data that occurs most frequently. Most frequent value of the variable. Mode is not necessarily a single value ü Median: The value of the variable (arranged in order magnitude), below which 50% of the elements fall (50% of elements have a value lower than the Median). Median = Arithmetic Mean when the distribution follows the Laplace-Gauss distribution (Normal distribution). STATISTICAL TREATMENT

Measures of dispersion [01] ü Range: Difference between the highest and the lowest data element. Range = X max - X min ü Dispersion Ratio: Quotient between the highest and the lowest data element. X max DR = X min ü Percentile (p%): The value of the variable of the variable below which p% of the elements falls. For dispersion analysis, the 5% and 95% are very useful. Measures of dispersion [02] ü Variance: The square average distance of each score from the mean. ü Weighted Variance: The square average weighted distance of each score from the mean. ü Standard deviation: σ = square root of variance ü Coefficient of Variation (CV): s CV = X STATISTICAL TREATMENT

Measures of dispersion [03] ü Weighted wcv: wcv = Coefficient of Variation n å i= 1 w.( X i X With spatial units, w i is generally the population weight of the spatial unit i, in the total area under examination. i - X 2 ) STATISTICAL TREATMENT w i Popi = Pop Considering the 28 EU countries, Pop i = population of the country Pop. = EU population

Normal / Gaussian Distribution ü Perfectly symmetric distribution of the random variable around the mean value. ü Mean = Median = Mode. ü Standard Normal Distribution: IfXàN(μ,σ 2 ) Normal distribution Consequently, the standardized variable Z à N(0, 1) Representation [01] P(X <μ) = 0,5 (50%) STATISTICAL TREATMENT where: Z - m = X s

Normal / Gaussian Distribution ü The distribution shape of a Normal variable depends on the specific values of its two parameters: mean and variance. High value of variance è flattened curve (see blue curve): there is no concentration of values around the mean. Small value of variance è high concentration around the mean value, low degree of variability (see red curve). Representation [02] STATISTICAL TREATMENT

Confidence Interval ü Confidence interval: It gives an estimated range of values which is likely to include an unknown population parameter, the estimated range being calculated from a given set of sample data. ( 1- a ) C. I. = X ± z. a ü Confidence limits: The lower and upper boundaries of a confidence interval, that is, the values which define the range of a confidence interval. s n Confidence Level ü Confidence level: The probability value (1-α) associated with a confidence interval. If a = 5%, the confidence level is (1-0,05) = 0,95 i.e. a 95% confidence level. STATISTICAL TREATMENT Confidence interval is very informative because its width gives us some idea about how uncertain we are about the unknown parameter.

Measures of Trends ü Skewness [a 3 ]: A measure of the asymmetry of the probability distribution of a random variable. a 3 = 0 : Normal distribution a 3 = n å i= 1 ( X - X ) ( n -1). s i 3 3 Measures of Trends ü Kurtosis [a 4 ]: A measure of the peakedness of the probability distribution of a random variable. a 4 = 0 : Normal distribution a 4 > 0 : Peaked distribution a 4 < 0 : Flat distribution a n 4 å ( X i - X ) i= 1 4 = - 4 ( n -1). s 3 STATISTICAL TREATMENT

Measures of Correlation ü Pearson coefficient of correlation r p : It indicates the strength and the direction of a linear relationship between two random variables (X and Y). r p æ ç =. ç n ç ç è n å 1 i= 1 ( X i - X )( Y s.s X Y i ö -Y ) ø The Correlation coefficient does not indicate a cause and effect relationship ü Spearman Coefficient of correlation r s : It indicates the strength and the direction of a relationship (not necessarily linear) between two random variables r s = 6 - n n å i= 1 1 2 d 2 i ( n -1) STATISTICAL TREATMENT

Σας ευχαριστώ θερμά 39