همبستگی و رگرسیون در این مبحث هدف بررسی وجود یک رابطه بین دو یا چند متغیر می باشد لذا هدف اصلی این است که آیا بین دو صفت متغیر x و y رابطه و همبستگی وجود دارد یا خیر و آیا می توان یک مدل ریاضی و یک رابطه رگرسیون ساده بین x و y پیدا نمود به طوریکه با معلوم بودن مقدار متغیر x مقدار متغیر y را برآورد نمود توجه: در آزمون رگرسیون بر اساس نتایج مشاهده شده در نمونه در مورد رابطه بین دو متغیر نتیجه گیری خواهیم کرد. اگر کل یک جامعه را مشاهده کنیم خط رگرسیونی که بدست می آورید صحیح و خط رگرسیون جامعه است اما از آنجایی که تنها نمونه ای از جامعه را مشاهده می کنید نمی دانید مه مقدار صحیح شیب و عرض از مبدا چقدر است لذا مقدار آن را از روی نمونه تخمین می زنیم. توجه: آزمون رگرسیون برای متغیر های اسمی معنا ندارد همچنین باید این فرض صحیح باشد که رابطه متغیرها خطی است. تعریف متغیر مستقل: متغیری که توسط آزمایشگر کنترل می شود و با x نشان می دهیم آن را متغیر مستقل می نامیم.
تعریف متغیر وابسته: متغیری که مقدار آن به x بستگی دارد و با y نشان می دهیم و آن را متغیر اثر یا متغیر پاسخ می نامیم. فرض های مسئله: -مشاهدات باید مستقل باشند. -برای تمام مقادیر متغیر مستقل توزیع مقادیر متغیر وابسته باید نرمال باشد. -واریانس متغیر وابسته باید برای تمام مقادیر متغیر مستقل یکسان باشد. -رابطه بین متغیر مستقل و وابسته در جامعه باید خطی باشد. ضریب همبستگی: ضریب همبستگی شاخصی است که درجه همبستگی بین دو متغیر را به صورت عددی نشان می دهد و به این صورت تحلیل همبستگی به سهولت و روشنی بیشتری امکان پذیر می شود. توجه: برای محاسبه ضریب همبستگی چند روش وجود دارد که هر کدام دارای کاربرد خاصی است که معروفترین آن ها عبارت است از: - ضریب همبستگی خطی پیرسون: میزان ارتباط خطی دو متغیر کمی را می دهد. ضریب همبستگی خطی اسپیرمن: از این ضریب برای تعیین میزان ارتباط بین متغیرهای رتبه ای - استفاده می شود.) از توزیع متغیر های کمی نرمال نباشد نیز از این ضریب استفاده می شود.( 3- ضریب همبستگی کندال: میزان ارتباط بین متغیر های رتبه ای و اسمی را می دهد.
ضریب همبستگی پیرسون: هرگاه بدانیم که بین دو متغیر رابطه خطی وجود دارد و داده های مربوط به هر یک از متغیرها به صورت نرمال توزیع شده باشد ضریب همبستگی خطی پیرسون را با استفاده از فرمول زیر محاسبه می کنیم. r = n (xy) ( x)( y) [n (x ) ( x) ][n (y ) ( y) ] مثال: نمرات آزمون آمار و ریاضیات هفت دانشجو به شرح زیر می باشد برای این نمرات ضریب همبستگی پیرسون را محاسبه کنید و در سطح خطای 5/50 وجود همبستگی خطی بین دو متغیر را بیابید. X دانشجو X X A 5 B 0 C 0 D 7 5 E 9 F 0 G مجموع 3
تفسیر ضریب همبستگی پیرسون: مقدار r بین - و تغییر می کند. اگر -=r باشد به معنای همبستگی کامل منفی بین دو متغیر است. اگر 0=r باشد به معنای عدم وجود همبستگی بین دو متغیر است. اگر =r باشد به معنای همبستگی کامل مثبت بین دو متغیر است. اگر ضریب همبستگی به دست آمده غیر از - و 5 و + باشد باید به روش زیر فرض آزمایی کنیم. - - - - y x توجه: ضریب همبستگی مثبت منظور اینکه بین دو متغیر همبستگی وجود دارد و با افزایش نیز افزایش پیدا می کند و برعکس. y و همینطور ضریب همبستگی منفی منظور اینکه بین دو متغیر همبستگی وجود دارد و با افزایش x پیدا می کند و برعکس. کاهش تذکر : ضریب همبستگی می تواند بود و نبود و شدت ارتباط بین دو متغیر را نشان دهد لیکن مقادیر جز -=r +=r, 0=r, را نمی توان به صورت معنی دار تفسیر کرد. مثال برای 0/8=r و 0/=r نمی توان گفت ارتباط r دو متغیر مزبور در بررسی اول چهار برابر شدیدتر از بررسی دوم است مگر آنکه )ضریب تعیین ) را مبنای مقایسه قرار دهیم. ضریب تعیین: ضریب تعیین شدت ارتباط بین دو متغیر را مشخص می کند در حقیقت قدرت پیشگویی یک خط با ضریب تعیین مشخص می شود که هر چه به یک یا 55 نزدیکتر باشد مطمئن تر است. 4
مثال: اگر 0/8=r باشد آن گاه 0/64= r است که این بدان معنی است که ) 5/ درصد(از تغییرات yرا توسط تغییرات x می توان توضیح داد. تذکر: وجود همبستگی شدید بین دو متغیر الزاما بدان معنی نیست که بین این دو متغیر رابطه علیت ( علت و معلولی ) وجود دارد. استفاده از جدول t استیودنت: ابتدا فرضیه های آماری را به شرح زیر تشکیل می دهیم: H 0 : ρ = 0 ; H : ρ 0 توجه: فرض صفر " بین متغیر x و متغیر y همبستگی وجود ندارد." فرض می کنیم که )x,y( متغیر تصادفی دو بعدی با توزیع دومتغیر نرمال باشد آماره t را به صورت زیر محاسبه t = r n r df=n- نقطه بحرانی t را به دست می آوریم اگر آماره آزمون در می کنیم. اکنون از جدول t در سطح α و با درجه آزادی ناحیه بحرانی قرار بگیرد فرضیه رد می شود) H0 اگر آماره آزمون در ناحیه بحرانی قرار نگیرد فرضیه ( α t > t (یعنی در سطح α همبستگی وجود دارد و,n ) H0 رد نمی شود یعنی بین x و y همبستگی وجود ندارد. 5
همبستگی رتبه ای اسپیرمن: اگر محقق بتواند بپذیرد که در جامعه ای که نمونه ها از آن انتخاب شده اند داده ها دارای توزیع نرمال هستند می تواند از ضریب همبستگی پیرسون استفاده کند همراه خواهد بود. وگرنه ضریب همبستگی پیرسون با اشتباه و گمراه کننده در چنین مواردی باید ضریب همبستگی رتبه ای اسپیرمن را محاسبه و تفسیر نمود زیرا در محاسبه این ضریب همبستگی به جای مقادیر واقعی داده ها رتبه هر داده در مقایسه با داده های دیگر به کار می رود. به عبارت دیگر داده ها را به ترتیب غیر صعودی مرتب کرده به بزرگترین داده رتبه به داده بالفاصله بعد آن رتبه و... و باالخره به کوچکترین داده باالترین رتبه نسبت می دهیم. فرمول محاسبه ضریب رتبه ای اسپیرمن: ζ = 4 d n(n ) که در آن d تفاوت بین رتبه هر دو زوج مرتب و n تعداد زوج های مرتب است. مثال: نمرات آزمون های زبان انگلیسی و ادبیات فارسی یک گروه از دانشجویان دانشکده ای به شرح زیر است همبستگی رتبه ای اسپیرمن را محاسبه کنید. A دانشجو B C D E F G 5 نمره زبان انگلیسی 5 0 5 نمره ادبیات فارسی 0 5 0 0 6
حل: رتبه نمره ادبیاتy رتبه نمره زبانx نمره ادبیات نمره زبان X دانشجو d=x-y d A 0 0 3/5 /0 /0 B 8 5 0 C - D 4 0 7-3 E 4 5 7 3 9 F 0 5 3/0-5/0 5/0 G 5 6 ζ = 6 (84 5 ) 7(7 ) = 0/5 تفسیر ضریب همبستگی رتبه ای اسپیرمن: تفسیر ضریب همبستگی رتبه ای اسپیرمن با استفاده از جدول مقادیر بحرانی ζ صورت می گیرد. ابتدا فرضیه های آماری را به شرح زیر تشکیل می دهیم: H 0 : ζ = 0 ; H : ζ 0 توجه: فرض صفر " بین رتبه های مربوط به متغیر x و متغیر y همبستگی وجود ندارد." 7
df=n- نقطه بحرانی ζ را به دست می آوریم اگر آماره آزمون اکنون از جدول ζ در سطح α و با درجه آزادی α در ناحیه بحرانی قرار بگیرد فرضیه H0 رد می شود) در سطح (یعنی همبستگی وجود ζ > ζ ( α,n ) دارد و اگر آماره آزمون در ناحیه بحرانی قرار نگیرد فرضیه H0 رد نمی شود یعنی بین رتبه های x و y همبستگی وجود ندارد.)جدول مقادیر ζ برای آزمون معنی دار بودن فرض صفر دو دنباله تهیه شده است یعنی در محاسبات عملی نیازی به تقسیم α بر عدد نیست( رگرسیون: اگر بین دو متغیر X و همبستگی وجود داشته باشد می توان یکی از این دو متغیر را بر حسب دیگری برآورد کرد این عمل محتوای مبحث رگرسیون است. خط رگرسیون ما را به پیش بینی ویژگی های آنچه که در نمونه ما موجود نیست قادر ی سازد. = a + bx معادله خط رگرسیون عبارت است از: که در آن b ضریب رگرسیون نامیده می شود و از روابط زیر به دست می آیند. b = n (xy) ( x)( y) y b x n (x ) ( x) ; a = n توجه: اگر زوج هی مرتب که برای محاسبه خط رگرسیون داریم را روی صفحه مشخص کنیم می بینیم که بی نهایت خط می توان رسم کرد اما بهترین خط ها آنهایی هستند که کمترین فاصله را با نقاط داشته باشند منظور اینکه زمانی که فاصله بین خطوط و نقاط را بدست بیاوریم این فاصله کمترین باشد بهترین خط آن است که مجموع مربعات فاصله نقاط از خط کمترین شود که پس از محاسبات فرمول های باال حاصل می شوند. 8
تمرین : برای 0 زوج مشاهده های زیراز جامعه ای نرمال وجود ارتباط بین دو متغیر را یررسی کرده و معادله خط رگرسیون را در صورت وجود بیابید. X 0 3 5 5 - تمرین : برای زوج مشاهده های زیراز جامعه ای نرمال وجود ارتباط بین دو متغیر را یررسی کرده و معادله خط رگرسیون را در صورت وجود بیابید. X 0 3 3 3 5 0 3 تمرین 3: تعداد دقایقی که 5 دانش آموز صرف مطالعه یک صفحه کتاب در صبح و عصر می کنند به ترتیب با x و y در جدول زیر نشان داده شده است ضریب همبستگی اسپیرمن را بیابید و آنرا تفسیر کنید. X 5 0 3 7 0 5 3 3 9 7 9 تمرین 4 : جدول زیر یک نمونه تصادفی 5 تایی از نمرات درس آمار که به صورت تستی و تشریحی گرفته شده است را نشان می دهد وجود ارتباط بین دو متغیر را در سطح خطای 0 درصد بررسی و معادله خط رگرسیون را بیابید و بررسی کنید اگر نمره تستی فردی 9 باشد نمره تشریحی این فرد چند خواهد بود. X )تستی( 39 3 07 7 70 3 0 )تشریحی( 0 7 0 9 9 73 9 0 70 9