Bu yazıda R Programlama dili ile, regresyon analizi varsayımlarından olan çoklu doğrusallık problemini göreceğiz.
Doğrusallık İncelemesi
Bir regresyon modelinde açıklayıcı değişkenlerin tümü veya bir kısmı aralarında tam veya tama yakın bir doğrusal ilişkinin var olması anlamına gelir. Regresyon denklemlerinde kullanılan açıklayıcı değişkenler arasında bazen doğruya yakın bir ilişki vardır. Yani bu değişkenler arasında korelasyon katsayısı birdir. Böyle bir durumda parametreleri hesaplamak imkânsızlaşır.
Çoklu Doğrusallığın Nedenleri
Kullanılan veri toplama metodu,ana kütle içinde sadece sınırlı sayıda verilerin ele alınması.
Değişkenlerin aynı etmenlerden etkilenmeleri.
Çoklu Doğrusallığın Sonuçları
Çoklu doğrusallığın olduğu durumlarda parametreleri tahmin etmek imkânsızlaşır, Standart hata sonsuzlaşır.
EKK edicileri büyük varyans ve kovaryansa sahip olduklarından, kesin tahminlerde bulunmak güçleşir.
Yukarıdaki sonuçtan dolayı güven aralığı genişler.
Bir ve birden fazla katsayının t oranı istatistiki olarak anlamsız hale gelir.
Uyum iyiliği mükemmele yakın olabilir.
R Uygulaması
Veri:
Analizde kullanılan veri simülasyon verisidir. Yorumlarda daha anlaşılır olabilmek için veriye senaryo yazılmıştır.
Veri Senaryosu: Bir online alışveriş sitesi; web sitelerinin tasarımını değiştirmek istemektedir. Bunun için yapılan çalışma sonucunda üç farklı web site tasarımı arasında seçim yapılmasına karar verilmiştir.
Müşteri etkinliği ve site tasarımları arasındaki ilişkiyi anlamak için, her bir site tasarımı belli bir süre uygulanacak ve müşteri etkinliği izlenecektir. Üç farklı site tasarımıyla birlikte; gönderilen öneri bildirimlerinin sıklığı, indirimli ürünlerin oranı ve müşteri geçmişi üzerinden (arama geçmişi, satın alma geçmişi, liste geçmişleri) tahminler yapan yapay zekanın tahmin oranı da bu izlenmeye dahil tutulacaktır. Yapılan çalışmanın bir kısmı aşağıdaki gibidir.
veri <-read.csv("https://raw.githubusercontent.com/gungorrbaris/TR-regression-analysis-R/main/data/data.csv", sep="")
knitr::kable(head(veri,n=5), align = "c")
y | yapay_zeka | indirimli_urun | bildirim | site_tasarimi |
---|---|---|---|---|
52.03710 | 12.19230 | 2.2533662 | 4.266214 | 1 |
45.31281 | 10.46099 | 0.5147431 | 2.632571 | 1 |
57.55408 | 12.20494 | 2.5136276 | 4.044828 | 1 |
53.08547 | 11.42794 | 0.9101550 | 2.595185 | 1 |
50.80389 | 11.11258 | 1.5749445 | 3.071317 | 1 |
Burada:
y = Müşteri Etkinliği -> Bağımlı Değişken
Yapay Zeka Oranı -> Nicel Bağımsız Değişken
İndirimli Ürün Oranı -> Nicel Bağımsız Değişken
Bildirim Sıklığı -> Nicel Bağımsız Değişken
Site Tasarımı -> Nitel Bağımsız Değişkendir.
Doğrusallık İncelemesi
Doğrusallık incelemesi için birçok yöntem vardır.
Saçılım Grafiği
pairs(veri,col="darkgreen", main="Müşteri Etkinliği(y)için Saçılım Grafiği")
Korelasyon Grafiği
library(corrplot)
## corrplot 0.92 loaded
cor1 = cor(veri)
corrplot(cor1, method = 'number')
corrplot(cor1,method = 'ellipse', order = 'AOE', type = 'upper')
Grafiklere bakıldığında:
Tüm bağımsız nicel değişkenlerle müşteri etkinliği (y) arasında doğrusal bir ilişki gözükmektedir.
Site tasarımı nitel değişken olduğu için ilişkiye bakmaya gerek yoktur.