Bu yazıda R Programlama dili ile, regresyon analizi varsayımlarından olan çoklu doğrusallık problemini göreceğiz.

Doğrusallık İncelemesi

Bir regresyon modelinde açıklayıcı değişkenlerin tümü veya bir kısmı aralarında tam veya tama yakın bir doğrusal ilişkinin var olması anlamına gelir. Regresyon denklemlerinde kullanılan açıklayıcı değişkenler arasında bazen doğruya yakın bir ilişki vardır. Yani bu değişkenler arasında korelasyon katsayısı birdir. Böyle bir durumda parametreleri hesaplamak imkânsızlaşır.

Çoklu Doğrusallığın Nedenleri

  • Kullanılan veri toplama metodu,ana kütle içinde sadece sınırlı sayıda verilerin ele alınması.

  • Değişkenlerin aynı etmenlerden etkilenmeleri.

Çoklu Doğrusallığın Sonuçları

  • Çoklu doğrusallığın olduğu durumlarda parametreleri tahmin etmek imkânsızlaşır, Standart hata sonsuzlaşır.

  • EKK edicileri büyük varyans ve kovaryansa sahip olduklarından, kesin tahminlerde bulunmak güçleşir.

  • Yukarıdaki sonuçtan dolayı güven aralığı genişler.

  • Bir ve birden fazla katsayının t oranı istatistiki olarak anlamsız hale gelir.

  • Uyum iyiliği mükemmele yakın olabilir.

R Uygulaması

Veri:

Analizde kullanılan veri simülasyon verisidir. Yorumlarda daha anlaşılır olabilmek için veriye senaryo yazılmıştır.

Veri Senaryosu: Bir online alışveriş sitesi; web sitelerinin tasarımını değiştirmek istemektedir. Bunun için yapılan çalışma sonucunda üç farklı web site tasarımı arasında seçim yapılmasına karar verilmiştir.

Müşteri etkinliği ve site tasarımları arasındaki ilişkiyi anlamak için, her bir site tasarımı belli bir süre uygulanacak ve müşteri etkinliği izlenecektir. Üç farklı site tasarımıyla birlikte; gönderilen öneri bildirimlerinin sıklığı, indirimli ürünlerin oranı ve müşteri geçmişi üzerinden (arama geçmişi, satın alma geçmişi, liste geçmişleri) tahminler yapan yapay zekanın tahmin oranı da bu izlenmeye dahil tutulacaktır. Yapılan çalışmanın bir kısmı aşağıdaki gibidir.

veri <-read.csv("https://raw.githubusercontent.com/gungorrbaris/TR-regression-analysis-R/main/data/data.csv", sep="")
knitr::kable(head(veri,n=5), align = "c")
y yapay_zeka indirimli_urun bildirim site_tasarimi
52.03710 12.19230 2.2533662 4.266214 1
45.31281 10.46099 0.5147431 2.632571 1
57.55408 12.20494 2.5136276 4.044828 1
53.08547 11.42794 0.9101550 2.595185 1
50.80389 11.11258 1.5749445 3.071317 1

Burada:

  • y = Müşteri Etkinliği -> Bağımlı Değişken

  • Yapay Zeka Oranı -> Nicel Bağımsız Değişken

  • İndirimli Ürün Oranı -> Nicel Bağımsız Değişken

  • Bildirim Sıklığı -> Nicel Bağımsız Değişken

  • Site Tasarımı -> Nitel Bağımsız Değişkendir.

Doğrusallık İncelemesi

Doğrusallık incelemesi için birçok yöntem vardır.

Saçılım Grafiği

pairs(veri,col="darkgreen", main="Müşteri Etkinliği(y)için Saçılım Grafiği")

Korelasyon Grafiği

library(corrplot)
## corrplot 0.92 loaded
cor1 = cor(veri)
corrplot(cor1, method = 'number')

corrplot(cor1,method = 'ellipse', order = 'AOE', type = 'upper')

Grafiklere bakıldığında:

  • Tüm bağımsız nicel değişkenlerle müşteri etkinliği (y) arasında doğrusal bir ilişki gözükmektedir.

  • Site tasarımı nitel değişken olduğu için ilişkiye bakmaya gerek yoktur.