LOJİSTİK REGRESYON ANALİZİ
LOJİSTİK REGRESYON
ANALİZİ
Lojistik Regresyon Analizini daha kolay izleyebilmek
için bazı terimleri tanımlayalım:
1. Değişken (incelenen özellik):
Bireyden bireye farklı değerler alabilen özellik,
fenomen ya da olay
2. Değişkenlerin Ölçüm biçimi:
Ölçüm biçimi yönünden değişkenler iki gruba
ayrılır:
• Nitel (nitelik,kategorik) değişkenler
• Sayısal değişkenler
Nitel değişkenler
Ölçülemez, sadece nitelendirilebilir.
Örneğin;
Sayısal değişkenler:
1. Kesikli sayısal
2. Sürekli sayısal
olarak iki gruba ayrılır.
Cinsiyet : Erkek‐kadın
Hast.sonucu: İyileşti‐iyileşmedi,
Eğitim : İlk‐orta‐lise‐yüksek gibi.
Kesikli sayısal değişkenler:
Belirli bir aralıktaki tam sayıları (10, 74, 187 gibi)
alabilen değişkendir:
Nabız sayısı, Ölen sayısı, Çocuk sayısı gibi.
Sürekli sayısal değişkenler:
Ölçümle belirtilen ve bir aralıkta bütün desimal
değerleri (12.8, 140.6, 60.7 gibi) alabilen
değişkendir.
Kan basıncı ölçümü,
Biyokimyasal ölçümler,
Boy uzunluğu, ağırlık, yaş gibi.
3. Bağımlı değişken:
Diğer değişkenler tarafından etkilenen
değişkendir.
4. Bağımsız değişken:
Bağımlı değişkeni etkileyen değişkendir.
Örnek:
Bağımlı değişken : Hipertansiyon
Bağımsız değişkenler : Yaş, cinsiyet,
biyokimyasal
ve diğer sosyal
değişkenler
LOJİSTİK
REGRESYON
Bilinen doğrusal regresyon analizinde bağımlı
değişken ve bağımsız değişken(ler) sayısal
(ölçümle belirtilen sürekli ya da kesikli sayısal)
olarak belirtilir.
Örneğin, yaş ile kan basıncı arasında bir ilişki
aranacaksa; hem yaş, hem de kan basıncı
sayısal olarak belirtilmelidir.
Nitelik olarak belirtilemezler.
Bağımlı değişken nitelik olarak
belirtilirse,
bağımsız değişken ya da değişkenlerle
arasındaki ilişki lojistik regresyon
yöntemiyle aranır.
İzleyen tabloda doğrusal ve lojistik
regresyon yöntemleri karşılaştırılmıştır:
DEĞİŞKENLER
DOĞRUSAL
REGRESYON
ANALİZİ
BAĞIMLI SÜREKLİ SAYISAL
KESİKLİ SAYISAL
BAĞIMSIZ SÜREKLİ SAYISAL
KESİKLİ SAYISAL
LOJİSTİK
REGRESYON
ANALİZİ
NİTELİK
SÜREKLİ SAYISAL
KESİKLİ SAYISAL
NİTELİK
(Her bağımsız
değişken başka bir
ölçüm biçimine de
sahip olabilir)
Nitelik bağımlı değişken:
2 Kategorili olabilir : İyileşti‐iyileşmedi, yaşıyor‐
(Binominal) öldü, etkili‐ etkisiz gibi.
2+ Kategorili sırasız olabilir: Çalışıyor, çalışmıyor, emekli
(Multinominal) gibi
2+ Kategorili sıralı olabilir : Çok etkili‐orta derecede etkili‐
(Ordinal) etkisiz gibi
Her durumda lojistik regresyon analizi uygulanabilir.
Lojistik regresyonun uygulandığı
durumlar:
Bağımlı değişkenin kategori sayısına göre
uygulanacak yöntem farklıdır.
En çok uygulandığı durum bağımlı değişkenin iki
kategorili (iyileşti‐iyileşmedi gibi) olduğu
durumdur.
İzleyen tabloyu inceleyelim:
Bağımlı
Değişken
Kategori
Sayısı
Bağımsız
Değişken
Sayısı
Bağımsız
Değişkenin
Kategori Sayısı
2 1 2
2 1 2+
2 2+ Çeşitli
2+ sırasız Tek/çok Çeşitli
2+ sıralı Tek/çok Çeşitli
Uygulanacak
Yöntem
Binominal lojistik
regresyon
Binominal lojistik
regresyon
Çok değişkenli
lojistik regresyon
Multinominal
lojistik regresyon
Ordinal
lojistik regresyon
Lojistik regresyon yönteminin hedefi, bağımlı
değişkenin sonucunu tahmin edebilecek en
sade modeli bulmaktır.
Lojistik regresyon analizi sonucunda elde
edilen modelin uygun olup olmadığı “model
ki‐kare” testi ile,
Her bir bağımsız değişkenin modelde
varlığının anlamlı olup olmadığı ise Wald
istatistiği ile test edilir.
TANIMLAR
Lojistik Regresyon ile ilgili bazı terimleri
tanımlayalım:
Odds, odds ratio ve lojit
Bu terimler, lojistik regresyonda önemli temel
terimlerdir.
Odds
Odds başarı ya da görülme olasılığının “p”,
başarısızlık ya da görülmeme olasılığına “1p”
oranıdır.
Odds ratio (OR)
İki odds’un birbirine oranıdır. İki değişken
arasındaki ilişkinin özet bir ölçüsüdür.
İzleyen tabloyu inceleyelim:
Risk
Hastalık
Var Yok
Toplam
Var 35 16 51
Yok 25 61 86
Toplam 60 77 137
Riskli olanlarda hastalığa yakalanma odds’u:
35/16= 2.18,
Risksiz olanlarda hastalığa yakalanma odds’u:
25/61= 0.41’dir.
Bu iki odds’un birbirine oranı odds ratio’yu
verir:
Odds ratio=2.18/ 0.41 = 5.3
Yorum:
Risk altında olanların hastalığa yakalanma
riski, risk altında olmayanlara göre 5.3 kat
daha fazladır.
Lojit
Odds ratio’nun doğal logaritmasıdır.
Odds ratio asimetriktir. Doğal logaritması alınarak
simetrik hale dönüştürülür.
Lojit katsayıları (lojit) doğrusal regresyon
analizindeki “β” katsayısının karşılığıdır.
Paket programlar “β” katsayısının standart hatasını,
anlamlılık için Wald istatistiğini, odds ratio ve odds
ratio’nun güven aralığını vermektedir.
VARSAYIMLAR
Lojistik regresyon yönteminde doğrusal
regresyon analizindeki varsayımların
hiçbirisi aranmaz.
Bu nedenle araştırıcılara önemli esneklik
sağlamaktadır ve daha fazla tercih edilen bir
yöntem haline gelmiştir.
Ancak, aşağıda belirtilen noktalar lojistik
regresyon analizi kullanılarak yapılacak
araştırmalarda dikkate alınmalıdır:
• Uygun Tüm Bağımsız Değişkenler Modele Dahil
Edilmelidir
Bazı değişkenlerin modele dahil edilmemesi hata
teriminin büyümesine ve modelin yetersizliğine
neden olabilir.
• Uygun Olmayan Tüm Bağımsız Değişkenler
Dışlanmalıdır
Nedensel olarak uygun olmayan değişkenlerin
modele dahil edilmesi; modeli komplike yapabilir,
modelin yorumlanmasının zorlaştırabilir, bu
değişkenlerin bağımlı değişken üzerinde pay sahibi
imiş gibi yanlış izlenim vermesine neden olabilir.
• Aynı birey üzerinde bir kez gözlem
yapılmalı, tekrarlayan ölçümler olmamalıdır.
• Bağımsız Değişkenlerde Ölçüm Hatası Küçük
Olmalıdır
Ölçüm hataları küçük olmalı, kayıp (eksik) veri
olmamalıdır.
Hatalar, katsayıların tahmininde yanlılığa ve modelin
yetersizliğine neden olur.
• Bağımsız Değişkenler Arasında Çoklu Bağlantı
(Multicollinearity) Olmamalıdır
Bağımsız değişkenler birbirleriyle ilişkili olmamalıdır.
•Aşırı Değerler Olmamalıdır
Doğrusal regresyonda olduğu gibi, aşırı değerler
sonucu önemli derecede etkileyebilir.
•Örneklem Büyüklüğü Yeterli Olmalıdır
Az sayıda birey içeren örneklemde tahmin
edilen değerlerin güvenilirliği azalır.
Kural olarak, modeldeki her bağımsız değişken
için en az 10 birey önerilmektedir.
• Beklenen ve Gözlenen Varyanslar Arasındaki Fark
Bağımlı değişkenin beklenen varyansı ile
gözlenen varyansı arasında büyük bir fark varsa
modelin yetersiz olduğu ve yeniden tanımlanması
gerekir.
Olası nedenler; ya örneklem rastgele yöntemle
seçilmemiştir ya da araştırma düzeninde ciddi
sorun vardır.
LOJİSTİK REGRESYON YÖNTEMLERİ
İÇİN ÖRNEKLER
Örnek 1.
“Hastalığa yakalanma” ile “Yaş” ile arasındaki ilişkiyi
lojistik regresyonla inceleyelim:
Bağımlı değişken : Hastalığa yakalanma:
Bağımsız değişken: Yaş
1.1. Bağımlı ve bağımsız değişkenlerin her ikisi de
“iki kategorili” olarak incelenmek istenirse
aşağıdaki Tabloda verilen düzeni elde ederiz.
Risk
(yaş)
Hastalık
Var Yok
50+ 21 6 27
Regresyon eşitliği y= ‐0.841+2.094 yaş
Odds Ratio = 8.1
Wald testi = 3.96 1 serbestlik derecesinde P
1.2.
Bağımlı Değişken : İki Kategorili
Bağımsız Değişken : İkiden Çok Kategorili
Yukarıdaki örnekte yaşı risk faktörü olarak iki
kategorili (
Risk
Grubu Kod
Hastalık
Var Yok Toplam
Odds
3039 0 4 26 30 4/26=0.154 1
İlk
gruba
karşı
odds
Ratio
4049 1 9 21 30 9/21=0.429 2.79
5059 2 16 14 30 16/14=1.143 7.42
60+ 3 22 8 30 22/8=2.750 17.86
Toplam 51 69 120
Bu analizde, 30‐39 yaş grubu “risksiz
ya da referans grubu” olarak alınmış
ve 0 kodu verilmiştir.
Referans grubuna (30‐39 yaş) göre;
• 40‐49 yaş grubu 2.79 kat,
• 50‐59 yaş grubu 7.42 kat,
• 60+ yaş grubu 17.86 kat
daha risklidir.
Örnek 2.
Demans geliştirmeyi önlemede ya da
gidişatını iyileştirmede antihipertansif
ilaçların etkisini “çok değişkenli lojistik
regresyon” ile incelemek için bir çalışma
planlayalım:
Bu amaçla üç grup oluşturulacaktır:
Sistolik kan basıncı 140+ olup ilaç alanlar
Sistolik kan basıncı 140+ olup ilaç almayanlar
Sistolik kan basıncı normal olanlar
Her hasta grubunda 25 erkek, 25 kadın olmak üzere 50
hasta bulunacaktır.
Gruplardaki bireyler yaş, cinsiyet ve eğitim düzeyi
yönünden benzer olacaktır.
Tüm bireylere başlangıçta MMSE (Mini Mental
State Examination) testi uygulanacak ve 25+ puan
alarak demans negatif (normal) bulunanlar
araştırmaya dahil edilecektir.
Tüm bireyler 5 yıl süreyle her yıl bir kez olmak
üzere sürekli izlenecek ve her izlemde MMSE testi
uygulanacak ve değerlendirilecektir.
Çalışmada kullanılması düşünülen değişkenler
şunlardır:
Bağımlı değişken:MMSE puanı:
≤ 9: Ciddi düzeyde demans
10‐20 : Orta düzeyde
21‐24 : Hafif düzeyde
25+: Demans yok (Normal)
Bağımsız değişkenler:
Yaş: 65‐69, 70‐74
Cinsiyet: Erkek,Kadın
Eğitim: Düşük, orta, yüksek
Antihipertansif ilaç:
Almıyor,
Alıyor
Hasta grubu:
Sistolik kan basıncı 140+ olup ilaç alanlar
Sistolik kan basıncı 140+ olup ilaç almayanlar
Sistolik kan basıncı normal olanlar
BİR SORU:
ARAŞTIRICILAR BİYOİSTATİSTİK UZMANINA NE
ZAMAN BAŞVURMALIDIR?
YANIT: İZLEYEN SLAYTA BAKINIZ
“Araştırma yapıldıktan sonra
Biyoistatistikçiye başvurmak;
ölüye otopsi yapmasını istemekten
Çünkü,
başka bir şey değildir.
Bu aşamada biyoistatistikçi sadece,
araştırmanın neden öldüğünü
söyleyebilir.”
R.A. Fisher