LOJİSTİK REGRESYON ANALİZİ
LOJİSTİK REGRESYON ANALİZİ LOJİSTİK REGRESYON ANALİZİ
LOJİSTİK REGRESYON ANALİZİ
- Page 2 and 3: Lojistik Regresyon Analizini daha k
- Page 4 and 5: Kesikli sayısal değişkenler: Bel
- Page 6 and 7: LOJİSTİK REGRESYON
- Page 8 and 9: Bağımlı değişken nitelik olara
- Page 10 and 11: Nitelik bağımlı değişken: 2 Ka
- Page 12 and 13: Bağımlı Değişken Kategori Say
- Page 14 and 15: TANIMLAR Lojistik Regresyon ile ilg
- Page 16 and 17: Risk Hastalık Var Yok Toplam Var 3
- Page 18 and 19: Lojit Odds ratio’nun doğal logar
- Page 20 and 21: • Uygun Tüm Bağımsız Değişk
- Page 22 and 23: • Bağımsız Değişkenler Aras
- Page 24 and 25: • Beklenen ve Gözlenen Varyansla
- Page 26 and 27: Örnek 1. “Hastalığa yakalanma
- Page 28 and 29: Regresyon eşitliği y= ‐0.841+2.
- Page 30 and 31: Risk Grubu Kod Hastalık Var Yok To
- Page 32 and 33: Örnek 2. Demans geliştirmeyi önl
- Page 34 and 35: Tüm bireylere başlangıçta MMSE
- Page 36 and 37: BİR SORU: ARAŞTIRICILAR BİYOİST
<strong>LOJİSTİK</strong> <strong>REGRESYON</strong><br />
<strong>ANALİZİ</strong>
Lojistik Regresyon Analizini daha kolay izleyebilmek<br />
için bazı terimleri tanımlayalım:<br />
1. Değişken (incelenen özellik):<br />
Bireyden bireye farklı değerler alabilen özellik,<br />
fenomen ya da olay<br />
2. Değişkenlerin Ölçüm biçimi:<br />
Ölçüm biçimi yönünden değişkenler iki gruba<br />
ayrılır:<br />
• Nitel (nitelik,kategorik) değişkenler<br />
• Sayısal değişkenler
Nitel değişkenler<br />
Ölçülemez, sadece nitelendirilebilir.<br />
Örneğin;<br />
Sayısal değişkenler:<br />
1. Kesikli sayısal<br />
2. Sürekli sayısal<br />
olarak iki gruba ayrılır.<br />
Cinsiyet : Erkek‐kadın<br />
Hast.sonucu: İyileşti‐iyileşmedi,<br />
Eğitim : İlk‐orta‐lise‐yüksek gibi.
Kesikli sayısal değişkenler:<br />
Belirli bir aralıktaki tam sayıları (10, 74, 187 gibi)<br />
alabilen değişkendir:<br />
Nabız sayısı, Ölen sayısı, Çocuk sayısı gibi.<br />
Sürekli sayısal değişkenler:<br />
Ölçümle belirtilen ve bir aralıkta bütün desimal<br />
değerleri (12.8, 140.6, 60.7 gibi) alabilen<br />
değişkendir.<br />
Kan basıncı ölçümü,<br />
Biyokimyasal ölçümler,<br />
Boy uzunluğu, ağırlık, yaş gibi.
3. Bağımlı değişken:<br />
Diğer değişkenler tarafından etkilenen<br />
değişkendir.<br />
4. Bağımsız değişken:<br />
Bağımlı değişkeni etkileyen değişkendir.<br />
Örnek:<br />
Bağımlı değişken : Hipertansiyon<br />
Bağımsız değişkenler : Yaş, cinsiyet,<br />
biyokimyasal<br />
ve diğer sosyal<br />
değişkenler
<strong>LOJİSTİK</strong><br />
<strong>REGRESYON</strong>
Bilinen doğrusal regresyon analizinde bağımlı<br />
değişken ve bağımsız değişken(ler) sayısal<br />
(ölçümle belirtilen sürekli ya da kesikli sayısal)<br />
olarak belirtilir.<br />
Örneğin, yaş ile kan basıncı arasında bir ilişki<br />
aranacaksa; hem yaş, hem de kan basıncı<br />
sayısal olarak belirtilmelidir.<br />
Nitelik olarak belirtilemezler.
Bağımlı değişken nitelik olarak<br />
belirtilirse,<br />
bağımsız değişken ya da değişkenlerle<br />
arasındaki ilişki lojistik regresyon<br />
yöntemiyle aranır.<br />
İzleyen tabloda doğrusal ve lojistik<br />
regresyon yöntemleri karşılaştırılmıştır:
DEĞİŞKENLER<br />
DOĞRUSAL<br />
<strong>REGRESYON</strong><br />
<strong>ANALİZİ</strong><br />
BAĞIMLI SÜREKLİ SAYISAL<br />
KESİKLİ SAYISAL<br />
BAĞIMSIZ SÜREKLİ SAYISAL<br />
KESİKLİ SAYISAL<br />
<strong>LOJİSTİK</strong><br />
<strong>REGRESYON</strong><br />
<strong>ANALİZİ</strong><br />
NİTELİK<br />
SÜREKLİ SAYISAL<br />
KESİKLİ SAYISAL<br />
NİTELİK<br />
(Her bağımsız<br />
değişken başka bir<br />
ölçüm biçimine de<br />
sahip olabilir)
Nitelik bağımlı değişken:<br />
2 Kategorili olabilir : İyileşti‐iyileşmedi, yaşıyor‐<br />
(Binominal) öldü, etkili‐ etkisiz gibi.<br />
2+ Kategorili sırasız olabilir: Çalışıyor, çalışmıyor, emekli<br />
(Multinominal) gibi<br />
2+ Kategorili sıralı olabilir : Çok etkili‐orta derecede etkili‐<br />
(Ordinal) etkisiz gibi<br />
Her durumda lojistik regresyon analizi uygulanabilir.
Lojistik regresyonun uygulandığı<br />
durumlar:<br />
Bağımlı değişkenin kategori sayısına göre<br />
uygulanacak yöntem farklıdır.<br />
En çok uygulandığı durum bağımlı değişkenin iki<br />
kategorili (iyileşti‐iyileşmedi gibi) olduğu<br />
durumdur.<br />
İzleyen tabloyu inceleyelim:
Bağımlı<br />
Değişken<br />
Kategori<br />
Sayısı<br />
Bağımsız<br />
Değişken<br />
Sayısı<br />
Bağımsız<br />
Değişkenin<br />
Kategori Sayısı<br />
2 1 2<br />
2 1 2+<br />
2 2+ Çeşitli<br />
2+ sırasız Tek/çok Çeşitli<br />
2+ sıralı Tek/çok Çeşitli<br />
Uygulanacak<br />
Yöntem<br />
Binominal lojistik<br />
regresyon<br />
Binominal lojistik<br />
regresyon<br />
Çok değişkenli<br />
lojistik regresyon<br />
Multinominal<br />
lojistik regresyon<br />
Ordinal<br />
lojistik regresyon
Lojistik regresyon yönteminin hedefi, bağımlı<br />
değişkenin sonucunu tahmin edebilecek en<br />
sade modeli bulmaktır.<br />
Lojistik regresyon analizi sonucunda elde<br />
edilen modelin uygun olup olmadığı “model<br />
ki‐kare” testi ile,<br />
Her bir bağımsız değişkenin modelde<br />
varlığının anlamlı olup olmadığı ise Wald<br />
istatistiği ile test edilir.
TANIMLAR<br />
Lojistik Regresyon ile ilgili bazı terimleri<br />
tanımlayalım:
Odds, odds ratio ve lojit<br />
Bu terimler, lojistik regresyonda önemli temel<br />
terimlerdir.<br />
Odds<br />
Odds başarı ya da görülme olasılığının “p”,<br />
başarısızlık ya da görülmeme olasılığına “1p”<br />
oranıdır.<br />
Odds ratio (OR)<br />
İki odds’un birbirine oranıdır. İki değişken<br />
arasındaki ilişkinin özet bir ölçüsüdür.<br />
İzleyen tabloyu inceleyelim:
Risk<br />
Hastalık<br />
Var Yok<br />
Toplam<br />
Var 35 16 51<br />
Yok 25 61 86<br />
Toplam 60 77 137<br />
Riskli olanlarda hastalığa yakalanma odds’u:<br />
35/16= 2.18,<br />
Risksiz olanlarda hastalığa yakalanma odds’u:<br />
25/61= 0.41’dir.
Bu iki odds’un birbirine oranı odds ratio’yu<br />
verir:<br />
Odds ratio=2.18/ 0.41 = 5.3<br />
Yorum:<br />
Risk altında olanların hastalığa yakalanma<br />
riski, risk altında olmayanlara göre 5.3 kat<br />
daha fazladır.
Lojit<br />
Odds ratio’nun doğal logaritmasıdır.<br />
Odds ratio asimetriktir. Doğal logaritması alınarak<br />
simetrik hale dönüştürülür.<br />
Lojit katsayıları (lojit) doğrusal regresyon<br />
analizindeki “β” katsayısının karşılığıdır.<br />
Paket programlar “β” katsayısının standart hatasını,<br />
anlamlılık için Wald istatistiğini, odds ratio ve odds<br />
ratio’nun güven aralığını vermektedir.
VARSAYIMLAR<br />
Lojistik regresyon yönteminde doğrusal<br />
regresyon analizindeki varsayımların<br />
hiçbirisi aranmaz.<br />
Bu nedenle araştırıcılara önemli esneklik<br />
sağlamaktadır ve daha fazla tercih edilen bir<br />
yöntem haline gelmiştir.<br />
Ancak, aşağıda belirtilen noktalar lojistik<br />
regresyon analizi kullanılarak yapılacak<br />
araştırmalarda dikkate alınmalıdır:
• Uygun Tüm Bağımsız Değişkenler Modele Dahil<br />
Edilmelidir<br />
Bazı değişkenlerin modele dahil edilmemesi hata<br />
teriminin büyümesine ve modelin yetersizliğine<br />
neden olabilir.<br />
• Uygun Olmayan Tüm Bağımsız Değişkenler<br />
Dışlanmalıdır<br />
Nedensel olarak uygun olmayan değişkenlerin<br />
modele dahil edilmesi; modeli komplike yapabilir,<br />
modelin yorumlanmasının zorlaştırabilir, bu<br />
değişkenlerin bağımlı değişken üzerinde pay sahibi<br />
imiş gibi yanlış izlenim vermesine neden olabilir.
• Aynı birey üzerinde bir kez gözlem<br />
yapılmalı, tekrarlayan ölçümler olmamalıdır.<br />
• Bağımsız Değişkenlerde Ölçüm Hatası Küçük<br />
Olmalıdır<br />
Ölçüm hataları küçük olmalı, kayıp (eksik) veri<br />
olmamalıdır.<br />
Hatalar, katsayıların tahmininde yanlılığa ve modelin<br />
yetersizliğine neden olur.
• Bağımsız Değişkenler Arasında Çoklu Bağlantı<br />
(Multicollinearity) Olmamalıdır<br />
Bağımsız değişkenler birbirleriyle ilişkili olmamalıdır.<br />
•Aşırı Değerler Olmamalıdır<br />
Doğrusal regresyonda olduğu gibi, aşırı değerler<br />
sonucu önemli derecede etkileyebilir.
•Örneklem Büyüklüğü Yeterli Olmalıdır<br />
Az sayıda birey içeren örneklemde tahmin<br />
edilen değerlerin güvenilirliği azalır.<br />
Kural olarak, modeldeki her bağımsız değişken<br />
için en az 10 birey önerilmektedir.
• Beklenen ve Gözlenen Varyanslar Arasındaki Fark<br />
Bağımlı değişkenin beklenen varyansı ile<br />
gözlenen varyansı arasında büyük bir fark varsa<br />
modelin yetersiz olduğu ve yeniden tanımlanması<br />
gerekir.<br />
Olası nedenler; ya örneklem rastgele yöntemle<br />
seçilmemiştir ya da araştırma düzeninde ciddi<br />
sorun vardır.
<strong>LOJİSTİK</strong> <strong>REGRESYON</strong> YÖNTEMLERİ<br />
İÇİN ÖRNEKLER
Örnek 1.<br />
“Hastalığa yakalanma” ile “Yaş” ile arasındaki ilişkiyi<br />
lojistik regresyonla inceleyelim:<br />
Bağımlı değişken : Hastalığa yakalanma:<br />
Bağımsız değişken: Yaş<br />
1.1. Bağımlı ve bağımsız değişkenlerin her ikisi de<br />
“iki kategorili” olarak incelenmek istenirse<br />
aşağıdaki Tabloda verilen düzeni elde ederiz.
Risk<br />
(yaş)<br />
Hastalık<br />
Var Yok<br />
50+ 21 6 27<br />
Regresyon eşitliği y= ‐0.841+2.094 yaş<br />
Odds Ratio = 8.1<br />
Wald testi = 3.96 1 serbestlik derecesinde P
1.2.<br />
Bağımlı Değişken : İki Kategorili<br />
Bağımsız Değişken : İkiden Çok Kategorili<br />
Yukarıdaki örnekte yaşı risk faktörü olarak iki<br />
kategorili (
Risk<br />
Grubu Kod<br />
Hastalık<br />
Var Yok Toplam<br />
Odds<br />
3039 0 4 26 30 4/26=0.154 1<br />
İlk<br />
gruba<br />
karşı<br />
odds<br />
Ratio<br />
4049 1 9 21 30 9/21=0.429 2.79<br />
5059 2 16 14 30 16/14=1.143 7.42<br />
60+ 3 22 8 30 22/8=2.750 17.86<br />
Toplam 51 69 120
Bu analizde, 30‐39 yaş grubu “risksiz<br />
ya da referans grubu” olarak alınmış<br />
ve 0 kodu verilmiştir.<br />
Referans grubuna (30‐39 yaş) göre;<br />
• 40‐49 yaş grubu 2.79 kat,<br />
• 50‐59 yaş grubu 7.42 kat,<br />
• 60+ yaş grubu 17.86 kat<br />
daha risklidir.
Örnek 2.<br />
Demans geliştirmeyi önlemede ya da<br />
gidişatını iyileştirmede antihipertansif<br />
ilaçların etkisini “çok değişkenli lojistik<br />
regresyon” ile incelemek için bir çalışma<br />
planlayalım:
Bu amaçla üç grup oluşturulacaktır:<br />
Sistolik kan basıncı 140+ olup ilaç alanlar<br />
Sistolik kan basıncı 140+ olup ilaç almayanlar<br />
Sistolik kan basıncı normal olanlar<br />
Her hasta grubunda 25 erkek, 25 kadın olmak üzere 50<br />
hasta bulunacaktır.<br />
Gruplardaki bireyler yaş, cinsiyet ve eğitim düzeyi<br />
yönünden benzer olacaktır.
Tüm bireylere başlangıçta MMSE (Mini Mental<br />
State Examination) testi uygulanacak ve 25+ puan<br />
alarak demans negatif (normal) bulunanlar<br />
araştırmaya dahil edilecektir.<br />
Tüm bireyler 5 yıl süreyle her yıl bir kez olmak<br />
üzere sürekli izlenecek ve her izlemde MMSE testi<br />
uygulanacak ve değerlendirilecektir.<br />
Çalışmada kullanılması düşünülen değişkenler<br />
şunlardır:
Bağımlı değişken:MMSE puanı:<br />
≤ 9: Ciddi düzeyde demans<br />
10‐20 : Orta düzeyde<br />
21‐24 : Hafif düzeyde<br />
25+: Demans yok (Normal)<br />
Bağımsız değişkenler:<br />
Yaş: 65‐69, 70‐74<br />
Cinsiyet: Erkek,Kadın<br />
Eğitim: Düşük, orta, yüksek<br />
Antihipertansif ilaç:<br />
Almıyor,<br />
Alıyor<br />
Hasta grubu:<br />
Sistolik kan basıncı 140+ olup ilaç alanlar<br />
Sistolik kan basıncı 140+ olup ilaç almayanlar<br />
Sistolik kan basıncı normal olanlar
BİR SORU:<br />
ARAŞTIRICILAR BİYOİSTATİSTİK UZMANINA NE<br />
ZAMAN BAŞVURMALIDIR?<br />
YANIT: İZLEYEN SLAYTA BAKINIZ
“Araştırma yapıldıktan sonra<br />
Biyoistatistikçiye başvurmak;<br />
ölüye otopsi yapmasını istemekten<br />
Çünkü,<br />
başka bir şey değildir.<br />
Bu aşamada biyoistatistikçi sadece,<br />
araştırmanın neden öldüğünü<br />
söyleyebilir.”<br />
R.A. Fisher