LOJİSTİK REGRESYON ANALİZİ

LOJİSTİK REGRESYON ANALİZİ LOJİSTİK REGRESYON ANALİZİ

<strong>LOJİSTİK</strong> <strong>REGRESYON</strong><br />

<strong>ANALİZİ</strong>


Lojistik Regresyon Analizini daha kolay izleyebilmek<br />

için bazı terimleri tanımlayalım:<br />

1. Değişken (incelenen özellik):<br />

Bireyden bireye farklı değerler alabilen özellik,<br />

fenomen ya da olay<br />

2. Değişkenlerin Ölçüm biçimi:<br />

Ölçüm biçimi yönünden değişkenler iki gruba<br />

ayrılır:<br />

• Nitel (nitelik,kategorik) değişkenler<br />

• Sayısal değişkenler


Nitel değişkenler<br />

Ölçülemez, sadece nitelendirilebilir.<br />

Örneğin;<br />

Sayısal değişkenler:<br />

1. Kesikli sayısal<br />

2. Sürekli sayısal<br />

olarak iki gruba ayrılır.<br />

Cinsiyet : Erkek‐kadın<br />

Hast.sonucu: İyileşti‐iyileşmedi,<br />

Eğitim : İlk‐orta‐lise‐yüksek gibi.


Kesikli sayısal değişkenler:<br />

Belirli bir aralıktaki tam sayıları (10, 74, 187 gibi)<br />

alabilen değişkendir:<br />

Nabız sayısı, Ölen sayısı, Çocuk sayısı gibi.<br />

Sürekli sayısal değişkenler:<br />

Ölçümle belirtilen ve bir aralıkta bütün desimal<br />

değerleri (12.8, 140.6, 60.7 gibi) alabilen<br />

değişkendir.<br />

Kan basıncı ölçümü,<br />

Biyokimyasal ölçümler,<br />

Boy uzunluğu, ağırlık, yaş gibi.


3. Bağımlı değişken:<br />

Diğer değişkenler tarafından etkilenen<br />

değişkendir.<br />

4. Bağımsız değişken:<br />

Bağımlı değişkeni etkileyen değişkendir.<br />

Örnek:<br />

Bağımlı değişken : Hipertansiyon<br />

Bağımsız değişkenler : Yaş, cinsiyet,<br />

biyokimyasal<br />

ve diğer sosyal<br />

değişkenler


<strong>LOJİSTİK</strong><br />

<strong>REGRESYON</strong>


Bilinen doğrusal regresyon analizinde bağımlı<br />

değişken ve bağımsız değişken(ler) sayısal<br />

(ölçümle belirtilen sürekli ya da kesikli sayısal)<br />

olarak belirtilir.<br />

Örneğin, yaş ile kan basıncı arasında bir ilişki<br />

aranacaksa; hem yaş, hem de kan basıncı<br />

sayısal olarak belirtilmelidir.<br />

Nitelik olarak belirtilemezler.


Bağımlı değişken nitelik olarak<br />

belirtilirse,<br />

bağımsız değişken ya da değişkenlerle<br />

arasındaki ilişki lojistik regresyon<br />

yöntemiyle aranır.<br />

İzleyen tabloda doğrusal ve lojistik<br />

regresyon yöntemleri karşılaştırılmıştır:


DEĞİŞKENLER<br />

DOĞRUSAL<br />

<strong>REGRESYON</strong><br />

<strong>ANALİZİ</strong><br />

BAĞIMLI SÜREKLİ SAYISAL<br />

KESİKLİ SAYISAL<br />

BAĞIMSIZ SÜREKLİ SAYISAL<br />

KESİKLİ SAYISAL<br />

<strong>LOJİSTİK</strong><br />

<strong>REGRESYON</strong><br />

<strong>ANALİZİ</strong><br />

NİTELİK<br />

SÜREKLİ SAYISAL<br />

KESİKLİ SAYISAL<br />

NİTELİK<br />

(Her bağımsız<br />

değişken başka bir<br />

ölçüm biçimine de<br />

sahip olabilir)


Nitelik bağımlı değişken:<br />

2 Kategorili olabilir : İyileşti‐iyileşmedi, yaşıyor‐<br />

(Binominal) öldü, etkili‐ etkisiz gibi.<br />

2+ Kategorili sırasız olabilir: Çalışıyor, çalışmıyor, emekli<br />

(Multinominal) gibi<br />

2+ Kategorili sıralı olabilir : Çok etkili‐orta derecede etkili‐<br />

(Ordinal) etkisiz gibi<br />

Her durumda lojistik regresyon analizi uygulanabilir.


Lojistik regresyonun uygulandığı<br />

durumlar:<br />

Bağımlı değişkenin kategori sayısına göre<br />

uygulanacak yöntem farklıdır.<br />

En çok uygulandığı durum bağımlı değişkenin iki<br />

kategorili (iyileşti‐iyileşmedi gibi) olduğu<br />

durumdur.<br />

İzleyen tabloyu inceleyelim:


Bağımlı<br />

Değişken<br />

Kategori<br />

Sayısı<br />

Bağımsız<br />

Değişken<br />

Sayısı<br />

Bağımsız<br />

Değişkenin<br />

Kategori Sayısı<br />

2 1 2<br />

2 1 2+<br />

2 2+ Çeşitli<br />

2+ sırasız Tek/çok Çeşitli<br />

2+ sıralı Tek/çok Çeşitli<br />

Uygulanacak<br />

Yöntem<br />

Binominal lojistik<br />

regresyon<br />

Binominal lojistik<br />

regresyon<br />

Çok değişkenli<br />

lojistik regresyon<br />

Multinominal<br />

lojistik regresyon<br />

Ordinal<br />

lojistik regresyon


Lojistik regresyon yönteminin hedefi, bağımlı<br />

değişkenin sonucunu tahmin edebilecek en<br />

sade modeli bulmaktır.<br />

Lojistik regresyon analizi sonucunda elde<br />

edilen modelin uygun olup olmadığı “model<br />

ki‐kare” testi ile,<br />

Her bir bağımsız değişkenin modelde<br />

varlığının anlamlı olup olmadığı ise Wald<br />

istatistiği ile test edilir.


TANIMLAR<br />

Lojistik Regresyon ile ilgili bazı terimleri<br />

tanımlayalım:


Odds, odds ratio ve lojit<br />

Bu terimler, lojistik regresyonda önemli temel<br />

terimlerdir.<br />

Odds<br />

Odds başarı ya da görülme olasılığının “p”,<br />

başarısızlık ya da görülmeme olasılığına “1­p”<br />

oranıdır.<br />

Odds ratio (OR)<br />

İki odds’un birbirine oranıdır. İki değişken<br />

arasındaki ilişkinin özet bir ölçüsüdür.<br />

İzleyen tabloyu inceleyelim:


Risk<br />

Hastalık<br />

Var Yok<br />

Toplam<br />

Var 35 16 51<br />

Yok 25 61 86<br />

Toplam 60 77 137<br />

Riskli olanlarda hastalığa yakalanma odds’u:<br />

35/16= 2.18,<br />

Risksiz olanlarda hastalığa yakalanma odds’u:<br />

25/61= 0.41’dir.


Bu iki odds’un birbirine oranı odds ratio’yu<br />

verir:<br />

Odds ratio=2.18/ 0.41 = 5.3<br />

Yorum:<br />

Risk altında olanların hastalığa yakalanma<br />

riski, risk altında olmayanlara göre 5.3 kat<br />

daha fazladır.


Lojit<br />

Odds ratio’nun doğal logaritmasıdır.<br />

Odds ratio asimetriktir. Doğal logaritması alınarak<br />

simetrik hale dönüştürülür.<br />

Lojit katsayıları (lojit) doğrusal regresyon<br />

analizindeki “β” katsayısının karşılığıdır.<br />

Paket programlar “β” katsayısının standart hatasını,<br />

anlamlılık için Wald istatistiğini, odds ratio ve odds<br />

ratio’nun güven aralığını vermektedir.


VARSAYIMLAR<br />

Lojistik regresyon yönteminde doğrusal<br />

regresyon analizindeki varsayımların<br />

hiçbirisi aranmaz.<br />

Bu nedenle araştırıcılara önemli esneklik<br />

sağlamaktadır ve daha fazla tercih edilen bir<br />

yöntem haline gelmiştir.<br />

Ancak, aşağıda belirtilen noktalar lojistik<br />

regresyon analizi kullanılarak yapılacak<br />

araştırmalarda dikkate alınmalıdır:


• Uygun Tüm Bağımsız Değişkenler Modele Dahil<br />

Edilmelidir<br />

Bazı değişkenlerin modele dahil edilmemesi hata<br />

teriminin büyümesine ve modelin yetersizliğine<br />

neden olabilir.<br />

• Uygun Olmayan Tüm Bağımsız Değişkenler<br />

Dışlanmalıdır<br />

Nedensel olarak uygun olmayan değişkenlerin<br />

modele dahil edilmesi; modeli komplike yapabilir,<br />

modelin yorumlanmasının zorlaştırabilir, bu<br />

değişkenlerin bağımlı değişken üzerinde pay sahibi<br />

imiş gibi yanlış izlenim vermesine neden olabilir.


• Aynı birey üzerinde bir kez gözlem<br />

yapılmalı, tekrarlayan ölçümler olmamalıdır.<br />

• Bağımsız Değişkenlerde Ölçüm Hatası Küçük<br />

Olmalıdır<br />

Ölçüm hataları küçük olmalı, kayıp (eksik) veri<br />

olmamalıdır.<br />

Hatalar, katsayıların tahmininde yanlılığa ve modelin<br />

yetersizliğine neden olur.


• Bağımsız Değişkenler Arasında Çoklu Bağlantı<br />

(Multicollinearity) Olmamalıdır<br />

Bağımsız değişkenler birbirleriyle ilişkili olmamalıdır.<br />

•Aşırı Değerler Olmamalıdır<br />

Doğrusal regresyonda olduğu gibi, aşırı değerler<br />

sonucu önemli derecede etkileyebilir.


•Örneklem Büyüklüğü Yeterli Olmalıdır<br />

Az sayıda birey içeren örneklemde tahmin<br />

edilen değerlerin güvenilirliği azalır.<br />

Kural olarak, modeldeki her bağımsız değişken<br />

için en az 10 birey önerilmektedir.


• Beklenen ve Gözlenen Varyanslar Arasındaki Fark<br />

Bağımlı değişkenin beklenen varyansı ile<br />

gözlenen varyansı arasında büyük bir fark varsa<br />

modelin yetersiz olduğu ve yeniden tanımlanması<br />

gerekir.<br />

Olası nedenler; ya örneklem rastgele yöntemle<br />

seçilmemiştir ya da araştırma düzeninde ciddi<br />

sorun vardır.


<strong>LOJİSTİK</strong> <strong>REGRESYON</strong> YÖNTEMLERİ<br />

İÇİN ÖRNEKLER


Örnek 1.<br />

“Hastalığa yakalanma” ile “Yaş” ile arasındaki ilişkiyi<br />

lojistik regresyonla inceleyelim:<br />

Bağımlı değişken : Hastalığa yakalanma:<br />

Bağımsız değişken: Yaş<br />

1.1. Bağımlı ve bağımsız değişkenlerin her ikisi de<br />

“iki kategorili” olarak incelenmek istenirse<br />

aşağıdaki Tabloda verilen düzeni elde ederiz.


Risk<br />

(yaş)<br />

Hastalık<br />

Var Yok<br />

50+ 21 6 27<br />


Regresyon eşitliği y= ‐0.841+2.094 yaş<br />

Odds Ratio = 8.1<br />

Wald testi = 3.96 1 serbestlik derecesinde P


1.2.<br />

Bağımlı Değişken : İki Kategorili<br />

Bağımsız Değişken : İkiden Çok Kategorili<br />

Yukarıdaki örnekte yaşı risk faktörü olarak iki<br />

kategorili (


Risk<br />

Grubu Kod<br />

Hastalık<br />

Var Yok Toplam<br />

Odds<br />

30­39 0 4 26 30 4/26=0.154 1<br />

İlk<br />

gruba<br />

karşı<br />

odds<br />

Ratio<br />

40­49 1 9 21 30 9/21=0.429 2.79<br />

50­59 2 16 14 30 16/14=1.143 7.42<br />

60+ 3 22 8 30 22/8=2.750 17.86<br />

Toplam 51 69 120


Bu analizde, 30‐39 yaş grubu “risksiz<br />

ya da referans grubu” olarak alınmış<br />

ve 0 kodu verilmiştir.<br />

Referans grubuna (30‐39 yaş) göre;<br />

• 40‐49 yaş grubu 2.79 kat,<br />

• 50‐59 yaş grubu 7.42 kat,<br />

• 60+ yaş grubu 17.86 kat<br />

daha risklidir.


Örnek 2.<br />

Demans geliştirmeyi önlemede ya da<br />

gidişatını iyileştirmede antihipertansif<br />

ilaçların etkisini “çok değişkenli lojistik<br />

regresyon” ile incelemek için bir çalışma<br />

planlayalım:


Bu amaçla üç grup oluşturulacaktır:<br />

Sistolik kan basıncı 140+ olup ilaç alanlar<br />

Sistolik kan basıncı 140+ olup ilaç almayanlar<br />

Sistolik kan basıncı normal olanlar<br />

Her hasta grubunda 25 erkek, 25 kadın olmak üzere 50<br />

hasta bulunacaktır.<br />

Gruplardaki bireyler yaş, cinsiyet ve eğitim düzeyi<br />

yönünden benzer olacaktır.


Tüm bireylere başlangıçta MMSE (Mini Mental<br />

State Examination) testi uygulanacak ve 25+ puan<br />

alarak demans negatif (normal) bulunanlar<br />

araştırmaya dahil edilecektir.<br />

Tüm bireyler 5 yıl süreyle her yıl bir kez olmak<br />

üzere sürekli izlenecek ve her izlemde MMSE testi<br />

uygulanacak ve değerlendirilecektir.<br />

Çalışmada kullanılması düşünülen değişkenler<br />

şunlardır:


Bağımlı değişken:MMSE puanı:<br />

≤ 9: Ciddi düzeyde demans<br />

10‐20 : Orta düzeyde<br />

21‐24 : Hafif düzeyde<br />

25+: Demans yok (Normal)<br />

Bağımsız değişkenler:<br />

Yaş: 65‐69, 70‐74<br />

Cinsiyet: Erkek,Kadın<br />

Eğitim: Düşük, orta, yüksek<br />

Antihipertansif ilaç:<br />

Almıyor,<br />

Alıyor<br />

Hasta grubu:<br />

Sistolik kan basıncı 140+ olup ilaç alanlar<br />

Sistolik kan basıncı 140+ olup ilaç almayanlar<br />

Sistolik kan basıncı normal olanlar


BİR SORU:<br />

ARAŞTIRICILAR BİYOİSTATİSTİK UZMANINA NE<br />

ZAMAN BAŞVURMALIDIR?<br />

YANIT: İZLEYEN SLAYTA BAKINIZ


“Araştırma yapıldıktan sonra<br />

Biyoistatistikçiye başvurmak;<br />

ölüye otopsi yapmasını istemekten<br />

Çünkü,<br />

başka bir şey değildir.<br />

Bu aşamada biyoistatistikçi sadece,<br />

araştırmanın neden öldüğünü<br />

söyleyebilir.”<br />

R.A. Fisher

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!