27.06.2013 Views

LOJİSTİK REGRESYON ANALİZİ

LOJİSTİK REGRESYON ANALİZİ

LOJİSTİK REGRESYON ANALİZİ

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>LOJİSTİK</strong> <strong>REGRESYON</strong><br />

<strong>ANALİZİ</strong>


Lojistik Regresyon Analizini daha kolay izleyebilmek<br />

için bazı terimleri tanımlayalım:<br />

1. Değişken (incelenen özellik):<br />

Bireyden bireye farklı değerler alabilen özellik,<br />

fenomen ya da olay<br />

2. Değişkenlerin Ölçüm biçimi:<br />

Ölçüm biçimi yönünden değişkenler iki gruba<br />

ayrılır:<br />

• Nitel (nitelik,kategorik) değişkenler<br />

• Sayısal değişkenler


Nitel değişkenler<br />

Ölçülemez, sadece nitelendirilebilir.<br />

Örneğin;<br />

Sayısal değişkenler:<br />

1. Kesikli sayısal<br />

2. Sürekli sayısal<br />

olarak iki gruba ayrılır.<br />

Cinsiyet : Erkek‐kadın<br />

Hast.sonucu: İyileşti‐iyileşmedi,<br />

Eğitim : İlk‐orta‐lise‐yüksek gibi.


Kesikli sayısal değişkenler:<br />

Belirli bir aralıktaki tam sayıları (10, 74, 187 gibi)<br />

alabilen değişkendir:<br />

Nabız sayısı, Ölen sayısı, Çocuk sayısı gibi.<br />

Sürekli sayısal değişkenler:<br />

Ölçümle belirtilen ve bir aralıkta bütün desimal<br />

değerleri (12.8, 140.6, 60.7 gibi) alabilen<br />

değişkendir.<br />

Kan basıncı ölçümü,<br />

Biyokimyasal ölçümler,<br />

Boy uzunluğu, ağırlık, yaş gibi.


3. Bağımlı değişken:<br />

Diğer değişkenler tarafından etkilenen<br />

değişkendir.<br />

4. Bağımsız değişken:<br />

Bağımlı değişkeni etkileyen değişkendir.<br />

Örnek:<br />

Bağımlı değişken : Hipertansiyon<br />

Bağımsız değişkenler : Yaş, cinsiyet,<br />

biyokimyasal<br />

ve diğer sosyal<br />

değişkenler


<strong>LOJİSTİK</strong><br />

<strong>REGRESYON</strong>


Bilinen doğrusal regresyon analizinde bağımlı<br />

değişken ve bağımsız değişken(ler) sayısal<br />

(ölçümle belirtilen sürekli ya da kesikli sayısal)<br />

olarak belirtilir.<br />

Örneğin, yaş ile kan basıncı arasında bir ilişki<br />

aranacaksa; hem yaş, hem de kan basıncı<br />

sayısal olarak belirtilmelidir.<br />

Nitelik olarak belirtilemezler.


Bağımlı değişken nitelik olarak<br />

belirtilirse,<br />

bağımsız değişken ya da değişkenlerle<br />

arasındaki ilişki lojistik regresyon<br />

yöntemiyle aranır.<br />

İzleyen tabloda doğrusal ve lojistik<br />

regresyon yöntemleri karşılaştırılmıştır:


DEĞİŞKENLER<br />

DOĞRUSAL<br />

<strong>REGRESYON</strong><br />

<strong>ANALİZİ</strong><br />

BAĞIMLI SÜREKLİ SAYISAL<br />

KESİKLİ SAYISAL<br />

BAĞIMSIZ SÜREKLİ SAYISAL<br />

KESİKLİ SAYISAL<br />

<strong>LOJİSTİK</strong><br />

<strong>REGRESYON</strong><br />

<strong>ANALİZİ</strong><br />

NİTELİK<br />

SÜREKLİ SAYISAL<br />

KESİKLİ SAYISAL<br />

NİTELİK<br />

(Her bağımsız<br />

değişken başka bir<br />

ölçüm biçimine de<br />

sahip olabilir)


Nitelik bağımlı değişken:<br />

2 Kategorili olabilir : İyileşti‐iyileşmedi, yaşıyor‐<br />

(Binominal) öldü, etkili‐ etkisiz gibi.<br />

2+ Kategorili sırasız olabilir: Çalışıyor, çalışmıyor, emekli<br />

(Multinominal) gibi<br />

2+ Kategorili sıralı olabilir : Çok etkili‐orta derecede etkili‐<br />

(Ordinal) etkisiz gibi<br />

Her durumda lojistik regresyon analizi uygulanabilir.


Lojistik regresyonun uygulandığı<br />

durumlar:<br />

Bağımlı değişkenin kategori sayısına göre<br />

uygulanacak yöntem farklıdır.<br />

En çok uygulandığı durum bağımlı değişkenin iki<br />

kategorili (iyileşti‐iyileşmedi gibi) olduğu<br />

durumdur.<br />

İzleyen tabloyu inceleyelim:


Bağımlı<br />

Değişken<br />

Kategori<br />

Sayısı<br />

Bağımsız<br />

Değişken<br />

Sayısı<br />

Bağımsız<br />

Değişkenin<br />

Kategori Sayısı<br />

2 1 2<br />

2 1 2+<br />

2 2+ Çeşitli<br />

2+ sırasız Tek/çok Çeşitli<br />

2+ sıralı Tek/çok Çeşitli<br />

Uygulanacak<br />

Yöntem<br />

Binominal lojistik<br />

regresyon<br />

Binominal lojistik<br />

regresyon<br />

Çok değişkenli<br />

lojistik regresyon<br />

Multinominal<br />

lojistik regresyon<br />

Ordinal<br />

lojistik regresyon


Lojistik regresyon yönteminin hedefi, bağımlı<br />

değişkenin sonucunu tahmin edebilecek en<br />

sade modeli bulmaktır.<br />

Lojistik regresyon analizi sonucunda elde<br />

edilen modelin uygun olup olmadığı “model<br />

ki‐kare” testi ile,<br />

Her bir bağımsız değişkenin modelde<br />

varlığının anlamlı olup olmadığı ise Wald<br />

istatistiği ile test edilir.


TANIMLAR<br />

Lojistik Regresyon ile ilgili bazı terimleri<br />

tanımlayalım:


Odds, odds ratio ve lojit<br />

Bu terimler, lojistik regresyonda önemli temel<br />

terimlerdir.<br />

Odds<br />

Odds başarı ya da görülme olasılığının “p”,<br />

başarısızlık ya da görülmeme olasılığına “1­p”<br />

oranıdır.<br />

Odds ratio (OR)<br />

İki odds’un birbirine oranıdır. İki değişken<br />

arasındaki ilişkinin özet bir ölçüsüdür.<br />

İzleyen tabloyu inceleyelim:


Risk<br />

Hastalık<br />

Var Yok<br />

Toplam<br />

Var 35 16 51<br />

Yok 25 61 86<br />

Toplam 60 77 137<br />

Riskli olanlarda hastalığa yakalanma odds’u:<br />

35/16= 2.18,<br />

Risksiz olanlarda hastalığa yakalanma odds’u:<br />

25/61= 0.41’dir.


Bu iki odds’un birbirine oranı odds ratio’yu<br />

verir:<br />

Odds ratio=2.18/ 0.41 = 5.3<br />

Yorum:<br />

Risk altında olanların hastalığa yakalanma<br />

riski, risk altında olmayanlara göre 5.3 kat<br />

daha fazladır.


Lojit<br />

Odds ratio’nun doğal logaritmasıdır.<br />

Odds ratio asimetriktir. Doğal logaritması alınarak<br />

simetrik hale dönüştürülür.<br />

Lojit katsayıları (lojit) doğrusal regresyon<br />

analizindeki “β” katsayısının karşılığıdır.<br />

Paket programlar “β” katsayısının standart hatasını,<br />

anlamlılık için Wald istatistiğini, odds ratio ve odds<br />

ratio’nun güven aralığını vermektedir.


VARSAYIMLAR<br />

Lojistik regresyon yönteminde doğrusal<br />

regresyon analizindeki varsayımların<br />

hiçbirisi aranmaz.<br />

Bu nedenle araştırıcılara önemli esneklik<br />

sağlamaktadır ve daha fazla tercih edilen bir<br />

yöntem haline gelmiştir.<br />

Ancak, aşağıda belirtilen noktalar lojistik<br />

regresyon analizi kullanılarak yapılacak<br />

araştırmalarda dikkate alınmalıdır:


• Uygun Tüm Bağımsız Değişkenler Modele Dahil<br />

Edilmelidir<br />

Bazı değişkenlerin modele dahil edilmemesi hata<br />

teriminin büyümesine ve modelin yetersizliğine<br />

neden olabilir.<br />

• Uygun Olmayan Tüm Bağımsız Değişkenler<br />

Dışlanmalıdır<br />

Nedensel olarak uygun olmayan değişkenlerin<br />

modele dahil edilmesi; modeli komplike yapabilir,<br />

modelin yorumlanmasının zorlaştırabilir, bu<br />

değişkenlerin bağımlı değişken üzerinde pay sahibi<br />

imiş gibi yanlış izlenim vermesine neden olabilir.


• Aynı birey üzerinde bir kez gözlem<br />

yapılmalı, tekrarlayan ölçümler olmamalıdır.<br />

• Bağımsız Değişkenlerde Ölçüm Hatası Küçük<br />

Olmalıdır<br />

Ölçüm hataları küçük olmalı, kayıp (eksik) veri<br />

olmamalıdır.<br />

Hatalar, katsayıların tahmininde yanlılığa ve modelin<br />

yetersizliğine neden olur.


• Bağımsız Değişkenler Arasında Çoklu Bağlantı<br />

(Multicollinearity) Olmamalıdır<br />

Bağımsız değişkenler birbirleriyle ilişkili olmamalıdır.<br />

•Aşırı Değerler Olmamalıdır<br />

Doğrusal regresyonda olduğu gibi, aşırı değerler<br />

sonucu önemli derecede etkileyebilir.


•Örneklem Büyüklüğü Yeterli Olmalıdır<br />

Az sayıda birey içeren örneklemde tahmin<br />

edilen değerlerin güvenilirliği azalır.<br />

Kural olarak, modeldeki her bağımsız değişken<br />

için en az 10 birey önerilmektedir.


• Beklenen ve Gözlenen Varyanslar Arasındaki Fark<br />

Bağımlı değişkenin beklenen varyansı ile<br />

gözlenen varyansı arasında büyük bir fark varsa<br />

modelin yetersiz olduğu ve yeniden tanımlanması<br />

gerekir.<br />

Olası nedenler; ya örneklem rastgele yöntemle<br />

seçilmemiştir ya da araştırma düzeninde ciddi<br />

sorun vardır.


<strong>LOJİSTİK</strong> <strong>REGRESYON</strong> YÖNTEMLERİ<br />

İÇİN ÖRNEKLER


Örnek 1.<br />

“Hastalığa yakalanma” ile “Yaş” ile arasındaki ilişkiyi<br />

lojistik regresyonla inceleyelim:<br />

Bağımlı değişken : Hastalığa yakalanma:<br />

Bağımsız değişken: Yaş<br />

1.1. Bağımlı ve bağımsız değişkenlerin her ikisi de<br />

“iki kategorili” olarak incelenmek istenirse<br />

aşağıdaki Tabloda verilen düzeni elde ederiz.


Risk<br />

(yaş)<br />

Hastalık<br />

Var Yok<br />

50+ 21 6 27<br />


Regresyon eşitliği y= ‐0.841+2.094 yaş<br />

Odds Ratio = 8.1<br />

Wald testi = 3.96 1 serbestlik derecesinde P


1.2.<br />

Bağımlı Değişken : İki Kategorili<br />

Bağımsız Değişken : İkiden Çok Kategorili<br />

Yukarıdaki örnekte yaşı risk faktörü olarak iki<br />

kategorili (


Risk<br />

Grubu Kod<br />

Hastalık<br />

Var Yok Toplam<br />

Odds<br />

30­39 0 4 26 30 4/26=0.154 1<br />

İlk<br />

gruba<br />

karşı<br />

odds<br />

Ratio<br />

40­49 1 9 21 30 9/21=0.429 2.79<br />

50­59 2 16 14 30 16/14=1.143 7.42<br />

60+ 3 22 8 30 22/8=2.750 17.86<br />

Toplam 51 69 120


Bu analizde, 30‐39 yaş grubu “risksiz<br />

ya da referans grubu” olarak alınmış<br />

ve 0 kodu verilmiştir.<br />

Referans grubuna (30‐39 yaş) göre;<br />

• 40‐49 yaş grubu 2.79 kat,<br />

• 50‐59 yaş grubu 7.42 kat,<br />

• 60+ yaş grubu 17.86 kat<br />

daha risklidir.


Örnek 2.<br />

Demans geliştirmeyi önlemede ya da<br />

gidişatını iyileştirmede antihipertansif<br />

ilaçların etkisini “çok değişkenli lojistik<br />

regresyon” ile incelemek için bir çalışma<br />

planlayalım:


Bu amaçla üç grup oluşturulacaktır:<br />

Sistolik kan basıncı 140+ olup ilaç alanlar<br />

Sistolik kan basıncı 140+ olup ilaç almayanlar<br />

Sistolik kan basıncı normal olanlar<br />

Her hasta grubunda 25 erkek, 25 kadın olmak üzere 50<br />

hasta bulunacaktır.<br />

Gruplardaki bireyler yaş, cinsiyet ve eğitim düzeyi<br />

yönünden benzer olacaktır.


Tüm bireylere başlangıçta MMSE (Mini Mental<br />

State Examination) testi uygulanacak ve 25+ puan<br />

alarak demans negatif (normal) bulunanlar<br />

araştırmaya dahil edilecektir.<br />

Tüm bireyler 5 yıl süreyle her yıl bir kez olmak<br />

üzere sürekli izlenecek ve her izlemde MMSE testi<br />

uygulanacak ve değerlendirilecektir.<br />

Çalışmada kullanılması düşünülen değişkenler<br />

şunlardır:


Bağımlı değişken:MMSE puanı:<br />

≤ 9: Ciddi düzeyde demans<br />

10‐20 : Orta düzeyde<br />

21‐24 : Hafif düzeyde<br />

25+: Demans yok (Normal)<br />

Bağımsız değişkenler:<br />

Yaş: 65‐69, 70‐74<br />

Cinsiyet: Erkek,Kadın<br />

Eğitim: Düşük, orta, yüksek<br />

Antihipertansif ilaç:<br />

Almıyor,<br />

Alıyor<br />

Hasta grubu:<br />

Sistolik kan basıncı 140+ olup ilaç alanlar<br />

Sistolik kan basıncı 140+ olup ilaç almayanlar<br />

Sistolik kan basıncı normal olanlar


BİR SORU:<br />

ARAŞTIRICILAR BİYOİSTATİSTİK UZMANINA NE<br />

ZAMAN BAŞVURMALIDIR?<br />

YANIT: İZLEYEN SLAYTA BAKINIZ


“Araştırma yapıldıktan sonra<br />

Biyoistatistikçiye başvurmak;<br />

ölüye otopsi yapmasını istemekten<br />

Çünkü,<br />

başka bir şey değildir.<br />

Bu aşamada biyoistatistikçi sadece,<br />

araştırmanın neden öldüğünü<br />

söyleyebilir.”<br />

R.A. Fisher

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!