7 Mart 2020 Cumartesi

Salgın hastalık ve Bayes kuralı

Son Korona virüsü (Covid 19) salgınıyla ilgili okuduğum makalelerde sıkça istatistiki bilgi verilmesi ve bunlardan çıkarım yapılması, beni temel istatistik bilgilerimi tekrar gözden geçirmeye itti. Basit bir egzersiz yaptım ve buradan da paylaşmak istedim. Belki testlerin anlaşılmasında başkalarına da yardımcı olur. İstatistik üzerinde düşünüp hesap kitap yapmadan anlaşılması zor bir konu.

Bir test düşünelim, hasta olmayan birinde (yalancı) pozitif sonuç verme ("birinci tip hata") ihtimali yüzde 5, hasta birinde (yalancı) negatif sonuç verme ("ikinci tip hata") ihtimali yüzde 3 olsun. 100 bin kişiye bu testi uygulayalım. (Sayıları tamamen kafadan atıyorum. Dileyen daha gerçekçi değerler bulup aynı mantıkla hesap yapabilir.)

Soru 1: Testin uygulandığı herkes sağlıklıysa kaç tane pozitif sonuç çıkar?
Cevap: 5 bin (= 100 bin x %5). Herkesin sağlıklı olduğunu bildiğimizden, tamamı yalancı pozitif. Haliyle yalancı negatif de yok.

Soru 2: Testin uygulandığı herkes hastaysa kaç negatif ve kaç pozitif sonuç çıkar?
Cevap: 3 bin (= 100 bin x %3) yalancı negatif var.
97 bin (= 100 bin - 3 bin) de pozitif çıkar. Herkesin hasta olduğunu bildiğimizden, pozitiflerin tamamı doğrudur.

Soru 3: Test edilenlerin 1/10'u hasta, kalanı sağlıklıysa test kaç tane pozitif, kaç tane negatif sonuç verir ve bunların kaçı doğrudur?
Cevap: Burada dört tane seçenek var.
1. Hasta olan ama testin negatif verdiği: 300 kişi (=10 bin hasta x%3)
2. Hasta olan ve testin pozitif verdiği: 9700 kişi (= 10 bin -300)
3. Hasta olmayan ama pozitif sonuç veren: 4500 kişi (= 90 bin sağlıklı x%5)
4. Hasta olmayan ve negatif sonuç veren: 85500 kişi (= 90 bin-4500)
Sonuçta 9700'ü gerçek, 4500'ü hatalı olmak üzere 14200 pozitif var. Yani, testin pozitif verdiklerinden üçte ikiden biraz fazlası (9700/14200= %68 kadarı) hasta aslında. Ayrıca, 300'ü yanlış olmak üzere 85800 negatif sonuç var. Dolayısıyla, negatif sonucun hatalı olma ihtimali (300/85800=) yaklaşık binde 3 kadar.

Bu üç örnekte iki parametreyi, birinci ve ikinci tip hata ihtimallerini sabit tuttuk. Üçüncü parametre olan hastalık oranlarını ise değiştirdik. İlk iki örnek çok basit zaten. Üçüncüde, önceden ("a priori") bildiğimiz 0 ve %100 arasında bir hastalık ihtimali vardı. Daha sonra testi uygulayıp çıkan sonuçlara göre, kişilerin hastalık ihtimalini güncelledik. Buna göre, testin pozitif çıktığı bireylerde hastalık ihtimali yüzde 10'dan 68'e yükseldi. Negatif çıktıklarında ise binde 3'e düştü. (Bu işleme Bayesçi güncelleme -Bayesian update- denir.)

Gördüğümüz üzere, olasılık hesapları ilk bakışta görünenden daha karmaşık. Test sonuçları ihtimalleri güncelleyerek bize değerli bir bilgi veriyor, fakat istatistiğin doğası gereği sonuçlar kesinlik ifade etmiyor. Sonuçların daha isabetli olması üç parametrenin alacağı değerlere bağlı. Birinci ve ikinci tip hata oranları ne kadar küçük olursa o kadar iyi tabii ki. Ama ha deyince daha iyi bir test geliştirmek mümkün olmayacağından, pratikte bunu sabit gibi düşünebiliriz. Hastalık oranı ise, testin uygulandığı kitleye göre değişiklik gösterecektir. Örneğin her ateşi çıkana test uygularsak, çok sayıda yalancı pozitif sonuç elde ederiz. Hatta ilk örneğe benzer şekilde, toplumda hastalık yayılmamışsa, sonuçlar ağırlıklı olarak yalancı pozitiflerden oluşabilir. Öte yandan, testi birçok hastalık semptomunu taşıyan veya yüksek risk altındaki kişilere uygularsak, daha kesin sonuçlar elde ederiz.

Pratikte anladığım kadarıyla durumun ciddiyeti önem kazanıyor. Örneğin, Covid 19 salgınının hızlı yayıldığı Güney Kore hatalı pozitifleri umursamadan bol bol test yapıyor. Hatta Çin'de (Batılı basının yalancısıyım) ateşi çıkanın testle uğraşılmadan karantinaya alındığı yazılıyor. Bunlar belli ki tehdit büyüdükçe ihtiyatlı olmak adına alınan radikal önlemler. Biz çok şükür henüz böyle bir durumda değiliz. Umalım ki hiç de olmayalım.

Ek (23.03.2020): Aşağıdaki linkteki yazıda uzman bir Çinli istatistikçi, önce detaylı olarak Bayes kuralını anlatmış; sonra Covid-19 salgını için gerçekçi parametreler kullanarak analiz yapmış. Yazıya göre bu hastalığın testleri (en azından o tarihte var olanlar) çok zayıf. Özellikle yalancı negatif oranı çok yüksek. Böyle bakınca Çin'de neden testle uğraşmadan semptom gösterene hasta muamelesi yaptıkları daha iyi anlaşılıyor.  
https://towardsdatascience.com/statistics-and-unreliable-tests-coronavirus-is-difficult-to-contain-e113b5c0967c

Hiç yorum yok: