Herkese merhaba. Bu yazıda Saçılım Grafiğinin klinik kararlardaki rolünü inceleyip ”Korelasyon katsayısı tek başına yeterli mi? Aykırı değerler neden her zaman ‘hata’ değildir? Saçılım grafikleri olmadan hangi gerçekler gözden kaçar? ” gibi sorulara yanıt arayacağız. Keyifli Okumalar.
Tanım: Saçılım grafiği, iki farklı sayısal değişken arasındaki ilişkiyi görsel olarak incelemek için kullanılan temel bir istatistiksel araçtır. Grafikte her bir veri noktası, iki değişkenin (biri yatay x-ekseninde, diğeri dikey y-ekseninde olmak üzere) kesişimini temsil eden bir nokta ile gösterilir. Bu görselleştirme, tıbbi araştırmacılara ve klinisyenlere verilerindeki potansiyel ilişkileri, eğilimleri ve aykırı değerleri hızlıca anlama imkanı sunar.

Tıbbi Makalelerde Kullanımının Önemi:
- İlişki Tespiti: İki değişken arasında bir ilişki olup olmadığını (örneğin, bir ilacın dozu ile hastanın kan basıncı arasındaki ilişki) ortaya koyar. Bu ilişki pozitif (her iki değişken birlikte artar), negatif (biri artarken diğeri azalır) veya ilişkisiz (belirgin bir desen yok) olabilir.
- Korelasyonun Gücünü Gösterme: Noktaların birbirine ne kadar yakın ve belirli bir eğilimde kümelendiği, ilişkinin gücü hakkında fikir verir. Birbirine yakın ve belirgin bir hat oluşturan noktalar güçlü bir ilişkiye işaret eder.
- Aykırı Değerleri Belirleme: Genel veri kümesinden belirgin şekilde sapan “aykırı” noktaların tespitini kolaylaştırır. Bu aykırı değerler, ölçüm hatalarını, istisnai hasta durumlarını veya daha fazla araştırılması gereken özel vakaları temsil edebilir.
- Hipotez Testi: Araştırmacıların bir tedavi veya müdahalenin beklenen etkiyi yaratıp yaratmadığına dair hipotezlerini test etmelerine yardımcı olur. Örneğin, “artan egzersiz süresi, kolesterol seviyelerini düşürür mü?” sorusuna görsel bir yanıt aramak için kullanılabilir.
- Karmaşık Verileri Anlaşılır Kılma: Sayısal veri yığınlarını, okuyucuların kolayca yorumlayabileceği anlaşılır bir görsele dönüştürür. Bu, bulguların daha etkili bir şekilde iletilmesini sağlar.

Kullanılmadığında Oluşabilecek Durumlar
Saçılım grafikleri kullanılmadığında veya veriler sadece özet istatistiklerle (ortalama, standart sapma gibi) sunulduğunda önemli bilgiler gözden kaçabilir.
- Yanlış Yorumlamalar: Sadece korelasyon katsayısı gibi sayısal bir değere bakmak yanıltıcı olabilir. Farklı veri dağılımları aynı korelasyon katsayısını verebilirken, saçılım grafiği bu dağılımlar arasındaki temel farkları (örneğin, doğrusal olmayan bir ilişki veya aykırı değerlerin varlığı) ortaya çıkarır.
- Gizli İlişkilerin Gözden Kaçması: Verilerde doğrusal olmayan (eğrisel) bir ilişki varsa, standart korelasyon analizleri bunu tespit edemeyebilir. Saçılım grafiği ise bu tür karmaşık desenleri görsel olarak ortaya koyabilir.
- Aykırı Değerlerin Etkisinin Anlaşılamaması: Bir veya birkaç aykırı değer, ortalama gibi özet istatistikleri önemli ölçüde etkileyebilir. Saçılım grafiği olmadan bu aykırı değerlerin varlığını ve potansiyel etkisini fark etmek zordur.
Literatürdeki Bakış Açısı
Güncel tıbbi literatür, veri görselleştirmenin önemini giderek daha fazla vurgulamaktadır. Saçılım grafikleri, bu görselleştirme araçlarının temel taşlarından biri olarak kabul edilir.
- Vurgulanan Makaleler: Birçok metodoloji ve derleme makalesi, araştırma bulgularını sunarken saçılım grafiklerinin kullanılmasını şiddetle tavsiye etmektedir. Örneğin, Journal of Korean Medical Science gibi dergiler, yazarlara kaliteli ve tutarlı grafikler oluşturmaları için rehberler sunmaktadır. 1
- Şeffaflık ve Tekrarlanabilirlik: Modern bilimsel yaklaşım, verilerin şeffaf bir şekilde sunulmasını gerektirir. Saçılım grafikleri, ham verinin dağılımını doğrudan göstererek makalenin bulgularının daha şeffaf ve okuyucu tarafından daha kolay değerlendirilebilir olmasını sağlar.
- Eleştirel Değerlendirme Aracı: Okuyucular ve hakemler için saçılım grafikleri, yazarların vardığı sonuçların veriler tarafından ne kadar desteklendiğini hızlıca kontrol etme imkanı sunar. Y ekseninin ölçeği gibi grafik manipülasyonları yanıltıcı olabileceğinden, okuyucuların bu grafiklere eleştirel bir gözle bakması gerektiği de belirtilmektedir.
Acil Tıpta Saçılım Grafiği Kullanım Örnekleri
Acil tıp, hızlı karar vermenin ve verileri anında yorumlamanın kritik olduğu bir alandır. Bu nedenle saçılım grafikleri, karmaşık ilişkileri hızla görselleştirmek için değerli bir araçtır. İşte acil tıptan bazı örnekler:
- Vital Bulgular ve Hasta Sonuçları Arasındaki İlişki
- Senaryo: Acil servise başvuran hastaların ilk triyajda ölçülen vital bulgularının (kan basıncı, nabız, solunum sayısı, oksijen satürasyonu) hastaneye yatış veya mortalite (ölüm) gibi sonuçlarla ilişkisi incelenir.
- Grafik:
- X ekseni: Sistolik kan basıncı (mmHg)
- Y ekseni: Hastanede kalış süresi (gün) veya mortalite oranı (%)
- Analiz: Bu grafik, kan basıncının belirli bir seviyenin altına düşmesinin (hipotansiyon) veya üstüne çıkmasının (hipertansiyon) hastanın hastanede kalış süresini veya hayati riskini nasıl etkilediğini görsel olarak ortaya koyar. Örneğin, kan basıncı düştükçe mortalite oranının arttığına dair güçlü bir negatif korelasyon görülebilir. Bu tür analizler, triyajda hangi hastalara öncelik verilmesi gerektiğini belirlemede kritik rol oynar.
- Sepsis Biyobelirteçleri ve Enfeksiyon Şiddeti
- Senaryo: Sepsis şüphesi olan hastalarda, enfeksiyonun şiddetini ve seyrini tahmin etmek için çeşitli kan biyobelirteçleri (Prokalsitonin, C-reaktif protein, laktat vb.) kullanılır.
- Grafik:
- X ekseni: Prokalsitonin seviyesi (ng/mL)
- Y ekseni: SOFA skoru
- Analiz: Saçılım grafiği, Prokalsitonin seviyesi arttıkça organ yetmezliği skorunun da arttığını, yani enfeksiyonun daha şiddetli seyrettiğini gösterebilir. Bu, hekimlerin hangi hastaların daha agresif tedaviye ve yoğun bakım takibine ihtiyaç duyduğunu erken evrede anlamasına yardımcı olur. Grafikteki aykırı değerler, Prokalsitonin seviyesi düşük olmasına rağmen organ yetmezliği yüksek olan veya tam tersi durumdaki atipik hastaları işaret edebilir ve bu vakaların ayrıca incelenmesini gerektirebilir.
- Acil Servis Yoğunluğu ve Bekleme Süreleri
- Senaryo: Hastane yönetimi, acil servisteki hasta sayısının, hastaların hekim tarafından görülme süresi üzerindeki etkisini analiz etmek isteyebilir.
- Grafik:
- X ekseni: Belirli bir saatteki acil servis hasta sayısı
- Y ekseni: Ortalama bekleme süresi (dakika)
- Analiz: Bu grafik, acil servisteki hasta sayısı arttıkça bekleme sürelerinin de arttığını gösteren pozitif bir ilişki ortaya koyacaktır. Bu analiz, personel planlaması yapmak, triyaj süreçlerini iyileştirmek ve belirli bir yoğunluğun üzerine çıkıldığında ek kaynak (doktor, hemşire) aktifleştirmek gibi operasyonel kararların alınmasında kullanılır.
- Travma Hastalarında Yaş ve İyileşme Süresi
- Senaryo: Trafik kazası gibi travma nedeniyle acil servise getirilen hastaların yaşları ile tamamen iyileşme süreleri arasındaki ilişki incelenir.
- Grafik:
- X ekseni: Hastanın yaşı
- Y ekseni: İyileşme süresi (gün)
- Analiz: Grafik, genellikle yaş arttıkça iyileşme süresinin de uzadığını gösteren pozitif bir korelasyon ortaya koyar. Bu bilgi, yaşlı travma hastaları için daha kapsamlı taburculuk planları yapılmasına, rehabilitasyon ihtiyaçlarının öngörülmesine ve ailelerin beklentilerinin doğru yönetilmesine yardımcı olur.
Metodolojik Zorluklar, Algısal Etkiler ve Büyük Veri Çağında Saçılım Grafiklerinin Yeniden Değerlendirilmesi
1-Metodolojik ve Eleştirel Makaleler
Son yıllarda yapılan çalışmalar, saçılım grafiklerinin yalnızca veriyi göstermekle kalmayıp aynı zamanda yanlış yorumlandığında araştırmacıları yanıltabileceğini ortaya koymaktadır. International Journal of Data Science and Analytics dergisinde 2022 yılında yayımlanan “What can scatterplots teach us about doing data science better?” 2başlıklı makalede, saçılım grafiklerinin korelasyon incelemesinden çok daha fazlası için kullanılabileceği vurgulanmaktadır. Yazarlar, özellikle büyük ve karmaşık veri setlerinde yalnızca “gözle bakarak” (eye power) yorum yapmanın yanıltıcı olabileceğini, bu nedenle önemli ilişkilerin gözden kaçabileceğini belirtmektedir. Makale, saçılım grafiklerinin istatistiksel ve mantıksal analizlerle desteklenmesi gerektiğini, ayrıca herhangi bir ilişkinin bulunmadığı sonucuna varmadan önce verilerin farklı grafik türleri ve görsel değişkenlerle de incelenmesinin yararlı olacağını önermektedir. Böylece, saçılım grafiklerinin sunduğu potansiyelin daha derinlemesine anlaşılabileceği vurgulanmaktadır.
2-Veri Görselleştirme ve Algı Üzerine Çalışmalar
Bazı araştırmalar, insanların saçılım grafiklerini nasıl algıladığını ve grafik tasarımındaki küçük değişikliklerin yorumlamayı nasıl etkilediğini ortaya koymaktadır. International Journal of Human-Computer Studies dergisinde 2023 yılında yayımlanan “The Effects of Contrast on Correlation Perception in Scatterplots” 3başlıklı makale, bu konuyu ele alan güncel bir çalışmadır. Araştırmacılar, saçılım grafiğindeki noktaların görsel kontrastını değiştirerek korelasyon algısının sistematik olarak nasıl etkilendiğini göstermiştir. Bulgulara göre, grafikteki genel kontrastın düşürülmesi, korelasyon tahminlerinde yanlılığı artırmaktadır. Bununla birlikte, regresyon çizgisinden uzak noktaların belirginliğini azaltmak, korelasyonun daha doğru algılanmasına katkı sağlamaktadır. Bu tür bulgular, özellikle sağlık gibi hata payının düşük olması gereken alanlarda, verilerin en doğru şekilde anlaşılmasını destekleyecek grafik tasarım ilkelerinin geliştirilmesi açısından büyük önem taşımaktadır.
3-Büyük Veri Çağında Saçılım Grafikleri
Büyük veri setlerinin ortaya çıkması, geleneksel saçılım grafiklerinin kullanımında hem yeni zorluklar hem de fırsatlar doğurmuştur. ACM Conference on Human Factors in Computing Systems (CHI) kapsamında 2016 yılında sunulan “Towards Understanding Human Similarity Perception in the Analysis of Large Sets of Scatter Plots” 4başlıklı çalışma, bu konuyu ele alan önemli bir örnektir. Araştırmacılar, binlerce değişken içeren veri setlerinin yönetilemeyecek kadar çok sayıda saçılım grafiği ürettiğini ve bu sorunu çözmek için otomatik desen tespit algoritmalarının geliştirildiğini belirtmektedir. Ancak bulgular, bu algoritmaların sonuçlarının, insanların saçılım grafiklerini gruplarken kullandığı algısal yargılarla her zaman örtüşmediğini göstermiştir. Bu durum, özellikle “kara kutu” algoritmalarının tıbbi teşhis ve araştırmalarda giderek daha fazla kullanıldığı günümüzde, insan algısını ve uzman yorumunu merkeze alan görsel analiz araçlarının geliştirilmesinin önemini vurgulamaktadır.
4-Öne Çıkan Diğer Konular ve Sonuçlar
- Kötüye Kullanım: Biyomedikal araştırmalarda istatistiklerin ve grafiklerin kötüye kullanımı üzerine yapılan çalışmalar, saçılım grafiklerinin de bu sorundan payını aldığını göstermektedir. Araştırmacıların anlamlı bir sonuç bulma baskısı altında verileri manipüle etmesi, aykırı değerleri keyfi olarak çıkarması veya bulguları abartmak için grafiklerin eksenlerini yanıltıcı şekilde ayarlaması gibi sorunlar sıkça dile getirilmektedir.
- Şeffaflık Çağrısı: Birçok metodoloji makalesi, özet istatistikler (ortalama, p-değeri gibi) yerine veya onlara ek olarak ham veriyi gösteren saçılım grafiklerinin kullanılmasını şiddetle tavsiye etmektedir. Bu, araştırmanın şeffaflığını artırır ve okuyucuların sonuçları kendilerinin de değerlendirmesine olanak tanır.
Anscombe’un Dörtlüsü: Görsel Bir Kanıt
Anscombe, dört farklı veri seti oluşturdu. Bu veri setlerinin her biri 11 (x, y) noktasından oluşur. Bu dört veri setini sadece temel istatistiksel özelliklerine bakarak analiz ettiğimizde, sonuçlar şaşırtıcı derecede aynıdır: Bu örnek, sadece özet istatistiklere (ortalama, standart sapma, korelasyon katsayısı gibi) bakmanın ne kadar yanıltıcı olabileceğini ve saçılım grafiğinin neden vazgeçilmez olduğunu kanıtlamak için tasarlanmıştır.5
İstatistiksel Özellik | Veri Seti I | Veri Seti II | Veri Seti III | Veri Seti IV |
X Değişkeninin Ortalaması | 9.0 | 9.0 | 9.0 | 9.0 |
Y Değişkeninin Ortalaması | 7.50 | 7.50 | 7.50 | 7.50 |
X Değişkeninin Varyansı | 11.0 | 11.0 | 11.0 | 11.0 |
Y Değişkeninin Varyansı | 4.125 | 4.125 | 4.125 | 4.125 |
X ve Y Arasındaki Korelasyon | 0.816 | 0.816 | 0.816 | 0.816 |
Lineer Regresyon Çizgisi | y = 3 + 0.5x | y = 3 + 0.5x | y = 3 + 0.5x | y = 3 + 0.5x |
Eğer sadece bu tabloya baksaydık, ne atlardık? Bu tabloya bakan bir araştırmacı, dört veri setinin de “neredeyse aynı” olduğunu, aralarında orta-güçlü, pozitif ve doğrusal bir ilişki bulunduğunu söylerdi. Hepsi için aynı regresyon denklemini kullanır ve benzer sonuçlar çıkarırdı. Ancak saçılım grafiklerini çizdiğimizde gerçek ortaya çıkar:

Bu görsel, kelimelerin anlatamayacağı kadar çok şey anlatır:
- Veri Seti I (Sol Üst): Beklentimize en uygun olanıdır. Noktalar, hafif bir saçılımla birlikte belirgin bir doğrusal (lineer) ilişki gösterir. Standart bir regresyon analizi bu veri seti için uygundur.
- Veri Seti II (Sağ Üst): Burada noktalar arasında doğrusal bir ilişki yoktur. Mükemmel bir eğrisel (non-linear) ilişki vardır. Saçılım grafiği olmasaydı, bu mükemmel eğrisel deseni tamamen atlayacak ve yanlış bir şekilde doğrusal bir model uygulayacaktık. Atlanan şey: İlişkinin gerçek doğası (eğrisel olması).
- Veri Seti III (Sol Alt): Neredeyse mükemmel bir doğrusal ilişki vardır, ancak tek bir aykırı değer (outlier) bu ilişkiyi bozmaktadır. Bu aykırı değer olmasaydı, korelasyon katsayısı neredeyse 1 olacaktı. Saçılım grafiği, bu aykırı değerin varlığını ve etkisini anında gösterir. Bu nokta bir ölçüm hatası mı, yoksa özel bir durum mu? Araştırılması gerekir. Atlanan şey: Veri kalitesini bozan veya özel bir durumu temsil eden aykırı değer.
- Veri Seti IV (Sağ Alt): Bu en çarpıcı örneklerden biridir. Verilerin çoğu tek bir x değerinde (x=8) kümelenmiştir. Sadece tek bir etkili nokta (influential point) (x=19’daki nokta) hem regresyon çizgisinin eğimini hem de yüksek korelasyon katsayısını tek başına belirlemektedir. Bu nokta olmasaydı, x ve y arasında hiçbir ilişki olmayacaktı (dikey bir çizgi). Saçılım grafiği olmadan, tüm analizin tek bir veri noktasına dayandığını asla fark edemezdik. Atlanan şey: Tüm sonucun tek bir veri noktası tarafından manipüle edildiği gerçeği.
Saçılım grafiği kullanılmadığında atlanan en önemli şeyler şunlardır:
- İlişkinin Gerçek Deseni: Veri doğrusal mı, eğrisel mi, yoksa kümelenmiş mi? Bu, sadece grafikle anlaşılır.
- Aykırı Değerler (Outliers): Analizin sonucunu önemli ölçüde etkileyebilecek aykırı noktalar gözden kaçar.
- Veri Dağılımındaki Boşluklar veya Anormallikler: Verinin belirli aralıklarda eksik olup olmadığı veya beklenmedik desenler içerip içermediği anlaşılamaz.
- Sonuçların Güvenilirliği: Tek bir noktanın tüm analizi yönlendirip yönlendirmediği gibi kritik bilgiler gizli kalır.
Datasaurus Dozen Nedir?
Datasaurus Dozen, Anscombe’un Dörtlüsü’nün modern ve çok daha çarpıcı bir versiyonudur. Bu örnek, “asla sadece özet istatistiklere güvenme” ve “her zaman verini görselleştir” ilkelerinin ne kadar hayati olduğunu kanıtlamak için Autodesk Research’teki araştırmacılar (Justin Matejka ve George Fitzmaurice) tarafından 2017’de yaratılmıştır.6
“Datasaurus Dozen” (Dinozor Onikilisi), bir dinozor şeklindeki veri seti (“Datasaurus”) dahil olmak üzere toplam 13 farklı veri setinden oluşur. Bu 13 veri setinin hepsi, ondalık basamağa kadar neredeyse birebir aynı özet istatistiklere sahiptir. İşte bu 13 veri setinin paylaştığı ortak istatistiksel özellikler:
- X Değişkeninin Ortalaması: ~54.26
- Y Değişkeninin Ortalaması: ~47.83
- X Değişkeninin Standart Sapması: ~16.76
- Y Değişkeninin Standart Sapması: ~26.93
- X ve Y Arasındaki Korelasyon: ~ -0.06 (yani neredeyse sıfır, çok zayıf bir ilişki)
- Lineer Regresyon Çizgisi: y ≈ 53 – 0.06x
Eğer sadece bu istatistiklere baksaydık ne düşünürdük? Bir araştırmacı bu 13 veri setinin de istatistiksel olarak “aynı” olduğunu, aralarında anlamlı bir doğrusal ilişki olmadığını (korelasyon sıfıra çok yakın olduğu için) ve verilerin benzer şekilde dağıldığını varsayardı. Bu sonuca varmak, veri analizi tarihindeki en büyük hatalardan biri olurdu.
Görselleştirme Gerçeği Ortaya Çıkarıyor
Şimdi bu 13 veri setinin saçılım grafiklerini çizelim. Sonuç, istatistik ve veri görselleştirmenin gücünü ortaya koyan ikonik bir görüntüdür: Bu görsel, her bir veri setinin birbirinden ne kadar dramatik bir şekilde farklı olduğunu gösteriyor:
- Dinozor (Datasaurus): En ünlü olanı. Veri noktaları bir araya geldiğinde bir Tyrannosaurus Rex silüeti oluşturur. İstatistiksel olarak anlamsız görünen bir veri setinin, aslında ne kadar karmaşık ve yapısal bir desen içerebileceğinin en sanatsal kanıtıdır.
- Yıldız: Noktalar, merkezde bir boşluk bırakarak bir yıldız şekli oluşturur.
- Daire: Noktalar, içi boş bir daire şeklinde mükemmel bir dizilim gösterir.
- Dikey Çizgi: Neredeyse tüm noktalar tek bir dikey çizgi üzerinde yer alır, ancak bir aykırı değer bulunur.
- Yatay Çizgi: Neredeyse tüm noktalar tek bir yatay çizgi üzerinde yer alır, yine bir aykırı değerle birlikte.
- Geniş Çizgi: Noktalar, belirli bir aralıkta yoğunlaşan kalın bir çizgi oluşturur.
- X Şekli: Noktalar, kesişen iki doğrudan oluşan bir “X” harfi çizer.
- İki Küme: Veriler, birbirinden tamamen ayrı iki dikey küme halinde toplanmıştır.
- Diğer Karmaşık Desenler: Geri kalan grafikler de kendilerine özgü, doğrusal olmayan ve yapısal desenler sergiler.


Datasaurus Dozen’dan Çıkarılacak Dersler
Bu örnek, Anscombe’un Dörtlüsü’nün mesajını daha da ileri taşır:
- Özet İstatistikler Tehlikeli Derecede Yetersizdir: Ortalama, standart sapma ve korelasyon gibi temel ölçümler, verinin zenginliğini ve gerçek yapısını özetleyemez. Veriyi tek bir sayıya indirgemek, içindeki hikayeyi tamamen yok edebilir.
- Görselleştirme Bir Lüks Değil, Zorunluluktur: Veri analizinin ilk ve en önemli adımı veriyi çizmektir. Görselleştirme, istatistiksel testlerin ortaya çıkaramayacağı desenleri, anormallikleri, kümeleri ve ilişkileri anında görünür kılar.
- Otomatik Analize Körü Körüne Güvenmeyin: Sadece algoritmalara veya istatistiksel özetlere dayalı otomatik analiz sistemleri, bu tür yapısal desenleri kolayca gözden kaçırabilir. İnsan gözünün ve beyninin desen tanıma yeteneği, veri analiz sürecinin vazgeçilmez bir parçasıdır.
- Tıbbi Araştırmalar İçin Anlamı: Bir ilacın etkisini, bir hastalığın seyrini veya bir biyobelirtecin önemini incelerken, verileri sadece bir p-değeri veya korelasyon katsayısı ile özetlemek, bir dinozoru veya bir yıldızı gözden kaçırmakla eşdeğer olabilir. Belki de ilacın sadece belirli bir alt grup hasta üzerinde (grafikteki bir küme gibi) etkili olduğunu veya verideki bir aykırı değerin (özel bir hasta durumu) tüm sonucu değiştirdiğini ancak görselleştirme ile anlayabiliriz.
- Datasaurus Dozen, veri bilimcileri, istatistikçiler ve araştırmacılar için güçlü bir hatırlatıcıdır: Rakamlar yalan söyleyebilir, ama grafikler gerçeği gösterir.
Datasaurus Dozen kadar sanatsal olmasa da, tıbbi literatürde verileri görselleştirmemenin veya yanlış görselleştirmenin nasıl hatalı klinik sonuçlara yol açtığını gösteren çok sayıda gerçek ve etkili örnek bulunmaktadır. Bu durumun en klasik ve sık alıntılanan örneklerinden biri, kan basıncı değişkenliği ve felç (inme) riski üzerine yapılan araştırmalardır.
Kan Basıncı Değişkenliği ve Felç Riski
Senaryo: Araştırmacılar, bir kişinin kan basıncının zaman içindeki dalgalanmalarının (kan basıncı değişkenliği), ortalama kan basıncı değerinden bağımsız olarak felç riskini artırıp artırmadığını anlamak istiyorlar.
Görselleştirme Olmadan Yapılan Analiz (Hatalı Yaklaşım): Bir araştırmacı, iki farklı hasta grubunun verilerini ele alıyor. Sadece özet istatistiklere bakıyor: Sadece bu tabloya bakıldığında, her iki grubun da ortalama kan basınçlarının ve felç risklerinin aynı olduğu görülür. Araştırmacı, “Ortalama kan basıncı 145 mmHg olan hastalarda felç riski %15’tir” gibi genel bir sonuca varabilir ve kan basıncındaki dalgalanmaların önemli bir faktör olmadığı yanılgısına düşebilir.
Hasta Grubu | Ortalama Sistolik Kan Basıncı (mmHg) | Felç Geçirme Oranı (%) |
Grup A | 145 | 15% |
Grup B | 145 | 15% |
Saçılım Grafiği ile Yapılan Analiz (Doğru Yaklaşım): Şimdi aynı iki hasta grubunun verilerini saçılım grafiği ile görselleştirelim.
- X ekseni: Zaman (Ölçüm Günleri)
- Y ekseni: Sistolik Kan Basıncı (mmHg)

Bu görsel, özet istatistiklerin gizlediği kritik gerçeği ortaya çıkarır:
- Grup A (Düşük Değişkenlik): Bu hastaların kan basınçları zaman içinde oldukça stabil seyretmektedir. Değerler, ortalama olan 145 mmHg civarında hafif dalgalanmalar gösterir. Bu, daha kontrollü bir hipertansiyon durumuna işaret eder.
- Grup B (Yüksek Değişkenlik): Bu hastaların kan basınçları ise zaman içinde aşırı derecede dalgalanmaktadır. Kan basınçları bazen 180 mmHg gibi çok yüksek seviyelere çıkarken, bazen 110 mmHg gibi daha düşük seviyelere inmektedir. Ortalama değer yine 145 mmHg olsa da, bu hastalar tehlikeli “sıçramalar” ve “düşüşler” yaşamaktadır.
Atlanan Kritik Bilgi ve Klinik Sonuçları: Saçılım grafiği olmadan atlanan hayati bilgi şudur: Kan basıncı değişkenliğinin kendisi, ortalama değerden bağımsız, güçlü bir risk faktörüdür. Özetle, bu tıbbi örnekte saçılım grafiği kullanılmadığında:
- Risk Faktörü Gözden Kaçar: Kan basıncı değişkenliği gibi kritik bir risk faktörü tamamen atlanır.
- Hastalar Yanlış Sınıflandırılır: Aslında yüksek risk altında olan Grup B hastaları, düşük riskli olarak değerlendirilebilir.
- Tedavi Kararları Hatalı Verilir: Etkisiz veya yetersiz bir tedaviye devam edilerek hasta, önlenebilir bir felç riskine maruz bırakılır.
Bu durum, Anscombe’un Dörtlüsü veya Datasaurus Dozen’ın sadece teorik veya istatistiksel birer oyuncak olmadığını, gerçek hayatta, özellikle de tıpta, ölümcül sonuçları olabilecek hataları önlemek için ne kadar temel bir araç olduğunu göstermektedir.
Sonuç ve Öneriler
Saçılım grafiği, tıbbi literatürde iki değişken arasındaki ilişkiyi keşfetmek, doğrulamak ve sunmak için vazgeçilmez bir araçtır. Kullanılmadığında, önemli veri desenlerinin, aykırı değerlerin ve potansiyel ilişkilerin gözden kaçması söz konusu olabilir; bu da hatalı yorumlara ve yanlış klinik sonuçlara yol açabilir. Güncel çalışmalar, saçılım grafiklerinin yalnızca bir sunum aracı olmadığını; veri analizinin, bilimsel argümanın ve eleştirel yorumun ayrılmaz bir parçası olduğunu ortaya koymaktadır. Nitekim “Verilerin anlatmadığını, noktalar söyler” yaklaşımı, özet istatistiklerin gizleyebildiği gerçekleri ortaya çıkarma konusunda saçılım grafiklerinin eşsiz gücünü vurgulamaktadır. Acil tıp özelinde değerlendirildiğinde, saçılım grafikleri yalnızca akademik bir görselleştirme tekniği değil; hasta triyajı, tedavi planlaması, kaynak yönetimi ve prognoz tahmini gibi günlük klinik karar süreçlerini doğrudan etkileyen güçlü bir analiz aracıdır. Bu nedenle, modern veri analizinde “Önce verini çiz!” yaklaşımı temel bir kural olarak benimsenmeli; saçılım grafiklerinin algısal, metodolojik ve etik boyutları dikkate alınarak daha bilinçli ve eleştirel bir kullanım anlayışı yerleşmelidir.
Referanslar
- 1.Kim J, Lee J, Choi W, Yun J. Drawing Guideline for JKMS Manuscripts (06): Scatter Plot. J Korean Med Sci. 2024;39(16):e149. doi:10.3346/jkms.2024.39.e149
- 2.Goh WWB, Foo RJK, Wong L. What can scatterplots teach us about doing data science better? Int J Data Sci Anal. Published online September 8, 2022:111-125. doi:10.1007/s41060-022-00362-9
- 3.Strain G, Stewart AJ, Warren P, Jay C. The Effects of Contrast on Correlation Perception in Scatterplots. International Journal of Human-Computer Studies. Published online August 2023:103040. doi:10.1016/j.ijhcs.2023.103040
- 4.Pandey AV, Krause J, Felix C, Boy J, Bertini E. Towards Understanding Human Similarity Perception in the Analysis of Large Sets of Scatter Plots. Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems. Published online May 7, 2016:3659-3669. doi:10.1145/2858036.2858155
- 5.Anscombe FJ. Graphs in Statistical Analysis. The American Statistician. Published online February 1973:17-21. doi:10.1080/00031305.1973.10478966
- 6.Matejka J, Fitzmaurice G. Same Stats, Different Graphs. Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems. Published online May 2, 2017:1290-1294. doi:10.1145/3025453.3025912