Preterm Doğum Öngörüsünde Yapay Zeka

⚕️ Hedef kitle: Bu içerik sağlık profesyonellerine yöneliktir ve eğitim/güncel-bilgi amaçlıdır. Yapay zekâ araçları klinik karar desteği sunar; klinisyen sorumluluğunun ve onaylı klinik iş akışlarının yerine geçmez.

Preterm doğum (37. gebelik haftasından önce gerçekleşen doğum) dünya genelinde neonatal mortalite ve morbiditenin önde gelen nedenidir; yıllık yaklaşık 13,4 milyon doğumu etkiler. Onlarca yıllık araştırmaya rağmen genel preterm doğum oranları büyük ölçüde değişmeden kalmıştır ve klasik öngörü yöntemleri — risk faktörü skorlaması, servikal uzunluk ölçümü ve fetal fibronektin testi — bireysel risk ayrımında sınırlı performans sergiler (Henricks & Nelson, Semin Perinatol 2026). Yapay zeka (YZ), özellikle makine öğrenmesi (verilerden örüntü öğrenen algoritmalar) ve derin öğrenme (çok katmanlı yapay sinir ağları), bu boşluğu doldurma iddiasıyla son yıllarda hızla literatüre girmiştir.

Bu yazı, dört ana veri kaynağı üzerinden YZ tabanlı preterm öngörüsünü inceler: servikal görüntüleme, uterin elektriksel aktivite (elektrohisterografi), biyobelirteçler (kantitatif fetal fibronektin) ve çok-değişkenli klinik modeller. Aynı zamanda — bu alanın en kritik zaafı olan — veri seti dengesizliği ve zayıf dış validasyon sorununu dürüstçe ortaya koyar.

Servikal görüntüleme ve makine öğrenmesi

Transvajinal ultrasonografide servikal uzunluk, asemptomatik ve semptomatik gebelerde spontan preterm doğumun en yerleşik tek belirtecidir; ancak öngörü değeri ılımlıdır. Derin öğrenme, bu görüntülerden insan gözünün yakalayamadığı ek doku bilgisini çıkarma potansiyeli taşır.

Bu alandaki en güçlü kanıt, Danimarka'da 19 merkezde toplanan veriyle geliştirilen çok-merkezli bir çalışmadan gelir (Sejer ve ark., Am J Obstet Gynecol 2026). 4224 gebelik ve 7862 servikal ultrason görüntüsü üzerinde eğitilen derin öğrenme modeli, <37 hafta spontan preterm doğum öngörüsünde servikal uzunluğu geçti: özgüllük 0,85'e sabitlendiğinde duyarlılık 0,51'e karşı 0,41 (p<0,001), eğri altı alan (AUC — ayırt etme gücü ölçütü) 0,75'e karşı 0,67 (p<0,001). Geç preterm doğumlarda (34–37 hafta) model %36,6 daha yüksek duyarlılık gösterdi. Dikkat çekici biçimde, saliency haritaları (modelin kararını hangi piksellere dayandırdığını gösteren ısı haritaları) olguların %70'inde modelin alt uterin segmentin iç hattına odaklandığını ortaya koydu — yani model servikal uzunluktan fazlasını "görüyor". Bu, geniş ve gerçek-dünya verisiyle yapılmış nadir çalışmalardan biridir; yine de AUC 0,75 düzeyi, bireysel klinik kararlar için hâlâ ılımlı bir ayrım gücüdür.

Servikal uzunluğun otomatik ölçümü de aktif bir araştırma alanıdır; derin öğrenme algoritmaları transvajinal görüntülerde serviksi segmente edip ölçümü standartlaştırmayı, böylece operatör değişkenliğini azaltmayı hedefler (Kwon ve ark., IEEE J Biomed Health Inform 2024). Ek olarak elastografi (doku sertliğini ölçen ultrason tekniği) ve kantitatif doku-yapısı (radyomik) özellikleri YZ modellerine girdi olarak denenmektedir; ancak bu yaklaşımların çoğu küçük, tek-merkezli ve prospektif kanıttan yoksundur.

Elektrohisterografi (EHG) ve uterin sinyal analizi

Elektrohisterografi (EHG — maternal karın yüzeyinden kaydedilen uterus elektriksel aktivitesi, yani uterin EMG), preterm eylemin temelindeki miyometriyal aktiviteyi non-invaziv biçimde yakalama vaadi taşır. Tokodinamometri kontraksiyonların yalnızca mekanik yansımasını verirken, EHG elektriksel kaynağı doğrudan ölçer. Sinyal işleme (dalgacık dönüşümü, ampirik mod ayrıştırması) ve makine öğrenmesi (destek vektör makineleri, sinir ağları) bu sinyallerden preterm/term ayrımı yapan özellikler çıkarmak için yoğun biçimde uygulanmıştır (Barnova ve ark., Artif Intell Med 2026).

Bu alandaki araştırmaların ezici çoğunluğu tek bir kamuya açık veri setine dayanır: Term-Preterm EHG Veritabanı (TPEHG DB). Ljubljana Üniversite Tıp Merkezi'nde 1997–2005 arasında toplanan bu set, 22. veya 32. gebelik haftası civarında kaydedilmiş 300 EHG kaydı içerir — bunların 262'si term, yalnızca 38'i preterm doğumla sonuçlanmıştır (PhysioNet TPEHG DB). Yani veri setinin yalnızca ~%13'ü preterm sınıfa aittir. Bu dengesizlik, aşağıda ele alınan metodolojik tuzakların kaynağıdır.

Dürüst bir kıyas: Amsterdam grubunun TPEHG verisinde uçtan-uca derin öğrenme (LSTM ve temporal konvolüsyonel ağlar) uyguladığı çalışmada elde edilen AUC yalnızca 0,58 idi — el yapımı özellik kullanan modellerle kabaca aynı düzeyde. Üstelik mevcut klinik verinin EHG'ye eklenmesi performansı artırmadı. Yazarlar açıkça, yanlış pozitifleri azaltmak için yüksek riskli hastalardan oluşan bir veri setinin toplanması gerektiğini vurguladı (Fischer ve ark., Comput Biol Med 2023).

Literatürde %90'ı aşan AUC bildiren çalışmalar da vardır; ancak bu rakamlar çoğunlukla metodolojik yapaylığın ürünüdür. Bunun nedenini bir sonraki bölümde açıyoruz.

Veri dengesizliği ve "sızıntı" tuzağı

Preterm öngörü modellerinin önündeki yapısal engel, doğası gereği dengesiz preterm/term oranıdır. Çoğu çalışma bu sorunu sentetik azınlık aşırı-örnekleme tekniği (SMOTE — azınlık sınıfı için yapay örnekler üreten yöntem) ile çözmeye çalışmıştır. Sorun şudur: eğer sentetik veriler veri seti eğitim/test olarak bölünmeden önce üretilirse, eğitim ve test bölümleri arasında bilgi sızıntısı oluşur; sınıflandırma görevi yapay olarak kolaylaşır ve modelin gerçek genelleme kapasitesi olduğundan yüksek görünür.

Valencia grubunun bu tuzağı doğrudan inceleyen çalışması öğreticidir (Nieto-Del-Amor ve ark., Sensors 2022): örnekleme stratejisi doğru kurgulandığında — yapay veri yalnızca uygun aşamada ve bölme sonrası uygulandığında — TPEHG üzerinde AUC %94,5 ± 4,6 düzeyine ulaşılabildi. Ancak yazarlar, literatürdeki birçok yüksek-performans bildiriminin tam da bu sızıntı nedeniyle gerçek genelleme yeteneğini olduğundan yüksek gösterdiğini açıkça belirtti. Yani aynı veri setinde "doğru" ve "yanlış" metodoloji arasındaki uçurum, raporlanan performansın ne kadar kırılgan olduğunun kanıtıdır.

Sistematik kanıtın hükmü: Uterin aktivite tabanlı YZ modellerini değerlendiren 53 kayıtlık güncel bir sistematik derlemede, çalışmaların %86,7'si yüksek veya belirsiz yanlılık riski (PROBAST aracına göre) taşıyordu. Temel sorunlar: dengesiz veri, küçük örneklem ve örneklenen veri seti dışında geçerliliğin gösterilememesi. Derleme, doğrusal-olmayan özellikler ve derin öğrenme modellerinin daha üstün sonuç verdiğini; ancak dış validasyon kanıtına rastlanmadığını ve dolayısıyla klinik uygulanabilirliğin sınırlı kaldığını sonuçlandırdı (Chopra ve ark., J Matern Fetal Neonatal Med 2026).

Biyobelirteçler ve klinik değişkenleri birleştiren modeller

Tek başına görüntü veya sinyal yerine, biyobelirteçleri klinik risk faktörleriyle birleştiren çok-değişkenli modeller bugün klinik gerçekliğe en yakın yaklaşımdır. Bunun en olgun örneği, kantitatif fetal fibronektin (qfFN — servikovajinal sıvıdaki fibronektin yoğunluğunun sayısal ölçümü) temelli QUiPP yaklaşımıdır.

QUIDS çalışmasında, qfFN ile birlikte sigara kullanımı, etnik köken, nulliparite ve çoğul gebelik gibi klinik değişkenleri içeren risk modeli geliştirildi ve dış validasyona tabi tutuldu. Semptomatik kadınlarda testten sonraki 7 gün içinde spontan preterm doğum öngörüsünde model, geliştirme kohortunda AUC 0,89 ve bağımsız Birleşik Krallık kohortunda da AUC 0,89 sergiledi (Stock ve ark., PLoS Med 2021). Önemli bir uyarı: kalibrasyon düşük risk aralığında mükemmeldi, ancak yüksek riskli kadınlarda risk olduğundan düşük tahmin edildi — modelin kesişim noktasının yeniden kalibrasyonu gerekti.

Aynı sınırlılık daha yeni bir dış validasyonda tekrarlandı (Fischer ve ark., Ultrasound Obstet Gynecol 2025): üç bağımsız Avrupa kohortunda QUiPP App v.2, servikal uzunluk + qfFN kombinasyonuyla 1 hafta içindeki preterm doğum için AUC 0,74–0,84 aralığında, <30 hafta öngörüsünde ise en yüksek AUC 0,91 düzeyinde performans gösterdi. Burada da örüntü aynıydı: düşük öngörülen riskli hastalarda kalibrasyon güvenilirken, yüksek riskli kadınlarda gerçek olay oranına kıyasla risk sistematik olarak olduğundan düşük tahmin edildi. Bu, kısa-vadeli (örn. <30 hafta) sonuçlarda modellerin uzun-vadeli (<37 hafta) sonuçlara göre daha güvenilir olduğunu da gösterir. Daha geniş "çok-omik" (genomik, proteomik, metabolomik verilerin entegrasyonu) ve transformer mimarileri umut verici olsa da, bunlar henüz erken araştırma aşamasındadır (Henricks & Nelson, Semin Perinatol 2026).

Kanıt düzeyi ve sınırlılıklar

Modaliteler arası bildirilen AUC değerleri yaklaşık 0,61 ile 0,89 arasında değişir (Lee, Obstet Gynecol Sci 2026). Ancak bu rakamların ardındaki metodolojik kalite zayıftır ve bu, alanın en dürüst özetidir:

Yüksek yanlılık riski. İki bağımsız sistematik derleme tutarlı bir tablo çiziyor: preterm doğum YZ modellerinin yaklaşık %79'u yüksek yanlılık riski taşıyor (Yang ve ark., Acta Obstet Gynecol Scand 2023; Lee 2026). Temel kusurlar küçük etkin örneklem, tek-değişkenli analize dayalı belirteç seçimi ve kalibrasyon değerlendirmesinin yokluğudur.
Zayıf raporlama. TRIPOD (çok-değişkenli öngörü modellerinin şeffaf raporlanması kılavuzu) uyumu çalışmalar arasında medyan yalnızca %49 düzeyindedir (Yang 2023; Lee 2026).
Dış validasyon eksikliği. Modellerin çoğu yalnızca dahili olarak doğrulanmıştır. EHG literatüründe bağımsız dış validasyon neredeyse hiç yoktur (Chopra 2026). Tek veri setine (TPEHG) aşırı bağımlılık, aşırı uyumu (overfitting) yapısal olarak besler.
Genellenebilirlik belirsizliği. Çalışmaların çoğu ABD ve birçok ülke popülasyonundan belirgin farklı gruplarda yürütülmüştür; sonuçların başka popülasyonlara aktarılabilirliği belirsizdir (Devoe ve ark., Obstet Gynecol 2025).

Buna karşılık olumlu sinyaller de gerçektir: geniş, çok-merkezli ve farklı ultrason cihazlarını kapsayan servikal görüntüleme çalışması (Sejer 2026) ve dış validasyona tabi tutulmuş qfFN tabanlı QUiPP modeli (Stock 2021; Fischer 2025), metodolojik olarak doğru kurgulandığında YZ'nin klasik tek-belirteçleri geçebileceğini gösterir. Sorun teknolojinin kendisinde değil, alandaki çalışmaların yöntem titizliğindedir.

Klinik pratiğe yansıması

Bugün için preterm doğum öngörüsünde klinik kullanıma en yakın YZ-destekli araçlar, EHG sınıflandırıcıları değil, dış validasyonu yapılmış çok-değişkenli biyobelirteç modelleridir (qfFN + servikal uzunluk + klinik faktörler; örn. QUiPP). Bunlar dahi en güçlü oldukları yerde — düşük riski güvenle dışlamada ve kısa-vadeli öngörüde — kullanılmalıdır; yüksek riski olduğundan düşük tahmin etme eğilimi nedeniyle pozitif sonuçlar dikkatle yorumlanmalıdır. EHG tabanlı derin öğrenme modelleri ise heyecan verici olmakla birlikte, dış validasyon ve prospektif kanıt olmaksızın hâlâ araştırma aşamasındadır.

Klinik uygulamaya geçişten önce öncelikli ihtiyaçlar nettir (Lee 2026; Devoe 2025): TRIPOD-AI raporlama standartlarına uyum, çok-merkezli ve dış validasyon, kalibrasyon metriklerinin raporlanması ve nihayetinde klinik faydanın prospektif olarak gösterilmesi. Klinisyenler bir YZ aracını değerlendirirken üç soruyu sormalıdır: Hangi popülasyonda eğitildi? Bağımsız bir kohortta dış validasyonu yapıldı mı? Kalibrasyonu — yalnızca ayrım gücü değil — raporlandı mı? Bu üç ölçütü karşılamayan bir model, etkileyici bir AUC bildirse bile yatak başında güvenle kullanılamaz.

← Obstetride Yapay Zeka bölümüne dön