Obstetride Yapay Zeka: Genel Bakış, Kavramlar ve Mevcut Durum

⚕️ Hedef kitle: Bu içerik sağlık profesyonellerine yöneliktir ve eğitim/güncel-bilgi amaçlıdır. Yapay zekâ araçları klinik karar desteği sunar; klinisyen sorumluluğunun ve onaylı klinik iş akışlarının yerine geçmez.

Yapay zekâ (YZ), son on yılda görüntü tanımadan metin üretimine kadar pek çok alanda hızlı bir sıçrama yaptı ve bu ivme obstetri ile perinatolojiye de yansıdı. Otomatik fetal biyometriden preeklampsi risk modellerine, kardiyotokografi (CTG) yorumlamasından embriyo seçimine ve klinik notu yazan büyük dil modellerine kadar geniş bir uygulama yelpazesi literatürde yer buluyor. Ancak bu alan, abartılı beklentilere de açık. Bu yazı; temel kavramları netleştirmeyi, mevcut uygulama haritasını çıkarmayı ve hem fırsatları hem de sıklıkla gölgede kalan sınırlılıkları dürüstçe ortaya koymayı amaçlıyor. Bölümün diğer yedi yazısı tek tek uygulama alanlarını derinlemesine ele alıyor; bu metin ise ortak çerçeveyi ve sözlüğü sunuyor.

Temel kavramlar: YZ, makine öğrenmesi, derin öğrenme ve LLM

Yapay zekâ (YZ), normalde insan zekâsı gerektiren görevleri (örüntü tanıma, sınıflandırma, öngörü) yerine getiren bilgisayar sistemlerini kapsayan şemsiye bir terimdir. Klinikte bugün karşımıza çıkan sistemlerin neredeyse tamamı, bu şemsiyenin altındaki makine öğrenmesi (machine learning — verideki örüntüleri açık kurallar yazılmadan, örneklerden öğrenen yöntemler) sınıfına girer.

Makine öğrenmesi içinde de en çok ilgi gören dal derin öğrenmedir (deep learning — çok katmanlı yapay sinir ağları kullanan yöntemler). Görüntü temelli görevlerde sıkça kullanılan konvolüsyonel sinir ağı (CNN — convolutional neural network; görsel verideki yerel desenleri katman katman çıkaran derin öğrenme mimarisi), fetal ultrasonografi düzlemlerini tanıma veya organ sınırlarını çizme (segmentasyon) gibi işlerde temel araçtır. Öğrenme biçimine göre yöntemler kabaca üçe ayrılır: etiketli veriyle öğrenen denetimli öğrenme (supervised learning — örneğin "bu görüntü standart düzlemdir" etiketleriyle eğitim), etiketsiz veride yapı arayan denetimsiz öğrenme ve geri bildirimle strateji geliştiren pekiştirmeli öğrenme.

Son dönemde gündemi belirleyen büyük dil modelleri (LLM — large language models; çok büyük metin külliyatlarıyla eğitilip insan diline yakın metin üreten modeller, ör. GPT ailesi) ise transformer adı verilen bir mimariye dayanır. Bunların görüntü, ses ve metni birlikte işleyebilen sürümleri büyük çok-kipli modeller (LMM — large multi-modal models) olarak adlandırılır; Dünya Sağlık Örgütü 2024 rehberinde sağlıkta bu modellerin yönetişimini ayrı bir başlık olarak ele almıştır.

Obstetride YZ uygulamalarının haritası

Obstetrik ve perinatal YZ uygulamalarını beş ana kümede toplamak, alanı kavramayı kolaylaştırır. Aşağıdaki tablo bu haritayı ve bölümümüzdeki ilgili ayrıntılı yazıyı özetliyor.

Uygulama alanı	Tipik görevler	Olgunluk düzeyi
Fetal ultrasonografi	Otomatik biyometri (BPD/HC/AC/FL), standart düzlem tespiti, kalite kontrolü, anomali/kardiyak tarama desteği	Ticari/onaylı araçlar mevcut; prospektif kanıt sınırlı
Fetal izlem (CTG/NST)	Bilgisayarlı CTG, derin öğrenmeyle çizelge sınıflandırma, antepartum NST yorumu	Araştırma ağırlıklı; sonuç iyileştirmesi kanıtlanmamış
Öngörü modelleri	Preeklampsi, preterm doğum, gestasyonel diyabet, advers gebelik sonuçları riski	Çok sayıda model; dış validasyon zayıf
Üreme tıbbı (IVF/ART)	Time-lapse görüntüyle embriyo derecelendirme/seçim, blastosist skorlama	Ticari skorlar var; RCT'ler canlı doğumda üstünlük göstermedi
Büyük dil modelleri	Klinik soru-yanıt, hasta eğitimi, dokümantasyon (ambient AI), kodlama	Hızlı yayılım; doğruluk ve güvenlik değişken

Obstetrik ultrasonografiye odaklanan kapsamlı bir tarama derlemesi, alandaki çalışma yoğunluğunu somutlaştırıyor: Horgan ve arkadaşları (2023) bu konuda yalnızca ultrasonografi için 127 yayın belirlemiş ve birinci trimester değerlendirmesi, plasenta analizi, fetal biyometri, fetal ekokardiyografi, nörosonografi ve fetal anatomi taramasını başlıca kullanım alanları olarak sıralamıştır. Bu uygulamaların ortak vaadi; operatör bağımlılığını azaltmak, verimi artırmak ve özellikle düşük-kaynak ortamlarda tarama erişimini iyileştirmektir.

Öngörü modellerinde performans nasıl ölçülür?

Öngörü modellerinin başarısı genellikle AUC (eğri altında kalan alan — modelin hasta/sağlıklı ayrımını ne kadar iyi yaptığını 0,5 ile 1,0 arasında özetleyen ölçüt), duyarlılık (sensitivite), özgüllük (spesifite), tespit oranı (DR) ve yanlış pozitif oranı (FPR) ile raporlanır. Örneğin preeklampsi için yapılan bir sistematik derlemede dâhil edilen makine öğrenmesi modellerinin AUC değerleri 0,860 ile 0,973 arasında bildirilmiştir (Ranjbar ve ark., 2024). Bu rakamlar etkileyici görünse de aynı derleme, dâhil edilen tüm çalışmaların retrospektif kohort tasarımında olduğunu ve sayıca az (yalnızca dört çalışma) olduğunu vurgular — yani yüksek AUC, tek başına klinik hazır olmanın kanıtı değildir.

Fırsatlar: YZ obstetride neyi gerçekten iyileştirebilir?

Dengeli bir bakış, alanın gerçek potansiyelini de açıkça tanımlamayı gerektirir. En tutarlı vaatler şunlardır:

Gözlemci değişkenliğini azaltma: Ultrasonografi biyometrisi ve CTG yorumu gibi öznel görevlerde gözlemci-içi ve gözlemci-arası tutarsızlık bilinen bir sorundur; YZ destekli ölçüm standardizasyonu burada katkı sağlayabilir.
Verimlilik ve iş akışı: Otomatik düzlem yakalama, ölçüm ve raporlama, tarama süresini kısaltıp klinisyeni tekrarlayan işlerden kurtararak karar verme zamanına alan açabilir.
Erişim ve eşitlik potansiyeli: Düşük-kaynak ortamlarda uzman yetersizliğini kısmen telafi ederek tarama erişimini genişletme olasılığı sıkça vurgulanır (Horgan ve ark., 2023).
Dokümantasyon yükünü hafifletme: Büyük dil modelleri ve ortam-temelli (ambient) sistemler, klinik not ve özet üretimini hızlandırarak idari yükü azaltma vaadi taşır.

Bu fırsatların ortak özelliği, çoğunlukla destekleyici ve iş akışını kolaylaştırıcı nitelikte olmasıdır; klinik sonuçları (neonatal morbidite, canlı doğum gibi) doğrudan iyileştirdiğine dair kanıt ise çok daha sınırlıdır.

Kanıt düzeyi ve sınırlılıklar

Obstetrik YZ literatürünün en kritik özelliği, performans vaatleri ile sağlam klinik kanıt arasındaki mesafedir. Bu mesafeyi en net gösteren örnek, intrapartum fetal kalp hızı izleminde bilgisayarlı karar desteğini test eden büyük ölçekli INFANT randomize kontrollü çalışmasıdır. Birleşik Krallık ve İrlanda'da 24 merkezde 46.042 kadının analiz edildiği bu çalışmada, CTG yorumuna eklenen karar destek yazılımı kötü neonatal sonuç oranını değiştirmemiştir (yüzde 0,7'ye karşı yüzde 0,7; düzeltilmiş risk oranı 1,01; %95 GA 0,82–1,25) ve 2 yaşındaki gelişimsel değerlendirmede de fark bulunmamıştır (INFANT Collaborative Group, Lancet 2017). Yüksek tanısal doğruluk vaat eden bir aracın, randomize koşulda sonucu iyileştirmemesi, bu alanda "doğruluk metriği ≠ klinik fayda" ilkesinin altını çizer.

Benzer bir örüntü üreme tıbbında da görülür: embriyo seçiminde YZ'yi embriyologlarla karşılaştıran sistematik derleme, modellerin görüntü/morfoloji görevlerinde tutarlı biçimde iyi performans verdiğini bildirir; ancak yazarlar, çalışmaların çoğunun prospektif olarak klinik ortamda değerlendirilmediğini ve birçoğunun dış validasyondan yoksun olduğunu açıkça belirtir (Salih ve ark., 2023). Nitekim time-lapse + YZ tabanlı seçimi standart morfolojiyle kıyaslayan randomize çalışmalar, canlı doğum/gebelik oranında genel olarak üstünlük gösterememiştir. Bu null bulgular, alanın dürüst bir resmi için vurgulanmak zorundadır.

Tüm uygulamalarda tekrar eden, alanı kesen başlıca sınırlılıklar şunlardır:

Veri kalitesi ve temsil: Modeller, eğitildikleri verinin sınırları içinde "öğrenir". Tek merkez veya dar popülasyondan türetilen veriler, farklı cihaz, protokol ve nüfuslarda performans düşüşüne yol açar.
Dış ve prospektif validasyon eksikliği: Literatürün ağırlığı retrospektif ve iç-validasyonla sınırlıdır; bağımsız merkezlerde ve prospektif tasarımda doğrulama hâlâ istisnadır.
Algoritmik yanlılık: Dengesiz veri setleri, ırksal/etnik/sosyoekonomik alt gruplarda hatalı performansa yol açarak mevcut maternal sağlık eşitsizliklerini derinleştirebilir.
Açıklanabilirlik (explainability): Derin öğrenme modellerinin "kara kutu" niteliği, klinik gerekçelendirme, hata analizi ve sorumluluk açısından güçlük yaratır.
Otomasyon yanlılığı: Klinisyenin YZ çıktısına gereğinden fazla güvenmesi (automation bias), bağımsız klinik muhakemeyi zayıflatabilir.
Dağılım kayması: Zamanla değişen popülasyon, cihaz ve uygulama desenleri modelin performansını sessizce eritebilir; bu da sürekli izlem gerektirir.

Büyük dil modellerine özgü riskler

LLM'ler obstetri pratiğine girerken kendine has riskler taşır. Gebelere yönelik yaygın obstetrik soruları değerlendiren bir çalışmada, uzmanların ChatGPT yanıtlarına verdiği ortalama puan 5 üzerinden 4 olmuş ve yanıtların yüzde 75'i olumlu (≥4) değerlendirilmiştir; ancak tamlık (mean 3,8; olumlu oran yüzde 46,7) ve güvenlik (mean 3,9; olumlu oran yüzde 53,3) boyutları, doğruluğun (mean 4,2) gerisinde kalmıştır (Peled ve ark., 2024). Yazarlar, anne veya fetüs güvenliğini ilgilendiren sorularda dikkatli olunması gerektiğini özellikle vurgular. Halüsinasyon (gerçek dışı ama ikna edici çıktı üretme), kanıt güncelliğinin sınırlılığı, gizlilik/KVKK kaygıları ve yanlılık, bu modellerin sorumlu kullanımını zorunlu kılan başlıca etmenlerdir.

Raporlama ve değerlendirme standartları

Bu sınırlılıklar, alanın olgunlaşması için ortak bir kalite ve şeffaflık çerçevesini gerekli kılmıştır. İki standart bu yazının kapsamı için merkezîdir:

TRIPOD+AI (Collins ve ark., BMJ 2024): Regresyon veya makine öğrenmesi yöntemleriyle geliştirilen klinik öngörü modellerinin şeffaf, eksiksiz ve doğru raporlanması için güncellenmiş bir kontrol listesidir. Şeffaf raporlama, herhangi bir kalite değerlendirmesinin ön koşuludur.
CONSORT-AI (Liu, Cruz Rivera ve ark., Nat Med 2020): YZ bileşeni içeren klinik araştırma raporları için CONSORT 2010'a eklenen 14 yeni maddedir; müdahalenin tanımı, girdi/çıktıların ele alınışı, insan–YZ etkileşimi ve hata vakalarının analizi gibi unsurların raporlanmasını ister.

Bu iki çerçeveye ek olarak protokoller için SPIRIT-AI, erken klinik değerlendirme için DECIDE-AI ve yanlılık değerlendirmesi için PROBAST-AI gibi araçlar tamamlayıcı rol oynar; düzenleyici boyut (FDA'nın YZ/ML tabanlı yazılım tıbbi cihaz çerçevesi, CE/IVDR) ve kurumsal duruşlar (ISUOG'un YZ pozisyon bildirisi, FIGO, WHO YZ etik rehberleri) ise klinik kullanım için zemini belirler. Bu standartların ayrıntıları bölümümüzün "Etik, Yanlılık, Validasyon ve Düzenleme" yazısında ele alınmaktadır.

Klinik pratiğe yansıması ve diğer yazılara köprü

Klinisyen açısından pratik çıkarım nettir: YZ araçları bugün için en güçlü oldukları yerde — gözlemci değişkenliğini azaltma, ölçüm standardizasyonu ve iş akışı verimliliği — destekleyici rol üstlenir. Bir aracı değerlendirirken sorulması gereken sorular şunlardır: Hangi popülasyonda ve hangi cihazlarla geliştirildi? Bağımsız, dış bir merkezde prospektif olarak doğrulandı mı? Onay/CE durumu ve kanıt düzeyi nedir? Çıktısı klinik kararı nasıl etkiliyor ve hata durumunda sorumluluk nasıl tanımlanmış? TRIPOD+AI ve CONSORT-AI, bu soruların yanıtını aramak için pratik bir kontrol listesi sağlar.

Bu genel çerçevenin üzerine, bölümün diğer yazıları her uygulama alanını derinleştiriyor: Fetal Ultrasonografide YZ, Kardiyotokografi (CTG/NST) Yorumlamada YZ, Preeklampsi Öngörüsünde YZ, Preterm Doğum Öngörüsünde YZ, IVF/ART'ta Embriyo Seçiminde YZ, Büyük Dil Modelleri Obstetri Pratiğinde ve Etik, Yanlılık, Validasyon ve Düzenleme. Hepsinin ortak mesajı aynıdır: vaadi ciddiye almak, ama kanıtı daha da ciddiye almak.

← Obstetride Yapay Zeka bölümüne dön