Yapay Zeka Yetersiz Kalıyor: Büyük Dil Modelleri Tıbbi Kodlamayla Mücadele Ediyor, Çalışma Gösterileri

RD Gündem

Nis 27, 2024

Yapay Zeka Yetersiz Kalıyor: Büyük Dil Modelleri Tıbbi Kodlamayla Mücadele Ediyor, Çalışma Gösterileri

Mount Sinai'deki Icahn Tıp Okulu'nda yapılan bir araştırma, mevcut büyük dil modellerinin tıbbi kodlama için henüz etkili olmadığını, klinik uygulamadan önce daha fazla geliştirme ve sıkı testler gerektirdiğini gösteriyor.

Araştırma, tıbbi kodlamadaki sınırlamalarını ortaya koyuyor.

Mount Sinai'deki Icahn Tıp Fakültesi'ndeki araştırmacılar, son teknoloji ürünü yapay zeka sistemlerinin, özellikle de büyük dil modellerinin (LLM'ler) tıbbi kodlama konusunda zayıf olduğunu buldu. Yakın zamanda NEJM AI'de yayınlanan çalışmaları , klinik uygulamayı düşünmeden önce bu teknolojilerin iyileştirilmesi ve doğrulanmasının gerekliliğini vurguluyor. Çalışma, tanımlanabilir hasta verilerini hariç tutarak, Mount Sinai Sağlık Sisteminde 12 aylık rutin bakımdan 27.000'den fazla benzersiz teşhis ve prosedür kodunun yer aldığı bir liste çıkardı. Araştırmacılar, her kodun açıklamasını kullanarak OpenAI, Google ve Meta'daki modellerden en doğru tıbbi kodları çıkarmalarını istedi.

Oluşturulan kodlar orijinal kodlarla karşılaştırıldı ve her türlü kalıp için hatalar analiz edildi. Model Performansının Analizi Araştırmacılar, GPT-4, GPT-3.5, Gemini-pro ve Llama-2-70b de dahil olmak üzere incelenen tüm büyük dil modellerinin, orijinal tıbbi kodların çoğaltılmasında sınırlı doğruluk (yüzde 50'nin altında) gösterdiğini ve bu durumun önemli bir noktayı vurguladığını bildirdi. tıbbi kodlamadaki kullanışlılıkları arasındaki boşluk. GPT-4, ICD -9-CM (yüzde 45,9), ICD-10-CM (yüzde 33,9) ve CPT kodları (yüzde 49,8) için en yüksek tam eşleşme oranlarıyla en iyi performansı gösterdi .

GPT-4 ayrıca, hâlâ doğru anlamı taşıyan, yanlış oluşturulmuş kodların en yüksek oranını üretti. Örneğin, ICD-9-CM'nin "idrar tıkanıklığı olmayan nodüler prostat" tanımı verildiğinde, GPT-4 "nodüler prostat" için bir kod oluşturdu ve tıbbi terminolojinin nispeten incelikli anlayışını ortaya koydu. Ancak teknik olarak doğru olan bu kodlar dikkate alındığında bile kabul edilemeyecek kadar çok sayıda hata kalıyordu.

Bir sonraki en iyi performans gösteren model olan GPT-3.5, belirsiz olma konusunda en büyük eğilime sahipti. Kesin kodlara kıyasla doğası gereği doğru ancak daha genel olan, yanlış oluşturulmuş kodların en yüksek oranına sahipti. Bu durumda, ICD-9-CM'nin "anestezinin belirtilmemiş olumsuz etkisi" tanımı sunulduğunda, GPT-3.5 "başka yerde sınıflandırılmamış diğer tanımlanmış olumsuz etkiler" için bir kod oluşturdu.

Titiz Yapay Zeka Değerlendirmesinin Önemi

Veriye Dayalı ve Dijital Tıp (D3M) Yardımcı Doçenti, MD, MS, çalışmanın yazarı Ali Soroush, "Bulgularımız, yapay zeka teknolojilerini tıbbi kodlama gibi hassas operasyonel alanlarda uygulamaya koymadan önce titiz değerlendirme ve iyileştirmeye yönelik kritik ihtiyacın altını çiziyor" diyor ve şöyle devam ediyor: Tıp (Gastroenteroloji), Icahn Mount Sinai'de. "Yapay zeka büyük bir potansiyele sahip olsa da, sağlık hizmetlerinde güvenilirliğini ve etkinliğini sağlamak için ona dikkatle yaklaşılmalı ve sürekli geliştirilmeli." Araştırmacılar, bu modellerin sağlık sektöründeki potansiyel uygulamalarından birinin, klinik metne dayalı olarak geri ödeme ve araştırma amacıyla tıbbi kodların atanmasının otomatikleştirilmesi olduğunu söylüyor.

"Önceki çalışmalar, daha yeni büyük dil modellerinin sayısal görevlerle mücadele ettiğini gösteriyor. Bununla birlikte, klinik metinlerden tıbbi kodları atamadaki doğruluk derecesi farklı modeller arasında kapsamlı bir şekilde araştırılmamıştı," diyor D3M'nin Üretken Yapay Zeka Araştırma Programı Direktörü eş-kıdemli yazar Eyal Klang, MD. "Bu nedenle amacımız, bu modellerin bir tıbbi kodu ona karşılık gelen resmi metin açıklamasıyla eşleştirme temel görevini etkili bir şekilde yerine getirip getiremeyeceğini değerlendirmekti."

Çalışmanın yazarları, Yüksek Lisans'ların uzman bilgisi ile entegre edilmesinin tıbbi kod çıkarmayı otomatikleştirebileceğini, potansiyel olarak faturalandırma doğruluğunu artırabileceğini ve sağlık hizmetlerinde idari maliyetleri azaltabileceğini öne sürdü.

Sonuç ve Sonraki Adımlar

Eş-kıdemli yazar Girish Nadkarni, MD, MPH, Irene ve Dr. Arthur M şunları söylüyor: "Bu çalışma, yapay zekanın sağlık hizmetlerindeki mevcut yeteneklerine ve zorluklarına ışık tutuyor ve yaygın olarak benimsenmeden önce dikkatli bir şekilde değerlendirilmesi ve ilave iyileştirmeler yapılması gerektiğini vurguluyor." Icahn Mount Sinai'de Fishberg Tıp Profesörü, Charles Bronfman Kişiselleştirilmiş Tıp Enstitüsü Direktörü ve D3M Sistem Şefi. Araştırmacılar, çalışmanın yapay görevinin, LLM performansının daha kötü olabileceği gerçek dünya senaryolarını tam olarak temsil etmeyebileceği konusunda uyarıyorlar.

Daha sonra araştırma ekibi, sağlık hizmetleri operasyonlarında kaliteyi ve verimliliği artırmayı amaçlayan, doğru tıbbi veri çıkarma ve faturalandırma kodu ataması için özel LLM araçları geliştirmeyi planlıyor.

Yapay Zeka Yetersiz Kalıyor: Büyük Dil Modelleri Tıbbi Kodlamayla Mücadele Ediyor, Çalışma Gösterileri

Yapay Zeka Yetersiz Kalıyor: Büyük Dil Modelleri Tıbbi Kodlamayla Mücadele Ediyor, Çalışma Gösterileri

Araştırma, tıbbi kodlamadaki sınırlamalarını ortaya koyuyor.

Titiz Yapay Zeka Değerlendirmesinin Önemi

Sonuç ve Sonraki Adımlar

İletişim Formu

Reklam

Popüler Haber

Reklam2

Yapay Zeka Yetersiz Kalıyor: Büyük Dil Modelleri Tıbbi Kodlamayla Mücadele Ediyor, Çalışma Gösterileri

Araştırma, tıbbi kodlamadaki sınırlamalarını ortaya koyuyor.

Titiz Yapay Zeka Değerlendirmesinin Önemi

Sonuç ve Sonraki Adımlar

İletişim Formu

Reklam

Popüler Haber

Şehir hastanelerinin müteahhitlere rant kapısı haline geldi...

Reklam2