Соответствие уверенности и точности в кардиологических знаниях: Сравнение специализированных медицинских и универсальных больших языковых моделей с использованием ACCSAP

Карточка

ЧАСТЬ ТЕЛА: Когнитивная функция и самооценка искусственного интеллекта.

ГОТОВНОСТЬ: Оценка применимости и надежности больших языковых моделей (LLM) для клинической диагностики в кардиологии, с учетом их способности к самооценке уверенности.

СУТЬ: Исследование сравнивает общие (ChatGPT-4o, Gemini 2.5 Pro) и медицинско-специализированные (MedGemma 27B) LLM на задачах по кардиологии (365 вопросов ACCSAP), анализируя их диагностическую точность, калибровку уверенности, неопределенность и добросовестность ответов, чтобы определить, улучшает ли специализация клинически значимую надежность. Начальные данные показывают, что точность значительно различается между моделями.

Источник: https://pubmed.ncbi.nlm.nih.gov/42106063/