Соответствие уверенности и точности в кардиологических знаниях: Сравнение специализированных медицинских и универсальных больших языковых моделей с использованием ACCSAP

23.05.2026 | Раздел: Медицина и Долголетие

Когнитивная функция и самооценка искусственного интеллекта.

Оценка применимости и надежности больших языковых моделей (LLM) для клинической диагностики в кардиологии, с учетом их способности к самооценке уверенности.

Исследование сравнивает общие (ChatGPT-4o, Gemini 2.5 Pro) и медицинско-специализированные (MedGemma 27B) LLM на задачах по кардиологии (365 вопросов ACCSAP), анализируя их диагностическую точность, калибровку уверенности, неопределенность и добросовестность ответов, чтобы определить, улучшает ли специализация клинически значимую надежность. Начальные данные показывают, что точность значительно различается между моделями.

Источник: https://pubmed.ncbi.nlm.nih.gov/42106063/

Обсуждение

VK Группа ВКонтакте TG Telegram-канал

Обсуждаем материалы и делимся мыслями в наших сообществах — присоединяйтесь.