首页资讯

对话夸克团队:能考医生正高级职称的AI,是怎么做到的?,夸克级别是什么意思

时间:2025-07-30 02:27 作者:黑夜风高

对话夸克团队:能考医生正高级职称的AI,是怎么做到的?,夸克级别是什么意思

说起 AI+医疗,很多人第一反应是:会不会不靠谱?

然而,现在的 AI,已经具备考医生正高级职称的能力了。

7月23日,夸克健康大模型成功通过了中国 12 门核心学科( 包括全科医学、普通内科学等 )的主任医师( 正高级职称 )笔试评测,成为国内首个完成这一挑战的大模型。

在医疗资源分布不均、全科医生供给仍显不足的背景下,如何借助科技手段缓解基层压力、提升初诊效率,一直是当前行业关注的焦点。

《 中国全科医生培养和使用发展报告( 2022 )》统计显示,截至 2022 年,我国全国全科医生数量约 46 万人,人均配置仅为每万人口 3.3 名,距离 2030 年 “ 5 名每万人 ” 的目标仍有显著差距。

资源压力催生出对可信的医疗智能系统的迫切需求,各个厂商纷纷入局,夸克也是其中之一。

武汉大学人民医院肿瘤中心副主任医师汪晶对此事评价道:“ 不管是对医生还是患者来说,这种帮助都是一个非常大的进步 ”。

一方面,大模型能有效改善盲目就医现象,另一方面,也能提高医疗资源的匹配精准度。这使得大众能更早期发现病因,也会有助于减少医院漏诊、误诊的情况。

为了更深入了解相关细节,知危就行业和技术两个层面与夸克团队进行了交流。

以下是知危与夸克专家团队的对话内容,经过了不改变原意的编辑。

:即便评测中夸克健康大模型各项能力已经是最强,但距离 100% 准确率还很远,特别是高级职称医生级别的问题。在这个准确率下将其投入 C 端应用,如何保证内容质量和安全性?

:一个可供参考的角度是,在实际主任医师职称考试中,拥有多年经验的医生的通过率在 60% 左右。夸克健康大模型主任医师考试测试中正确率为 67.7% 。

为保障内容质量,我们建立了庞大的专家标注运营体系,拥有 10 名三级医院主治医师以上专职医师和签约合作的 400 余名三甲医院副主任医师以上专家。他们会严格按照真实诊疗场景定义样本构建策略,进行多层次审核与质检,确保训练数据和模型输出的专业性和规范性。此外,模型内部通过一致性验证器校验推理路径与答案的一致性,并有 “ 对抗作弊 ” 机制,尽可能避免模型生成误导性内容。

:据称 “ 夸克健康大模型实现了从初级到副高级职称的两级跳 ”,请问初级医生和副高级职称、高级职称医生分别需要哪些关键维度的能力?

:夸克健康大模型在职称考试中能力的跃升,体现了医生不同层级所需的关键能力递进。

初级医生: 核心是基础医学知识的广度与准确性,能正确解答常规疾病的单选题,掌握标准化诊疗流程。考试以单选题为主,案例分析占比较低。

副高级职称医生: 要求更强的专业知识深度、多选判断和初步案例分析能力。需清晰把握正确边界,应对多选题比重攀升。

高级职称医生: 需具备卓越的综合知识、高难度多选题判断及深度临床推理与综合分析能力。考试中多选题和案例分析题比重极高,对模型在“慢思考”下结合综合知识解决细微辩证问题的能力提出极高要求。

大模型本质是概率模型,概率模型做单选题的时候相对容易,因为只要让大模型选择概率最大的选项当作正确答案就可以。

但是多选题很不一样,不单需要模型知道各个选项的概率,还需要知道多大的概率可以达到正确性的边界,所以在多选题上,模型对正确答案稳定的边界需要非常清楚,否则容易选漏或选错,甚至答不全。为解决这一难题,需要非常重视正确性对齐的技术。

夸克大模型在多选题和案例分析题上的表现远超通用模型,是 “ 慢思考 ” 深度推理能力和正确性对齐技术的体现。

:你们在医疗、健康相关搜索中索引来源是否包括了内部知识库和外部来源?如果有外部来源,这些内容如何保证质量?内部和外部来源都允许用户进行来源验证吗? 

:夸克健康大模型在搜索中融合了内部构建的百万级医学知识图谱、术语集与四大类外部权威资料,包括网页数据、书籍、指南、药品说明书、中英文文献及公开病历数据。

为保证外部内容质量,我们建立了 A-D 分级且细分 5-9 级的循证体系,依据出版时间、出版社权威性及临床研究证据( 如 PubMed、临床试验数据库 )对知识进行优先级排序和冲突消解。

模型采用 “ 边想边搜 ” 机制,在输出答案时会针对每个观点给出依据来源,方便用户进行论证和验证,确保信息的透明度和可信度。

:你们建立了很庞大的专家标注运营体系,这对于数据质量和规模特别重要,也是医疗 AI 领域的痛点,请问你们团队如何实现这一点,在合作对象筛选上有什么原则?

:我们组建了医学运营团队,与超 400 位权威专家和 1000 余位专职医生共建知识库。合作标准以专业背景、临床经验和数据处理能力为核心,优先选择三甲医院资深医生及具备科研能力的专家,确保数据专业度与一致性。

:过程奖励设计和分配在学术、工程领域还是普遍的难题,夸克健康大模型的技术报告中讲解了相关的方法,可否补充说明一下当前方案的合理性和研发过程的关键点?

:过程奖励是构建高可信推理模型的关键。夸克健康大模型的合理性在于训练 AI 学会整体的诊疗思维。为此,我们团队构建了独特的 “ 可验证强化学习范式 ”,通过 “ 假定模型 ” 提供过程反馈,引导模型形成符合临床规范的安全思维链。

研发关键点在于:

构建符合临床思维的高质量思维链数据;

引入一致性验证器模型二次校验推理与答案一致性;

有效对抗模型在训练中的 “ 作弊 ” 行为,即模型生成结构合理但本质错误或欺骗性的推理过程。夸克通过人工标注负面案例和迭代训练验证器,逐步压缩模型 “ 作弊 ” 空间。

当然,思考思维和真实医生的能力对齐还需要一个过程。以及在复杂的延续性情景,也还需要做对齐,比如不仅要能处理病人的诊断和治疗,在病情发生细微变化的时候,模型要获取微变化的逻辑,并进行合理决策。

:合成数据的应用目前看已越来越成为共识,包括医疗行业和其它许多领域,请问大规模使用合成数据为夸克健康大模型研发带来了多大的降本提效作用?

:确实有显著的降本提效作用。医疗数据高度稀缺且人工标注成本极高。我们通过利用 SOTA LLM 生成原始思考数据( CoT ),并结合多阶段训练中的筛选机制,极大缓解了医疗数据人工标注的成本。

合成数据系统能规模化生成样本,使专家精力更集中于处理核心痛点数据( 如冷启标注、关键可验证数据 ),提升整体数据生产效率。

另一方面,合成数据的使用对模型训练也有其必要性。举一个例子,医疗专业资料里有很多图和表,大量信息涵盖在表格里,但表格对训练来说相对不是那么友好,所以需要进行一些数据合成,把通顺的自然语言汇入到底模里。

:夸克健康大模型的循证等级划分体系,看起来是一个很严谨有序的质量验证体系,请问如何理解目前确立的循证等级的合理性?

:其合理性在于对传统循证医学原则的创新性适应与拓展。

传统的循证医学标准( 如系统评价到未形成共识的实验 )虽严谨,但难以直接覆盖如 WHO 资料、专业书籍等 “ 表外 ” 且非结构化的权威医学内容。

为此,我们团队对其进行了 “ 影射 ”,重新划分为 ABCD 四个大等级,并进一步细分为 5-9 个子级别。这一多层级体系的核心目的在于:

冲突知识的精准判别: 当模型遇到相互冲突的知识时,该分级体系能指导模型根据知识来源的循证等级,优先采纳最权威、最可靠的信息,确保输出结论的医学严谨性。

强调权威性与时效性: 体系高度关注知识的 “ 权威性 ” 和 “ 时效性 ”。例如,在检索不同年份的诊疗指南( 如 2024 年与 2022 年的高血压指南 )时,模型会明确优先使用最新且更具权威性的版本,这对于快速迭代的医学知识至关重要。

保障内容生产质量: 这一体系也是大规模 AIGC 科普内容准确性的底层保障。它确保了模型在生成个性化健康科普内容时,其背后引用的知识是经过严格循证、具备高可信度的。

这套体系保障了夸克健康大模型所输出内容的权威性、及时性和准确性,是其 “ 正确性对齐 ” 技术策略的核心组成部分。

内容质量对医疗领域的重要性不言而喻,实际上我们观察到,很多通用大模型在输出药品相关用法的时候,错误非常分散并且非常细微。很多模型经常把药品名字输错,在某些情况下可能是致命的。比如孕妇发烧的时候,能否吃布洛芬?有些模型就会回答是能吃的。但实际上,布洛芬在 FDA 的等级是 C 类,这种情况下应该禁用。

:当前版本除了图片,没有引入对更多多模态信息( 比如声音、面部表情等 )的处理,背后的原因是什么?未来是否有相关规划?

:夸克健康大模型目前支持语音转文本后作为输入,目前还不支持语音作为直接输入。文本和图像在医疗数据中更为主流且标准化。

其他模态在诊断可靠性、标准化及技术成熟度上仍面临挑战,整个行业都在持续推动多模态在医疗领域的探索,我们也将继续努力。

Top

1、情色、暴力、哲学……究竟「谁」孕育了日本动画所谓“黄金时代”?

2、为何现在的年轻人对伤痕文学无感甚至反感?,为什么很多人反感伤痕文学

3、全国每5瓶醋就有1瓶来自这里!山西清徐靠什么“酿”出65亿大产业?

小编推荐

当前文章:http://www.share.tuanjian7.cn/FNU/detail/nilazd.html

相关阅读

网友评论

我要评论

发表
取消

黑夜风高