Sentence Transformers (句子转换器) 可以为文本生成语义嵌入,在医疗保健和生物医学领域有几个实际应用。这些模型擅长理解非结构化文本中的上下文和含义,因此可用于将患者记录与研究相匹配、自动化医学编码以及改进临床决策支持系统等任务。通过将文本转换为数值向量,它们可以实现高效的相似性比较、信息检索和分类,而无需手动进行特征工程。 以下是三个主要用例,并附有具体示例。
一个主要的用例是将患者病历与医学文献相链接。临床医生在诊断复杂病例时通常需要参考最新的研究,但手动搜索数千篇论文非常耗时。 Sentence Transformers 可以将患者病历(例如,症状、实验室结果)和医学摘要编码为向量。 例如,一个系统可以将描述“疲劳、体重减轻和高钙血症”的病历与甲状旁腺疾病的相关研究相匹配。 这是通过计算患者病历嵌入与预先索引的论文嵌入数据库之间的余弦相似度来完成的。 可以针对特定领域的数据(例如,PubMed 文章)对模型进行微调,以提高准确性。 诸如 BioBERT 或 SBERT 的专门变体通常会针对此目的进行调整。
另一个应用是临床试验招募。识别符合试验条件的患者通常需要根据试验标准(例如,“患有 KRAS 突变的三期结肠癌患者”)手动审查电子健康记录 (EHR)。 Sentence Transformers 可以将试验资格文本和患者摘要编码为向量,然后对匹配项进行排名。 例如,提及“转移性 CRC、KRAS G12D 突变、无先前的抗 EGFR 治疗”的患者 EHR 条目可以与寻找“对 EGFR 抑制剂天真的 KRAS 突变结直肠癌患者”的试验配对。 这种方法缩短了筛选时间并提高了招募率。 开发人员可以使用 Hugging Face 的 sentence-transformers
等框架来实现这一点,其中 EHR 数据被匿名化并结构化为文本片段以进行编码。
第三个用例是自动化医学编码。将非结构化的临床文本(例如,“患者报告的胸痛放射到左臂”)转换为标准化的代码(例如,ICD-10 R07.9)如果手动完成,则容易出错。 Sentence Transformers 可以通过嵌入临床描述和代码定义并找到最接近的匹配项,从而将临床描述映射到代码定义。 例如,在历史编码数据上训练的模型可以将“CRP 升高和关节僵硬”链接到“M06.9(类风湿性关节炎)”。 这需要在配对的临床文本和代码描述上进行微调,通常使用对比损失来区分相似的代码。 这种系统可以通过 API 与 EHR 集成,提供实时编码建议。 诸如 medcat
之类的开源库或带有 spaCy 和 Sentence Transformers 的自定义管道是完成此任务的常用工具。