抽样多样性和样本保真度是生成模型中的两个关键概念,分别解决输出质量的不同方面。抽样多样性是指生成的样本相对于训练数据和彼此之间的变化程度。高多样性意味着模型产生的输出涵盖了数据分布中广泛的可能性。另一方面,样本保真度衡量生成的样本在准确性、细节或真实性方面与真实数据匹配的程度。高保真度意味着输出与真实数据无法区分,即使它们的变化较小。
例如,考虑一个在动物图像上训练的生成对抗网络 (GAN)。高抽样多样性意味着该模型会生成许多物种(例如,狗、猫、鸟类),具有不同的姿势、颜色和背景。低多样性可能导致仅产生单个动物类型的变体。高保真度将确保每个生成的图像清晰、解剖学上合理且没有伪影。低保真度模型可能会创建模糊或扭曲的动物,即使输出是多样的。平衡这些方面取决于应用程序:创意艺术工具可能优先考虑多样性,而医学成像模型将优先考虑保真度。
这些概念通常会相互制衡。例如,变分自动编码器 (VAE) 可能通过从更广泛的潜在空间进行采样来生成多样化的样本,但如果模型过度简化细节,则会失去保真度。相反,高度调整的 GAN 可以生成逼真的图像(高保真度),但无法探索罕见或新颖的数据模式(低多样性)。开发人员必须调整模型架构、训练目标(例如,添加多样性惩罚)或评估指标(例如,用于保真度的 Fréchet Inception 距离)以符合项目目标。在代码生成中,多样性可能意味着为问题建议多种算法,而保真度可确保代码在语法上正确且高效。理解这种平衡有助于定制模型以适应特定的用例。