BERT(Bidirectional Encoder Representations from Transformers,来自 Transformers 的双向编码器表示)是一种为自然语言处理 (NLP) 设计的机器学习模型。 它由 Google 于 2018 年推出,它使用一种称为 Transformer 的神经网络架构来分析文本,方法是考虑单词在两个方向(左和右)的上下文。 与之前按顺序处理文本(例如,从左到右或从右到左)的模型不同,BERT 的双向方法使其能够更有效地捕获单词之间的关系。 例如,在句子“银行账户在河边”中,BERT 可以通过检查两个方向的周围单词来区分“bank”指的是金融机构,而不是河岸。 这种理解上下文的能力使 BERT 在文本分类、问题解答和命名实体识别等任务中非常有效。
BERT 的受欢迎程度源于它的多功能性和性能。 在 BERT 之前,许多 NLP 模型需要大量的特定于任务的修改或大型标记数据集。 BERT 通过引入一个两步流程简化了这一点:在大规模文本语料库(例如,维基百科和书籍)上进行预训练,然后在较小的、特定于任务的数据集上进行微调。 预训练使用诸如掩码语言建模(预测句子中隐藏的单词)和下一句预测等目标来教导 BERT 通用语言模式,例如语法和单词关系。 然后,开发人员可以使用最少的特定于任务的数据来微调预训练模型。 例如,在 BERT 之上添加一个简单的分类层使其能够以高精度执行情感分析。 这种方法减少了对自定义架构的需求,并使更多的开发人员可以使用高级 NLP。
BERT 受欢迎的另一个原因是它的开源可用性以及对基准测试的影响。 发布时,BERT 在 11 个 NLP 任务上取得了最先进的结果,包括 GLUE 基准测试(一系列语言理解任务)。 例如,在问题解答中,BERT 通过理解复杂查询(例如,“什么成分可以中和酸度?”)并从有关食谱的文章中正确识别出“小苏打”,从而优于之前的模型。 它的成功鼓励了行业和研究的广泛采用,开发人员将 BERT 集成到聊天机器人、搜索引擎和内容审核系统中。 虽然此后出现了更新的模型,但 BERT 在性能、可访问性和适应性方面的平衡使其仍然具有相关性。 它的设计也影响了后来的模型,如 RoBERTa 和 ALBERT,它们建立在其双向 Transformer 基础上。