GPT-3 的训练数据包含来自书籍、网站和其他来源的大量公开文本的混合。 该数据集包括广泛的内容,例如网页(通过大规模网络爬虫 Common Crawl)、数字化书籍、维基百科文章、学术论文和在线论坛。 这些数据涵盖了各种主题、语言和写作风格,收集截至 2019 年 10 月。 例如,仅 Common Crawl 就贡献了大约 60% 的训练数据,而书籍和维基百科等精选来源则占较小但重要的部分。 这种组合使 GPT-3 能够通过学习来自不同上下文的模式来处理通用语言任务。
该数据集经过预处理以删除低质量或冗余内容。 例如,过滤掉重复项以避免过度拟合,并对文档进行质量评分以优先考虑结构良好的文本。 标记化(将文本分解为可管理的单元)是使用字节对编码 (BPE) 完成的,它可以有效地平衡稀有词和常用词。 开发人员应注意,虽然数据量很大,但分布并不均匀。 技术内容(如编程文档)不如一般的网络文本普遍,这会影响利基领域的性能。 此外,数据反映了其来源中存在的偏差和不准确之处,因为没有应用手动事实检查。 例如,训练数据中的过时信息或有争议的观点可能会在模型输出中浮出水面。
一个关键的限制是缺乏有关特定来源的透明度。 OpenAI 尚未披露确切的细节,这使得审计偏差或版权问题变得更加困难。 对于开发人员来说,这意味着 GPT-3 可能会无意中复制其训练数据中的敏感或受版权保护的材料。 截止日期也意味着它缺乏 2019 年之后发生的事件的知识,例如 COVID-19 大流行。 在将 GPT-3 集成到应用程序中时,这些因素需要缓解策略——例如后处理过滤器或将模型与最新的数据库相结合——以确保可靠和负责任的输出。 了解这些限制有助于开发人员设定实际的期望并围绕它们设计稳健的系统。