DeepResearch 设计用于在多种语言下运行,尽管其功能和性能可能因语言和可用的训练数据而异。虽然由于英语在训练数据集中的普遍性,它仍然是最受支持的语言,但该系统整合了处理非英语内容的技巧。例如,它使用与语言无关的自然语言处理 (NLP) 方法,如子词分词(例如,字节对编码)和多语言嵌入(例如,多语言 BERT),来处理西班牙语、法语、德语、中文等语言的文本。这使得它能够在不同语言之间执行文本分类、实体识别或情感分析等任务,尽管准确性可能因数据质量和语言复杂性而异。
系统的多语言功能依赖于显式语言检测和自适应建模。例如,在处理用户输入时,DeepResearch 可能首先使用语言识别模块(如 FastText 的语言检测器)来确定输入的语言代码(例如,西班牙语的“es”)。然后将请求路由到针对该语言或通用多语言模型进行微调的模型。开发人员可以通过 API 访问特定语言的端点,例如德语的 /analyze?text=...&lang=de
。然而,对于训练数据有限的语言(例如,巴斯克语或斯瓦希里语),由于预训练模型中的表示稀疏,性能可能会落后。在这种情况下,系统可能会在处理前回退到机器翻译成英语,这会引入延迟和潜在的翻译错误。
对于需要集成多语言支持的开发人员,DeepResearch 提供了特定语言的配置文件以及与翻译 API(例如,Google Cloud Translation)的兼容性工具。一个实际示例:构建客户支持仪表板的开发人员可以使用 DeepResearch 分析日语的支持工单(使用预训练的日语 BERT 变体),同时处理英语的产品评论。然而,处理从右到左的书写系统(例如,阿拉伯语)或意音文字系统(例如,中文)可能需要额外的预处理,例如标准化 Unicode 字符或调整分词规则。虽然该系统开箱即用支持多种语言,但最佳性能通常需要使用目标语言的领域特定数据对模型进行微调,开发人员可以通过平台上的训练界面完成此操作。