要查找用于机器学习和研究的公共数据集,首先探索为共享数据而设计的成熟平台和存储库。 Kaggle 是最受欢迎的资源之一,托管着涵盖医疗保健、金融和计算机视觉等领域的数千个数据集,通常附带社区驱动的讨论和代码示例。 UCI 机器学习存储库是另一个值得信赖的来源,提供精选的数据集,例如 Iris 或 Wine Quality,通常用于基准测试模型。 美国数据门户 data.gov 或欧盟数据门户 data.europa.eu 等政府门户网站提供关于人口统计、气候、交通等的开放访问数据集。 这些平台通常包括元数据、许可详细信息和工具,用于按格式、大小或主题过滤数据集,即使对于数据采购新手来说,也能轻松访问。
学术机构和研究组织也发布数据集。 Google Dataset Search 使用类似搜索引擎的界面,聚合来自多个来源的数据集,包括大学研究小组和独立研究。 对于专业领域,IEEE DataPort 等平台侧重于工程和技术数据集,而 arXiv.org 通常链接到科学论文存储库中的数据集。 TensorFlow Datasets 或 Hugging Face Datasets 等工具提供预处理数据,可立即用于 TensorFlow 或 PyTorch 等框架中,从而节省了数据清理的时间。 例如,Hugging Face 提供 NLP 数据集,例如 WikiText 或 IMDb 评论,这些数据集经过格式化,可以直接集成到训练管道中。 这些资源在可重复性和标准化方面尤为有用,因为它们通常包括版本控制和文档。
特定领域的需求可能需要利基来源。 计算机视觉项目可以利用 COCO(上下文中的常见对象)进行对象检测,或者利用 ImageNet 进行分类,而 NLP 任务可能会使用 GLUE(通用语言理解评估)基准或 SQuAD(斯坦福问题解答数据集)。 医疗保健研究人员可以访问 MIMIC-III(一个去标识化的医疗数据集)或 NIH 胸部 X 光片。 Twitter 的开发者 API 或 Reddit 的公共数据集等 API 可以实现实时或社交媒体数据收集,但它们通常需要遵守使用政策。 始终验证数据集许可证(例如,CC-BY、MIT)以确保合规性,并通过查看文档或示例数据来检查偏差或缺失值。 例如,OpenStreetMap(地理空间)或 LAION(多模态)等平台上的数据集可能需要额外的预处理,但可为大型项目提供可扩展性。 优先考虑具有清晰来源和主动维护的数据集,以避免过时或不可靠的数据。