经典数据集
本笔记介绍一些经典的数据集
MNIST
MNIST数据集是 机器学习和深度学习入门最经典的数据集之一 ,主要用于手写数字识别任务,是人工智能界的“Hello World”。
MNIST一共包含70000张图片:
- 训练集 60000张
- 测试集 10000张

数据格式与特点
- 图像大小 :28 × 28 像素
- 通道数 :1(灰度图)
- 像素取值 :0–255
- 标签 :0–9(对应数字)
每张图像本质上是一个 28×28 的矩阵 ,非常适合当作向量或张量输入模型。
常用于:逻辑回归,KNN,SVM,FNN,CNN
现代CNN在MNIST上的准确率可以轻松达到99%以上。
CIFAR10
CIFAR-10 是 计算机视觉里仅次于 MNIST 的经典入门数据集 ,但 难度明显更高 ,常被用来检验模型是否真的“懂图像”。
| 数据集 | 数量 |
|---|---|
| 训练集 | 50,000 |
| 测试集 | 10,000 |
| 总计 | 60,000 |
其中每个类别6000张,类别分布完全均衡。

CIFAR-10 的类别是固定的这 10 个:
- airplane
- automobile
- bird
- cat
- deer
- dog
- frog
- horse
- ship
- truck
📌 特点:
- 动物 + 交通工具混合
- 类别之间 有语义相似性 (如 cat vs dog)
ImageNet
ImageNet 是由斯坦福大学的教授 李飞飞 (Fei-Fei Li) 领导的团队在 2009 年推出的,包含超过 1400 万 张已标注的图像。图像按照 WordNet 的层级结构进行组织。例如,“犬科动物”是一个大类,下面会细分出“德国牧羊犬”、“泰迪”等数千个子类。大部分图像通过众包平台(如 Amazon Mechanical Turk)进行人工标注。它是许多著名神经网络模型(如 ResNet, VGG, Inception 等)诞生的摇篮。
ILSVRC (ImageNet Large Scale Visual Recognition Challenge)是从 2010 年开始举办的年度竞赛,使用 ImageNet 的一个子集(约 1000 个类别,120 万张图片)。2012年AlexNet 以前所未有的优势夺冠,证明了卷积神经网络 (CNN) 在图像识别上的巨大潜力,开启了深度学习的热潮。