Skip to content

经典数据集

本笔记介绍一些经典的数据集

MNIST

MNIST数据集是 机器学习和深度学习入门最经典的数据集之一 ,主要用于手写数字识别任务,是人工智能界的“Hello World”。

MNIST一共包含70000张图片:

  • 训练集 60000张
  • 测试集 10000张

1770170739922

数据格式与特点

  • 图像大小 :28 × 28 像素
  • 通道数 :1(灰度图)
  • 像素取值 :0–255
  • 标签 :0–9(对应数字)

每张图像本质上是一个 28×28 的矩阵 ,非常适合当作向量或张量输入模型。

常用于:逻辑回归,KNN,SVM,FNN,CNN

现代CNN在MNIST上的准确率可以轻松达到99%以上。

CIFAR10

CIFAR-10 是 计算机视觉里仅次于 MNIST 的经典入门数据集 ,但 难度明显更高 ,常被用来检验模型是否真的“懂图像”。

数据集 数量
训练集 50,000
测试集 10,000
总计 60,000

其中每个类别6000张,类别分布完全均衡。

1770171050604

CIFAR-10 的类别是固定的这 10 个:

  1. airplane
  2. automobile
  3. bird
  4. cat
  5. deer
  6. dog
  7. frog
  8. horse
  9. ship
  10. truck

📌 特点:

  • 动物 + 交通工具混合
  • 类别之间 有语义相似性 (如 cat vs dog)

ImageNet

ImageNet 是由斯坦福大学的教授 李飞飞 (Fei-Fei Li) 领导的团队在 2009 年推出的,包含超过 1400 万 张已标注的图像。图像按照 WordNet 的层级结构进行组织。例如,“犬科动物”是一个大类,下面会细分出“德国牧羊犬”、“泰迪”等数千个子类。大部分图像通过众包平台(如 Amazon Mechanical Turk)进行人工标注。它是许多著名神经网络模型(如 ResNet, VGG, Inception 等)诞生的摇篮。

ILSVRC (ImageNet Large Scale Visual Recognition Challenge)是从 2010 年开始举办的年度竞赛,使用 ImageNet 的一个子集(约 1000 个类别,120 万张图片)。2012年AlexNet 以前所未有的优势夺冠,证明了卷积神经网络 (CNN) 在图像识别上的巨大潜力,开启了深度学习的热潮。


评论 #