Skip to content

深度学习计算机视觉导论

约 694 个字 预计阅读时间 5 分钟

基础概念

核心定义

构建能够处理、感知和推理视觉数据的人工系统

从数据和经验中学习的人工系统

具有多个"层"的分层学习算法,(非常)松散地受到大脑的启发

学科定位

人工智能
├── 机器学习
│   └── 深度学习
└── 计算机视觉

核心关注:深度学习 ∩ 计算机视觉

相关领域:

  • 自然语言处理
  • 语音识别
  • 机器人学

发展历程

1950-1960年代:早期基础

  • 1959年:Hubel & Wiesel

    • 研究猫视觉皮层中的神经元响应
    • 发现简单细胞对光线方向有响应
    • 复杂细胞对光线方向和运动有响应
  • 1963年:Larry Roberts

    • 从2D图像中重建3D形状
    • 三维固体的机器感知研究

1970年代:视觉表示

  • David Marr的视觉分层表示

    1. 输入图像
    2. 原始草图 (Primal Sketch)
    3. 2½-D草图
    4. 3D模型表示
  • 基于部件的识别

    • 广义圆柱体 (Brooks and Binford, 1979)
    • 图形结构 (Fischler and Elshlager, 1973)

1980-1990年代

  • 边缘检测:John Canny (1986)和David Lowe (1987)
  • 标准化切割:Normalized Cuts (Shi and Malik, 1997)

2000年代:特征与机器学习

  • SIFT (Scale-Invariant Feature Transform, 1999)
  • Viola-Jones人脸检测 (2001):机器学习首次成功应用于视觉

2007-2012:大规模数据集时代

  • PASCAL视觉对象挑战赛 (2007)
  • ImageNet (2009):1000类别,143万图像

2012至今:深度学习时代

  • AlexNet (2012):深度学习成为主流

神经网络里程碑

  1. 感知器 (1958)

    • 最早的学习算法之一
    • 硬件实现:电位器存储权重
    • 400像素图像识别
    • 本质是线性分类器
  2. Minsky & Papert (1969)

    • 证明感知器无法学习XOR函数
  3. Neocognitron (1980)

    • 受视觉系统启发的计算模型
    • 引入卷积和池化概念
    • 预示了现代CNN架构
  4. 反向传播 (1985)

    • 实现神经网络梯度计算
    • 使多层网络训练成为可能
  5. LeNet (1998)

    • 首个实用卷积网络
    • 成功应用于手写数字识别
  6. 深度学习兴起 (2006+)

    • 开始探索更深层网络
    • 关键进展:
      • Hinton (2006)
      • Bengio (2007)
      • Lee (2009)
      • Glorot (2010)

现代发展

技术进步

  • GPU专用硬件(Tensor Cores)
  • 算力持续提升

主要应用

  • 图像分类与检索
  • 对象检测与分割
  • 视频分析
  • 医学影像
  • 图像生成

前沿方向

  1. 架构创新

    • 现代CNN:SENets, MobileNets, EfficientNets
    • Transformers:ViT, DeiT, Swin
    • 类MLP架构
  2. 跨模态整合

    • 视觉语言模型:CLIP, ALIGN
  3. 自监督学习

    • 对比学习
    • 掩码自编码

伦理考量

潜在风险

  • 偏见与歧视
  • 隐私问题
  • 社会影响

积极应用

  • 医疗辅助
  • 环境保护
  • 安全监测