深度学习计算机视觉导论
约 694 个字 预计阅读时间 5 分钟
基础概念
核心定义
构建能够处理、感知和推理视觉数据的人工系统
从数据和经验中学习的人工系统
具有多个"层"的分层学习算法,(非常)松散地受到大脑的启发
学科定位
核心关注:深度学习 ∩ 计算机视觉
相关领域:
- 自然语言处理
- 语音识别
- 机器人学
发展历程
1950-1960年代:早期基础
-
1959年:Hubel & Wiesel
- 研究猫视觉皮层中的神经元响应
- 发现简单细胞对光线方向有响应
- 复杂细胞对光线方向和运动有响应
-
1963年:Larry Roberts
- 从2D图像中重建3D形状
- 三维固体的机器感知研究
1970年代:视觉表示
-
David Marr的视觉分层表示:
- 输入图像
- 原始草图 (Primal Sketch)
- 2½-D草图
- 3D模型表示
-
基于部件的识别:
- 广义圆柱体 (Brooks and Binford, 1979)
- 图形结构 (Fischler and Elshlager, 1973)
1980-1990年代
- 边缘检测:John Canny (1986)和David Lowe (1987)
- 标准化切割:Normalized Cuts (Shi and Malik, 1997)
2000年代:特征与机器学习
- SIFT (Scale-Invariant Feature Transform, 1999)
- Viola-Jones人脸检测 (2001):机器学习首次成功应用于视觉
2007-2012:大规模数据集时代
- PASCAL视觉对象挑战赛 (2007)
- ImageNet (2009):1000类别,143万图像
2012至今:深度学习时代
- AlexNet (2012):深度学习成为主流
神经网络里程碑
-
感知器 (1958)
- 最早的学习算法之一
- 硬件实现:电位器存储权重
- 400像素图像识别
- 本质是线性分类器
-
Minsky & Papert (1969)
- 证明感知器无法学习XOR函数
-
Neocognitron (1980)
- 受视觉系统启发的计算模型
- 引入卷积和池化概念
- 预示了现代CNN架构
-
反向传播 (1985)
- 实现神经网络梯度计算
- 使多层网络训练成为可能
-
LeNet (1998)
- 首个实用卷积网络
- 成功应用于手写数字识别
-
深度学习兴起 (2006+)
- 开始探索更深层网络
- 关键进展:
- Hinton (2006)
- Bengio (2007)
- Lee (2009)
- Glorot (2010)
现代发展
技术进步
- GPU专用硬件(Tensor Cores)
- 算力持续提升
主要应用
- 图像分类与检索
- 对象检测与分割
- 视频分析
- 医学影像
- 图像生成
前沿方向
-
架构创新
- 现代CNN:SENets, MobileNets, EfficientNets
- Transformers:ViT, DeiT, Swin
- 类MLP架构
-
跨模态整合
- 视觉语言模型:CLIP, ALIGN
-
自监督学习
- 对比学习
- 掩码自编码
伦理考量
潜在风险
- 偏见与歧视
- 隐私问题
- 社会影响
积极应用
- 医疗辅助
- 环境保护
- 安全监测