11.1 基础概念及图像表示
11.1.1 数字图像根基
概念
描述
典型值/示例
像素
作为图像的最小构成单元
在 1920×1080 分辨率的图像中,蕴含约 207 万像素
色彩空间
一种颜色的编码模式
常见如 RGB(具备 3 个通道)、HSV(基于色相与饱和度)
量化深度
体现单通道颜色的精确程度
通常有 8 比特(取值范围 0 - 255)、16 比特(取值范围 0 - 65535)
11.1.2 图像预处理
灰度化公式:

11.2 传统视觉手段
11.2.1 特征检测算法
Harris角点检测:11.2.2 图像分割
大津阈值法(Otsu阈值法):def otsu_threshold(hist): # 计算直方图元素总和 total = hist.sum() # 初始化类间方差最大值和对应的阈值 current_max, threshold = 0, 0 # 遍历所有可能的阈值 for t in range(1, len(hist)): # 计算前景和背景的像素总数 w0 = hist[:t].sum() w1 = hist[t:].sum() # 计算前景的平均灰度值,若前景像素总数为零则平均灰度值为零 mu0 = np.sum(np.arange(t) * hist[:t]) / w0 if w0 > 0 else 0 # 计算背景的平均灰度值,若背景像素总数为零则平均灰度值为零 mu1 = np.sum(np.arange(t, len(hist)) * hist[t:]) / w1 if w1 > 0 else 0 # 计算类间方差 var_between = w0 * w1 * (mu0 - mu1) ** 2 # 如果当前类间方差大于之前记录的最大值,则更新最大值和对应的阈值 if var_between > current_max: current_max, threshold = var_between, t # 返回使类间方差最大的阈值 return threshold11.3 深度学习模型
11.3.1 卷积神经网络
卷积运算:模型
深度
创新亮点
Top - 5准确率
时代特性
AlexNet
8
ReLU激活函数与多GPU训练
84.7%
2012年ImageNet竞赛折桂之作
ResNet50
50
残差连接机制
93.3%
有效化解梯度消失难题
EfficientNet
复合缩放策略
深度、宽度与分辨率协同调校
94.7%
实现资源效率的革命性跨越
11.3.2 目标检测
YOLOv5模型架构:11.4 三维视觉
11.4.1 立体匹配
视差计算:
11.4.2 NeRF神经渲染
体积渲染公式:11.5 应用系统
11.5.1 人脸识别系统——处理流程:
人脸检测(采用MTCNN算法)关键点定位(实施68点检测)特征提取(运用ArcFace方法)相似度比对(借助余弦距离度量)11.5.2 自动驾驶感知——多传感器融合:
11.6 前沿方向
11.6.1 视觉大模型——SAM分割模型:
# 从segment_anything库中导入SamPredictor类 from segment_anything import SamPredictor # 初始化SamPredictor对象,将预训练的SAM模型传递给它 predictor = SamPredictor(sam_model) # 为预测器设置待处理的图像 predictor.set_image(image) # 利用预测器进行预测,传入点坐标和点标签 # 函数返回分割掩码、分数和日志its,此处仅保留分割掩码 masks, _, _ = predictor.predict(point_coords=points, point_labels=labels)11.6.2 生成式视觉——Stable Diffusion模型:
小结
计算机视觉的核心技术涵盖以下关键方面:
特征表示层面,历经从手工特征到深度学习特征表示的显著演进。理解范畴上,实现了从二维图像理解迈向三维场景重建的跨越。模型发展态势为,从专用模型朝着通用大模型的方向不断推进。任务融合维度,达成了判别式任务与生成式任务的有机融合。关键词:卷积核、感受野、非极大抑制、视差图、扩散模型。