注:本学习笔记是自己的理解,如有错误的地方,请大家指正,共同学习进步。
本文学习自CVPR论文《Discriminative Spatial Pyramid》、《Discriminative Spatial Saliency for Image Classification》及《Beyond Bags of Features: Spatial Pyramid Matching
for Recognizing Natural Scene Categories》,在此感谢论文作者。
空间金字塔方法表示图像是传统BOF(Bag Of Features)方法的改进,传统BOF方法提取图像特征时,首先提取每张图像的SIFT特征描述,之后将所有图像的兴趣点的特征描述进行聚类形成BOW视觉词袋,最后对每张图像统计所有视觉关键词出现的频次。因此BOF是在整张图像中计算特征点的分布特征,进而生成全局直方图,所以会丢失图像的空间分布信息,无法对图像进行精确地识别。为了克服BOF的这一缺点,提出了空间金字塔方法,它是在不同分辨率上统计图像特征点分布,从而获取图像的空间信息。 图像被划分为金字塔各水平上的逐渐精细的网格序列,从每个网格中导出特征并组合为一个很大的特征向量。
1、图像尺度空间SIFT中的图像尺度空间可以理解为用高斯对图像做了卷积,图像的分辨率还是那么大,像素还是那么多,只是细节被平均(平滑)掉了,原因就是高斯了,用周围的信号比较弱的像素和中间那个信号比较强的点做平均,平均值当然比最强信号值小了,这就起到了平滑的作用。如下图所示: