[视觉] 计算机视觉知识点小结


Gestalt Laws(格式塔法则)


Law of Proximity(接近原则)算法

        物体越接近,那么它们更容易被感知为同一组的。数组


Law of Similarity(类似原则)网络

        若物体具备类似特征,那么它们更容易被感知为同一组的。框架


Law of Common Fate(共方向原则)函数

        若物体向共同方向运动,那么它们更容易被感知为同一组的。性能


Law of Symmetry(对称原则)学习

        咱们倾向于把不对称,不彻底,复杂的图形感知成对称、彻底、简单的图形。大数据


Law of Continuity(连续原则)ui

        咱们倾向于感知连续,而不是零散。也就是咱们会把一些看起来零碎的东西看作是连续的。spa


Law of Closure(封闭原则)

        哪怕物体不完整(不存在),咱们也能根据认知脑补出缺失的部分。


Marr视觉表示框架的三个阶段?


        Primal Sketch

        进行图像处理。提取角度、边缘、纹理、线条、边界等基本特征。

        2.5D Sketch

        以观测点为中心的坐标系中,恢复场景可见部分深度、法线、轮廓等信息。

        3D Model

        以物体为中心的坐标系中,恢复、表示和识别三维物体。


二值图像


        几何特性

        面积:
  


        区域中心:



       方向:

        有些形状无方向,其他以长轴方向为形状的方向。
        方向的直线方程:
     

         求出夹角:
        


        伸长率:
        



         密集度:
        


        形态比:

        区域的最小外界矩形长宽比。


        欧拉数:连通份量数 - 洞数

投影计算


        水平投影:计算每一列像素为1的个数。
        垂直投影:计算每一行像素为1的个数。
        对角线投影:从左下到右上,计算每个对角线像素为1的个数。

连通区域


        连通份量标记算法(贯序)


        第一个方法是递归,也就是找到没有标记的像素值为1的点,递归标记邻接点。
        第二个方法是贯序,就是从左到右,从上到下扫描。对于当前扫描到的像素点,若是它的像素值为1:
                 1)上面点和左面点仅有一个有标记,复制
                 2)上面点和左面点标记相同,复制
                 3)上面点和左面点标记不一样,复制上面点的标记,并记录为等价标记。
                 4)上面点和左面点都无标记,分配一个新的标记。

        区域边界跟踪算法


        (1)从左到右,从上到下扫描图像,求得起始点。
        (2)c为当前跟踪的像素点:
           
            从n1~n8,找到第一个边界点。则找到的点为新的c。
            (3)重复上述操做。直到回到第一个边界点。

边缘


         模板卷积(能计算卷积)


        Origin of Edges


        surface normal discontinuity(表面法线不连续)

        depth discontinuity(深度不连续)
   
        surface color discontinuity(表面颜色不连续)

        illumination discontinuity(光照不连续)


        边缘检测的基本思想


        边缘检测的目标是找到图像中突变(不连续)的地方。大多数语义和形状的信息都能从边缘信息中获取。


        基于一阶的边缘检测(梯度)


        (1)Roberts交叉算子

        

        (2)Sobel算子

        

        (3)Prewitt算子
        

        

        基于二阶的边缘检测


        原理:二阶导数过零点为边缘

        -Laplacian算子

       

      
     

        -LoG算子

       先与高斯函数卷积,再求拉普拉斯微分;或先求拉普拉斯微分,再与图像卷积。
     
       (拉普拉斯)


         为何高斯: 平滑去噪和边缘检测是一对矛盾,应用高斯函数的一阶导数,在两者之间得到最佳的平衡 

       Canny边缘检测


        1.高斯滤波

        

        2.一阶偏导计算梯度和方向

        
        
        3.梯度幅值非极大值抑制

        

        将方向角离散到四个扇区之一。

        

          (若是M[i,j]不比沿梯度线方向上的两个相邻点幅值大,则N[i,j] = 0)

        4.用双阈值检测和链接边缘
        (1)设高低两个阈值
        (2)大于两个阈值:是边缘;大于低阈值小于高阈值,多是边缘。
                  在高阈值边缘图中出现断点后,在低阈值边缘图中搜索边缘点。

      

局部特征


        Harris角点检测

        
       w(x,y)为窗口,I 为导数,u,v为偏移。

        以上公式可近似为:

        

        其中:

        

        推导过程:

        

        咱们能够求出M的特征值,若是两个特征值都很大,而且比较接近,那么是角点;若是一个远大于另外一个,那么是边;不然是平面区域。
         
        用响应函数R来衡量是不是角点,计算方法以下(k取0.04-0.06):

       

        若 R>0(大于某一阈值),则为角点;R<0,则为边;R绝对值很小,则为平面区域。
        选取R获得的符合条件点的局部最大值做为结果。
         

        SIFT描述子

        1.构建尺度空间,创建图像金字塔。

        2.寻找极值点(相邻的26个点中最大/最小值)

        3.去除很差的特征点:使用近似的harris corner,检测关键点的位置和尺度,而且去除边缘响应点。

        4.16X16的窗口来检测特征。
            对每一个像素计算边的朝向(梯度角度-90),而后转换到8个方向上,并分割到4X4的网格中。(共128维数据)
           剔除很差的边(梯度阈值)。
           建立存留边朝向的直方图。
       
            利用关键点邻域像素的梯度方向分布特性为每一个关键点指定方向参数,使算子具有旋转不变性。

        尺度不变的原理

        哪怕处在不一样的尺度,它们对应的区域是相同的。


Hough变换直线检测


        图像中每一点对参数组合进行表决,赢得多数票的参数组合为胜者(结果)。
        用极坐标来表示直线,从(x,y)转换到(p,0)空间。

        

        1.量化参数空间(到合适的精度)
        2.初始化累加器为零。
        3.对每一点,在其知足的参数方程对应的累加器加1.
        4.获得累加器最大值对应模型的参数


图像的傅立叶变换


        变换:用正弦来表示,对于二维图像而言,由如下的基图像表示:
        
        低频与高频:亮度灰度剧烈变化的地方是高频(图像边缘和轮廓的度量),对应边缘;变化不大的是低频(图像强度的综合度量),对应大片色块。近处看到的是高频份量,远处观察到的是低频份量。
         

怎么理解拉普拉斯金字塔的每一层是带通滤波?


         拉普拉斯金字塔是将图像下采样后再上采样获得的差值图像。
         相减 保留细节 高通
         下采样 降噪 低通

相机模型

景深:

摄像机镜头可以取得清晰图像的成像所测定的被摄物体先后距离范围。

景深大,背景和物体都很清楚;景深小,物体清楚,但背景虚化。

景深随镜头的焦距、光圈值、拍摄距离而变化。对于固定焦距和拍摄距离,使用光圈越小,景深越大。

焦距越短,镜头的视场角越宽。

Equation 1

         

        理想的针孔相机(pinhole camera)模型


       投影公式:

        

       参数:
       内参数 
       
         fx,fy焦距,cx,cy主点坐标


       
       其中,dx和dy是x和y方向一个像素的长度;r是;u0和v0表明图像中心和原点坐标之间横纵相差的像素个数。

uv1=1dx0001dy0001xy1

K=fx000fy0u0v01

        考虑倾斜:
        
uv1=1dx00ctanθdxsinθdy0001xy1

K=fx00sfy0u0v01=fdx00fctanθdxfsinθdy0(x0y0ctanθ)dxy0sinθdy1


人脸识别


        主元分析(PCA)


        用于数据集降维。
        选择一个新的坐标系统进行线性降维,使得第一轴上是最大投影方向,第二轴上是第二大投影方向……以此类推。

     假设原样本数据x投影到一个单位向量a上,投影结果是

   (向量的投影:,因为投影方向为单位向量,则,即

     最终获得的投影结果的方差最大,即便得varz)最大。

     

       其中S表明协方差矩阵。

       求最大投影方向:在限制条件下,使最大(拉格朗日乘数法)

      

      通过计算,获得投影方向a是矩阵方向S最大特征根对应的特征向量。


        Eigenface


        1.预处理:根据人眼位置进行裁剪,进行灰度均衡化。
 
        2.将二维人脸图像按一行行向量拼成一列,获得列图像;并把全部列图像拼起来,并求出平均人脸。
   
        3.求图像的协方差矩阵。

        4.求协方差矩阵的特征值,以及归一化的特征向量,即为特征人脸。


        识别  

        将两张图像都投影到人脸空间,比较投影向量的欧氏距离。
 
        重构

        将图像投影到人脸空间,经过左乘特征人脸空间矩阵恢复。

       


光流


        光流解决的是什么问题?


        评估从H到I的像素运动,给出图像H中的一个像素,找到图像I中相同颜色的相近像素。解决的是像素对应问题。

        光流三个基本假设是什么?


        亮度恒定性

        空间相干性

        细微运动  

        一个点的约束公式会推导


        
        

        哪些位置光流比较可靠?为何?


       high textured?corner。

图像分割


         基于k-means聚类的图像分割


      第一步:任意选择ksift特征点做为初始聚类质心。

      第二步:对于每一个sift特征点,计算它们与k个聚类质心的欧式距离,找到最小的那个聚类质心,将该特征点放入此聚类质心集合中。

      第三步:对于每一个聚类质心集合,用全部元素均值来更新质心。

      第四步:比较更新先后聚类质心集合是否相近(距离小于某阈值),相近则完成聚类,不然返回步骤2,若是迭代次数太多聚类失败。



         基于Mean Shift的图像分割基本原理与基本思路

        原理: 特征值的加权几率分布来描述目标模型
        第一步:选择一点x为圆心,h为半径,画圆,获得落在圆中的全部点。
        第二步:对于全部点,将其与点x相连获得多条向量,求向量的和获得质心:
                     
        
        第三步:相加后获得了新的质心转移向量,以新向量的终点为圆心,重复一二步,直到收敛(转移向量接近于0)。
         

相机模型


        径向畸变:

        由不完美的镜头致使(镜头的形状);孔的位置
        偏离在光穿过镜头边缘的时候比较明显。
        

        切向畸变:

        光学元件的偏移

        外参有哪几个?分别表明什么含义?

        
        旋转和平移
       

         内参、外参、畸变参数在成像各阶段中的角色(从三维物体到真实图像的过程)


         


相机定标


        相机定标须要求解哪些参数?


        Distortion coeffients, intrinsic para., extrinsic para.

        基于Pattern/Reference Object的相机定标– 已知什么?求解什么?– 简述其基本过程哪几个步骤?

        已知:N个角点的标定对象,标定对象的K个视角

        求解:相机参数,如内参外参和畸变参数

        流程:1.标定对象:知道网格角点的位置

                    2.从图像中找到角点

                    3.创建等式:将图像坐标转换到世界坐标的等式

                    4.求解公式,获得相机参数


立体视觉


        立体视觉的三角测量基本原理(Triangulation 公式)– 会画算“视差disparity”的那张图,并能推导公式

        
         
 

        立体视觉的基本步骤( review: How toDo Stereo)


        1.标定相机(消除畸变影响)
   
        2.校订图像
 
        3.计算差距(disparity)

        4.估计深度


三维数据获取


        结构光成像系统的构成

        结构光投影仪 + CCD相机 + 深度信息重建系统


        利用结构光获取三维数据的基本原理– 会画图,会推导公式

        


        ICP算法的做用及其基本步骤


        迭代最近点方法(ICP, Iterative Closest Point)
        给定两个三维点集X与Y,将Y配准到X:
         ① 计算Y中的每个点在X中的对应最近点;
         ② 求使上述对应对点的平均距离最小的刚体变换,得到刚体变换参数(平移参数与旋转参数);
         ③ 对Y应用上一步求得的刚体变换(平移与旋转),更新Y;
         ④ 若是X与Y的对应点对平均距离大于阈值,Goto ①,不然,中止计算

物体识别


        基于词袋(BoW)的物体分类


        1.特征提取与表示
        2.经过训练样本聚类来创建字典
        3.用字典的直方图来表达一张图像
        4.根据bag of words来分类未知图像

        关于深度学习

       
        基本想法:
        1.一样被称为representation learning.
        2.是否存在方法用监督或非监督的方式从数据集中提取有意义的特征
        3.而后,经过多层构建使得它有“深度”

       一些深度学习方法提出都较早,但到近几年才兴起,为何?


      深度学习虽然很早提起,但因为没有大数据和高性能计算支持,深度学习没法发挥它的功能;而这两个特性是随着近几年科技发展才知足条件的。


        目前为止,深度学习特别成功的应用都有哪些?


        1.微软: 基于深度神经网络的语音识别系统
      2.Hinton构建的深度神经网络
      3.word2vector