典型视频镜头分割方法的比较

上传者：李道伦
|
上传时间：2015-05-04
|
密次下载

典型视频镜头分割方法的比较

典型视频镜头分割方法的比较

典型视频镜头分割方法的比较

钱

刚

曾贵华

（上海交通大学电子信息与电气工程学院电子工程系，上海!"""%"）

678+3,：93+5:+5:;-<1=$./=$25

摘

要

视频镜头分割作为视频处理的第一步，一直受到学者的关注和重视，数十年来已提出了大量的算法。该文对几

种常用的视频分割算法作了综述，分析了基于直方图的算法、基于运动的算法、基于轮廓的算法、以及直接针对压缩视频的算法等典型算法的特征，并详细研究了各种算法中帧差异值的计算和阈值设定的方法，比较了它们的优缺点，最后对视频分割算法研究作了展望。关键词

镜头

镜头分割

视频分割

文献标识码@

中图分类号AB%C’$#’

文章编号’""!7>%%’7（!""#）%!7""?’7"?

!"#$%&’(")"*+,$&,(,)-%-’.,/,-0"1("*2’1,"30"-3,4#,)-%-’")

5’%)6%)47,)468’08%

（D2E44,4*6,.21F32+,+5/G5*4F8+134565:35..F35:，DE+5:E+3H3+4145:I53J.F-31K，DE+5:E+3!"""%"）

9:(-&%;-：L3/.4-E41M4=5/+FK/.1.213453-=5/.F:,4M+,2452.F5+-1E.*3F-1-1.N4*+,,O35/-4*J3/.4NF42.--35:$@E=:.5=8M.F4*J+F34=-8.1E4/-E+J.M..5NF4N4-./+1NF.J34=-K.+F-$AE3-+F132,.:3J.-+54J.FJ3.P4*.Q3-135:1.2E0539=.-*4FJ3/.4-.:8.51+1345-=2E+-E3-14:F+8M+-./，841345M+-./，24514=FM+-./+,:4F31E8-+5/+,:4F31E84N.F+135:45248NF.--./J3/.4-1F.+8$AE.8.1E4/-4*2+,2=,+135:/3-245135=31KJ+,=.-+5/-.1135:1EF.-E4,/+F.248NF.E.5-3J.,K+5+,KR./$@5/1E.3F8.F31-+5/,3831+1345-+F.+,-42451F+-1./$G5+//31345，1E3-N+N.F:3J.-+J3.P4**=1=F./.J.,4N8.514*-E41M4=5/+FK/.1.2134514NF4J3/.+F.*.F.52.14*=F1E.F-1=/K$<,=>"&1(：J3/.4-E41，-E41M4=5/+FK/.1.21345，J3/.4-.:8.51+1345

随着网络与计算机技术的迅速发展，单调的文本信息已不再满足人们的需要，多媒体内容日益进入人们的生活，数字视频得到了越来越多的应用。于是，相关的视频处理的研究也越来越多。镜头分割是视频处理的第一步，是随后的高层内容分析、分类、索引和查询的基础。镜头分割的准确性将直接影响到后续处理的效果。因此，视频镜头的分割算法，从一开始就得到广泛的重视，它在基于内容的视频分析和检索中有着最长的研然而直到今天，仍然没有在各种究历史和最丰富的研究成果&’(。

情况下都能表现出良好性能的算法，该文试图通过对数种典型方法的比较，为进一步的研究和算法设计提供参考。

生较大变化。因此，对于不同的视频，甚至是同一视频的不同部分，其镜头内和镜头间的帧差异值的分布都可能相差很多，如视频镜头的分割虽然在某些简单的情况下较图’所示。因此，

易分析处理，但在视频中有快速运动，光线剧烈变化等极端情况和视频的渐变过程中，很多算法仍不能达到令人满意的效果。

要实现视频镜头的分割，常用的方法是计算视频中各连续帧之间底层视觉特征的帧差值!，再将!与预先设定或自适应若!#"，镜头边界存在，反之，则不存在。所以的域值"作比较，

帧差值!的定义、域值"的设定，以及两者的最佳组合成为视频镜头分割的关键。同一镜头内视频特征的变化主要由两个因素造成：对象)摄像机的运动和光线的变化&’(。对象和摄像机的运动使得镜头内不断有新的对象进入，同时又不断有旧的对象消失，如果处理不好，极易和镜头渐变混淆，造成误检（*+,-./.0。光线的变化在镜头内也经常出现，若某一场景突然变1.21345）

亮，则与亮度相关的帧差值!就会跳变，若处理不好，就会判成镜头切变，造成误检。因此，在设计算法时，要充分考虑这两个因素。

要正确判断镜头边界，应定义一个只在镜头边界处很大，而在镜头内取值相对平稳、较小的帧差值!。考虑到镜头内使镜头内容变化的两个主要因素，帧差值!的定义应该对镜头内的运动和光线变化尽量不敏感，而在镜头转换的时候能够敏锐

’视频镜头分析

镜头是指由一个摄像机镜头连续拍摄的一组内在相关的

连续帧，它用来表现在时空上连续的一组运动。镜头转换的过程伴随着语义的转换，理想的视频镜头的分割是一个语义分析的过程，但现有的算法尚不能很好地分析语义，所以大部分算法是根据镜头转换处视频底层特征（如颜色、轮廓、纹理、粗糙度等）的变化来分割镜头。一般而言，镜头的转换会导致视频内容的底层特征发生明显变化，如颜色分布的突然变化，但在某些特殊情况下，例如渐变的视频转换过程（淡入、淡出、渐隐、渐出和叠化等），底层特征的变化较缓慢而不明显。另外在同一个镜头中，视频内容的变化以及噪声的存在也会造成底层特征发

基金项目：国家自然科学基金资助（编号：S"’"!""’）

作者简介：钱刚（’CT>7），男，汉族，硕士，研究方向：视频数据库的建立及其访问控制。曾贵华（’CSS7），男，汉族，教授，博导，研究方向：量子信息处

理技术、安全视频数据库检索技术、无线通信系统与安全技术。

计算机工程与应用!""#$%!?’

典型视频镜头分割方法的比较

地抓住视频内容的变化，取得较大值。图&

镜头分割帧差异值的分布及各种域值

!视频分割的典型算法

视频镜头分割的研究已经开展了数十年，许多学者和研究

人员提出了各自的方案，对视频镜头的分割作了有益的研究和探讨。各种镜头分割方法各有所长，从不同的角度抓住视频镜头边缘的特征。总的来说，视频镜头分割大致分为基于直方图、基于运动、基于轮廓等方法。这些方法大都先将视频解压缩，再对解压缩后的视频进行分析处理，更高效的方法是直接对’()*格式的视频进行分析，

从’()*文件中（如各块的+,系数和运动向量等）得到视频信息，再用这些信息来判断镜头边界，从而不需完全解压缩就可进行视频分割，大大降低了计算复杂度，提高了效率。下面详细地分析和比较这几种典型的视频分割方法。

!$&基于直方图的算法

基于直方图的算法是最普遍的场景分割方法，它处理起来

简单方便，而且对于大多数视频，能达到比较好的效果。现对几种有代表性的算法作一比较。

基于直方图的算法是在基于像素的比较上发展来的。基于像素的算法计算两帧中每个对应像素的亮度平均绝对变化值，第!帧和第!"#帧的帧差异值定义为：

（$!，!"#）-&

!)（!’，

(）*)!"#（’，(（&）

’-&!

(-&

式中%和&分别是帧的水平和垂直方向的像素数，)（!’，(）和)!"#（’，(）分别是第!帧和第!"#帧在（’，(）处的亮度值。该算法对帧内各像素的变化很敏感，在镜头转换时会引起帧差值

$的跳变，但是对镜头内的对象和摄像机的运动也过分敏感，

视频内对象和摄像机镜头的运动都会引起很多像素亮度的改变，从而使$值变大，

导致视频镜头边界的误判。解决这个问题的方法是利用帧直方图，基于直方图的算法通常是将相邻帧的各个像素的灰度、亮度或颜色等分成&个等级，再针对每个等级统计像素数做成直方图比较，对每一帧计算直方图差值如下：

（$!，!"#）+&

.-（!

,）

/-!"#

（,）.（!）

,-&

其中&是灰度级数或颜色数等，%是一帧的像素数。该方法统计了总体的灰度或颜色分布数量，它对镜头内的运动和摄

G!!""#$%!计算机工程与应用

像机的慢速运动有着良好的容忍能力，只是在镜头内容快速变化和镜头渐变时可能会引起误检或漏检（012234435365178）。

文献9!:还提到一种交集直方图算法，其算法可以写成：&

（$!，!"#）+&/&

!018

（-（!

,），-!"#

（,））（%）

,-&%与&的定义与

（!）式相同，它计算了两帧间有相同灰度或颜色值的像素数。其本质与直方图差值法是相同的。

上述方法是计算整体的灰度或颜色的变化，而没有考虑镜头内局部的运动。若局部运动引起灰度或颜色产生较大的变化就会导致误检。为了减少运动、干扰等引起的帧差值的变化，可以将各帧分块处理，将每个帧分成#;#个大小相同的块9%:，分别比较每个块的颜色直方图，差值最大的块被剔除，余下块的直方图差值再做帧差值的计算。该方法对检验包含摄像机镜头的推移和缩放是有改进效果的，但是对检测诸如淡入淡出等特殊效果就会失败。同时在某些光线变化比较剧烈的情况下，帧差

值$也会受到较大干扰。

选定了用以定义直方图的内容，如何定义比较式也是很重要的。!!直方图法的算法9#:因其能放大帧差及算法较稳定而得到广泛的认同，其算法定义为：

"!!（.（!

$&,）/.（!,））!!-#,-&，（.（&,）!"".（!,）!"）（#）$

%"，3>23

该方法与?<@107A2B的似然率检测和C7>07D7E7A/F01E87A检测相比性能更好9G:。

在上述算法中，定义好$后，通常再确定一域值/，若$0/，则镜头边界存在。而视频镜头的转换有切变与渐变之分，它们的特征是不同的。通常渐变过程的帧差异值幅度要比切变小，但是渐变有一个持续过程。用单一的域值来判断难以适应各种情况。为此，HI<8D等人提出了双域值的算法9J:来分别检测镜头切变和渐变，如图&所示。若帧差异值大于/-，则认为发生了镜头切变，若帧差异值小于/-大于/#，则认为开始发生镜头渐变，此时累加此后的帧差异值，直到累加值达到/-，认为镜头渐变结束。若在累加途中帧差异值回落到/#以下，

则认为无镜头转换，累加器清零，重新开始判断。该方法考虑到了镜头切变和镜头渐变的差异，针对它们的特点分别检测，能满足一般的镜头分割要求。并且要累计帧差异值到/-才认为有镜头渐变，因此对突发的噪声有一定的抗干扰能力。但对于那些变化不很明显的渐变过程，很可能在累加到/#前就停止了，而如果一个渐变过程中的某两个相邻帧变化很小（小于/#），就会使累加过程停止，可能造成漏检。

以上算法在同一段视频中都采用相同的阈值，这样，对内容变化较大的视频可能会产生误检，而对内容变化较小的视频则可能产生漏检。

总的来说，基于直方图的方法比较方便简单，易于实现，计算复杂度较低，而且在一般的镜头切变的判断上可以得到较好的结果，除了使用图像的颜色值或亮度来统计直方图，还可采用K*L、?MN等三基色来进行直方图统计，其思想和方法都是类似的，并且被证明是简单有效的镜头切变检测方法。对于一般的切变和渐变镜头，如果域值设置得当，直方图算法可以达到较好的结果。

!$!基于运动的算法

内容需要下载文档才能查看

为了使镜头内各帧间的帧差值保持在较小的水平以使镜

典型视频镜头分割方法的比较

头转换处更易判断，就需要充分考虑镜头内对象及摄像机的运动，尽量将它们的影响消除。基于运动的算法充分考虑了同一镜头内对象及摄像机的运动情况和特征，通过运动补偿等方法来减小对象和摄像机运动造成的镜头内帧差值的变化。

文献&’(提出了一种块匹配算法，

将各帧分块处理，第!帧的第"块#（"!）和第!)$帧的相应块#"（，%!&$）的差异’!，!&$（"）由下式定义：

’!，!&$（"）*+,-’（#（"!），#"，（%!&$

））（/）

%(.…)*+,-"+./0

’（#（"!），#"，

（%!&$））是通过比较两块各像素的亮度来计算的，)*+,-"-+./0为与第!帧中#（"!）相对应的第!&$帧的备选块的数目。在所有块的不相似值计算好后，归一化得-!，!&$（"），最后得到帧差值：

)2$34!0

（1!，!&$）(

!4"

-"*.

!，!&$

（"）（0）

其中)2$34!0为总的块数目，4"为各个块的权重。这样，两帧的各个块之间经过运动补偿后再计算各个块的帧差值，可以避免由于快速的帧内运动引起的误判。

该算法是计算每个块中对应像素的亮度差值，虽然对各块进行了运动补偿，但发生在块中的局部运动会引起误检。若将上述方法改为计算各个对应块的平均亮度的变化值，虽然会丢失一些位置信息，但是可以改善算法对局部运动的容忍度&/(

。

计算经过运动补偿后的各个块的亮度差超过某一域值的块的数目&1(

可以进一步增强对块内局部运动的容忍度，当此数目超过某一域值时，说明变化较大的块比较多，则认为发生了镜头转换。这种方法舍弃了差值较小的块，可以放大镜头转换过程的帧差值，但同时也会放大镜头内各帧间的帧差值。

上述算法中域值的确定都是通过实验和经验设定的固定不变的域值，这样相对比较简单，但在具体视频中可能并不是最适合的值。因为不同视频和同一视频内部的视频特征是在不断变化的，单一的某个阈值不可能是所有视频的最优值。

23-435,6的算法&.(

不采用固定域值，

而是基于概率统计的方法，通过对各种不同情况建模比较，得出统计最优域值。23-435,6在其算法中引进了运动补偿，

集成了附加信息，并分别考虑了视频镜头的切变和渐变。该算法先采用与文献&’(中类似的算法求出帧差值1，用5表示不存在镜头转换。根据最小差错率原则，镜头判别的准则可表示为：

（6175）8.7:（!5

）"（’）

（6

175）1(1（!，!&$）9!5其中6（175）和6（175"）是由训练集中得出统计图，再进行曲

线拟合得出的解析式。

:（+

!5）(:（!5）:（!57!（!

））（1）

（!

5）是假设5的先验概率，它只与当前镜头已经流过的帧数有关，:（!57!（!））是与附加信息!（!）相关的条件概率。23-435,6将先验信息与附加信息集成到:（!5）中，因此，可以考虑更多的影响因素，结果也更符合实际情况。

23-435,6采用89,::9-分布模型估计一个镜头的帧数，:+

5）的定义为：

:（+

（"!）;

!5）(.!#/<#

（<）

;*"其中#为平均镜头长度，;为帧数，"（!）是!帧处当前镜头的长度，#的大小与视频的类型有关，可以从一个大的视频集里得到，这意味着需要一个庞大的包括各种视频的训练集。

:（!

57!（!））的取值与镜头边界的类型相关。对于镜头切变，采用文献&<(中的方法，比较一个滑窗内当前帧帧差值为最大值时与第二最大值之间的比值,，,越大，产生镜头切变的概率就越大。对于渐变过程可以用一个三角形来拟合，其帧差值的平方差大致为倒置的抛物线模型，实际的计算值与该模型拟合得越好则认为镜头渐变的概率就越大。

基于概率的域值设定方法旨在利用概率模型得到统计上的最优域值。但是，各个种类的视频特征的概率模型是不同的，对所有类型（如新闻、电影、教学等）的视频都采用一种概率模型会带来偏差，导致得不到最优解。最后，这种方法也极大地受制于训练集的质量和数量。

同一镜头中对象的运动和摄像机的运动可以通过运动补偿以减小其影响，但这些运动还是会干扰对镜头边界的判断&."(，

且运动补偿对块内的局部运动无能为力。更进一步的基于运动的方法要计算光流和运动向量的分布和数量，增大了计算复杂度。总体来说基于运动的方法在性能上不如颜色=亮度直方图算法&..(。

!$%基于轮廓的算法

场景变化后，整个画面的内容都改变了，场景上各对象的

轮廓也就改变了，因此可以通过跟踪轮廓的改变情况来判断镜头的转换。>$?3@A,等人提出了基于轮廓的场景分割方法&.!(，为了减少对镜头运动的敏感性，算法先用图像配准（,+3BCDCB,:EFD3F,9-）

技术来进行总体的运动补偿，然后对图像进行高斯平滑处理，以去掉一些额外的过于细节的轮廓，再用G3--H算法提取轮廓。得出的轮廓经放大后，计算变化了的轮廓比率：

$*+3I（$",，$3=.）

（."）

其中$",表示后一帧新进入的轮廓的比率，$3=.表示前一帧消失的轮廓的比率。若$明显增大，意味着可能发生了镜头的转换。

对画面简单的视频进行分割时，基于轮廓的算法效果很好，在渐变镜头的检测上尤为突出。但是，大多数的视频中主要对象或背景可能都有很多复杂、细微或不断变化的轮廓，如飘逸的长发，波光粼粼的水面等。虽然在提取轮廓前可以通过高斯滤波或小波变换滤波以减少细微轮廓的干扰，但大量的轮廓，还是会干扰对镜头边缘的判断，造成误检；而在光线比较暗和轮廓不是很明显的情况下（如晚上和雾中），由于难以检测到轮廓又会造成漏检。另外，视频中对象的快速运动也会使前后帧的轮廓位置相差较多，从而造成漏检。J$KLM3F,-,等人对各种镜头分割方法作了一个实际的比较&/(，?3A@,的基于轮廓的算法的实验结果并不令人满意，而且，较大的计算量更限制了这种算法的应用。

!$#针对压缩视频的算法

针对压缩视频的算法是对N8OJ格式的视频数据不解码

或只解码一半，对得到的数据如PGQ系数等进行分析，从而判断视频镜头边缘的算法，这种算法大大降低了计算复杂度。

RD+3-等人提出的用S帧的PGQ系数来探测场景变化的

技术&.%(，

先在每个帧的各个1T1的块中任意选取$个块，再在每个选取的块中任意选取%个RG系数，由这$%个系数组成的向量#>?(U4.，

4!，4%，…，4!V来表示这一帧的特征，其中!(%$，两计算机工程与应用!""#$%!

（

典型视频镜头分割方法的比较

帧之间的帧差值由!!

!"#!"!#$"

!来计算，若其超过某一域值，

"!#$"

则存在镜头边界。

该算法计算两帧的差别比较粗略，用来判断镜头切变可以达到比较好的效果，但是对渐变镜头的检测则效果一般。另外，由于&’()只对各个*帧进行+,-变换，更多的’帧、.帧只是通过预测来编码，所以上述算法检测镜头转化的精度也受到限制。

/01等人23#4的基于+,系数的算法既可以探测镜头切变，

又可以检测镜头渐变。该算法首先通过运动补偿，将所有’帧和.帧的+,系数折算出来，从而判断任意位置的镜头切变，不再局限于*帧。/01用下式来判断镜头切变：

（%&，’）!"*(，)+,(，)

（33）

(，)

式中#(，)表示第（(，)）个块的+,系数，#"5*，,6。镜头渐变是场景’逐渐代替场景&的过程，

该过程可以表示为：-&$#3+-$

’，"#-#.

在镜头渐变过程中，采用一种滑窗的概念，计算每隔/帧的+,-

内容需要下载文档才能查看

系数的变化，其形状类似一个“高原”，如图!所示。

图!

镜头渐变处每隔/帧的+,-系数的差值

因此，/01用两个条件来判断镜头渐变：

（3）对)!(+0，…，(73，(83，…，($0，1/

(与1)相似，其中1/

(!（%&(，&($/）

；（!）1/

($231(+/4!」

+3或1($231($/4!」$3

。第一个条件是为了检测“高原”的存在，第二个条件是为了找出“高原”和上升下降过程之间的差值。该算法在)9:;<等人做的各种基于&’()的镜头探测方法的性能比较中2334有比较出色的表现。

白雪生等人对于镜头渐变的检测又作了进一步发展23=4，用两个准则进行判断。一是计算出每隔/帧的+,图像差序列，若有镜头渐变，则会有一个类似梯形的峰（图!）。二是定义连续/帧的+,图像线性偏差序列：

/735（/-）!"%617（-$(）+%37(

617（-）+(617（-$/+3）%（3!）(!"

若无镜头变化，则由于镜头内对象的运动造成5（/-）值变化较大，而若是镜头渐变，由于他认为信号在渐变时以线性变化为主，所以可以假设5（/-）几乎为零，从而出现谷值。通过上述两个判据来联合检测，使镜头渐变的检测更加可靠。但这种算法是假设镜头渐变时，镜头内对象无运动而只有亮度的渐变，故若镜头渐变中伴随着对象的运动时，第二个条件中的谷底就不会出现，从而造成漏检。

上述算法主要对+,系数作了比较深入的讨论，为了充分利用&’()编码里的信息，

文献23>4对&’()视频内的运动信息也作了全面的分析。该算法先根据*帧中+,系数的直方图找出备选镜头变化帧集83。考虑到镜头切变前的.帧中前向

=#!""#$%!计算机工程与应用

预测较多，切变后的.帧中后向预测较多，据此，可以找出备

选镜头变化帧集8!。对于镜头渐变与运动剧烈的视频，运动向量有较大的振荡，据此，由振荡的频率大小找出可能是这种情况的帧集8%。由于在运动剧烈时，

编码器难以用运动补偿来编码，这时通常会增加*帧的分布密度，由此计算出*帧密度较大的帧集8#表示运动激烈的视频帧集。最后用87!8388!78%78#来得出镜头切变的帧的集合，

用89!8%78#来检测镜头渐变的帧的集合。该算法充分利用了&’()编码中的运动矢量的信息，与传统方法相比，在渐变镜头的检测上表现更优。

上述几个算法中，域值仍然是预先设定的，不会随着视频内容的变化而变化。/01等人对23#4中镜头切变的检测提出了自适应域值法2?4，

阈值的设定不再固定不变。镜头的变化是和局部的视频信息相关的，所以，算法采用一个长度为!:73的滑窗以在窗口中检验各帧，当满足以下条件时：

（3）1($1)，)!2+:83，…，2+3，283，2$:73；（!）12是次大值的;倍。

则认为在第@帧处有镜头的切变，其中1(!%（&(，&($3），即第(帧和(83帧的帧差值。该算法采用了滑窗的概念，

依次在固定长度的区域内检测镜头转换，各滑窗内的阈值与窗内次大值相关，因此各滑窗内的阈值都是不同的，是自适应的。即使不同视频段或同一视频段中不同部分的视觉特征有较大变化，该算法也能很好地适应。

针对压缩视频的算法不需进行解码，因此效率较高。文献

2?4中的研究也表明直接在压缩视频上计算的帧差值的分布与

解压缩后的帧差值的分布是有对应关系的，因此是一种比较好的算法。但是这种方法仅限于&’()格式的视频（也可推广到A$!>B格式的视频）

。随着越来越多的视频格式的发展，针对其它视频格式的分割方法还有待进一步研究。

!$=其它方法

以上介绍的算法几乎都用到了阈值，而阈值的选定是很困

难的，通常只是靠经验与实验来确定，若用聚类或决策树的方法来进行视频分割，则可避免域值的设定，克服设定的域值对输入视频内容变化敏感等缺点。如无监督的聚类方法———C均值算法23D4，根据相邻帧的颜色直方图来自动将帧差值分为场景变化和无场景变化两类。单独出现的场景变化处判断为镜头切变，连续出现的场景变化处判断为渐变。其最大优点在于去掉了域值的设定并且利用多个特征（通过计算特征向量的欧氏距离）来改善检测的可靠性。其实质是根据均方误差和最小的准则，将帧差值分成两类，其结果是与分别对每段视频设置合理的全局整体域值相同。这种算法对各段视频序列有自适应的能力，但对噪声的干扰比较敏感，并且如果渐变镜头不是很明显，容易将其分入无场景变化类。

,E<7,EFGH1等人的模糊,均值

（I,&）聚类法23J4将所有帧差值分为镜头变化（K,）、可能镜头变化（KK,）和无镜头变化LK,）三类，再依次分析K,中的各两个相邻成员87（(）和87(83）中的;个KK,成员887（)），887（)83）…887（)$;73），通过下式来判断KK,中的各帧是属于镜头变化还是无镜头变化：

<=887（/）$>?@?:32"$=3（<=87（(）$<=87（(83））4

（3%）其中<=887（/）是887（/）的直方图差值，即帧差值；<=87(）和<=87（(83）分别为87（(）和87（(83）的帧差值。此外，由于不可能在两个连续的帧间发生镜头变化，所以有些887（/）的帧即使满足式（3%），也不能列入镜头变化。其主要优点是不需

（（（

典型视频镜头分割方法的比较

要设定域值和加进了&&’类，从而对一些边缘性的情况可以作出更合理的判断。

此外，还可以直接对每帧的特征值进行分类，由于同一镜头内各帧的相似性，它们会聚成一类，而镜头转换后由于镜头内容的变化造成各帧特征值的变化，下一个镜头的帧就会聚入另一类。文献()*+用无监督的分类法对,-./视频的0帧的亮度与色差的1’系数进行聚类，通过阈值!来控制分类数，被分进同一类的相邻的帧便为同一镜头。这种算法直接对,-./视频处理，减小了计算复杂度，且避免了阈值的设定，但若同一镜头内的内容变化较大时，其间的帧可能会被分入不同的类，造成误检。且其分类结果与起始帧相关。

除此以外，研究人员还提出了其它令人感兴趣的视频镜头的检测方法。例如，&$2$-34564等人提出了在频域分割视频的方法(!"+，’6476839:等人提出了用两帧的互信息和联合熵来判断镜头边界存在的方法(!)+，对镜头的切变和渐入、渐出等特效都能达到比较好的检测效果。蔡莉华等人也提出用熵域值检测镜头切变(!!+

，随着研究的进一步深入和多学科的交叉融合，相信会有更多的技术、算法用到镜头分割上。

%展望

镜头边缘的检测已经有很多成果，虽然现在还没有被广泛

接受的算法，但有些算法以其计算量小，效果好得到了良好的应用。如在,;<5=2=6>(!%+，2=?.(!#+等中都采用了在,-./域中直接分割的技术。将来镜头分割的方法在控制计算复杂度的基础上，将主要集中在提高镜头检测的查准率（@46A=B=37）和回调率46A:<<）

上，尤其是对各不同类别的渐变镜头（如渐隐、渐现、融入、融出等等）的区分和检测，将是一个难点。

根据上文的分析比较，该文认为视频镜头分割技术的发展趋势为：

（)）由于在,-./域中直接进行分割将大大减小计算复杂度，且其已包含大部分视频内容的信息，对镜头分割的研究应主要集中在针对压缩域视频。

（!）由于各段视频和各视频内视觉特征的不同，对域值的设定要求比较高，因此，自适应域值算法或不用设域值的聚类和决策树算法会得到更多关注。

（%）

从其它方面，另辟蹊径对视频内容进行分析，如上文提到的利用熵或在频域进行镜头分割，这些新的思想往往能解决传统方法中的难题。

（#）对于仅仅用在某个领域的视频数据库，可以根据具体视频特征来研究出有针对性的算法，如对于专门的新闻视频，可以考虑主持人和新闻内容的交替出现和字幕。这种专门的算法在特定视频中的效果往往比通用的方法好。

（C）随着今后,-./#、,-./D等基于对象的视频编码标准得到进一步的完善和发展，视频镜头的分割可以直接根据编码中的对象来判断，相信以后会有更方便准确的算法。

#总结

虽然对镜头分割算法的研究已有很多，但总体来说，得到

大家一致认可的算法仍没有。对镜头渐变的检测是一个难点，现有的方法中还没有特别好的结果，其查准率和回调率都还比较低

(C，))+

，许多方法甚至都是只针对镜头切变的。因此，对镜头

分割的研究仍在继续之中，是视频检索中的一个重要课题。随

着下一代互联网的发展，作为视频检索的基础技术之一的镜头分割技术将成为一项重要的技术。（收稿日期：!""#年C月）

参考文献

)$EF:7G:<=A$&H35IJ3;7K:4LK656A5=37：;74:96<6K:7K46B3<96KM(N+$0...’=4A;=5B:7K&LB56OBP342=K63Q6AH73<3RL，!""!；)!（!）：*"S)"C

!$,T6;7R，?UT63，VV3<P65:<$2=K63J43>B=7R;B=7RA<;B564=7R:7KBA67654:7B=5=37B37A3O@46BB6KB6W;67A6B$0&XQY&-0.,;<5=O6IK=:’3O@;5=7R:7KZ65>348=7R，)**C：%**S#)%

%$EZ:R:B:8:，TQ:7:8:$E;53O:5=A9=K63=7K6[=7R:7KP;<<IO35=37B6:4AHP343JG6A5:@@6:4:7A6B(’+$07：-43A0\0-Q’!YV/!$]&6A37KV348=7R’37P372=B;:<1:5:J:B6&LB5，)**)：))%S)!D

#$EZ:R:B:8:，TQ:7:8:$E;53O:5=A9=K63=7K6[=7R:7KP;<<I9=K63B6:4AHP343JG6A5:@@6:4:7A6B$2=B;:<1:5:J:B6&LB56OB00，.<B69=64&A=67A6-;J<=BH64（Z345HIF3<<:7K），)**!：))%S)!D

C$/U;@:5=7=，’&:4:A673，^U637:4K=$&A676J46:8K656A5=37：:A3O@:4=IB37(’+$07：-43A’375=7;3;BI,6K=:1:5:J:B6B:7KE@@<=A:5=37B，)**_：%#S#)

]$FN‘H:7R，Ea:78:7H:<<=，&V&O3<=:4$E;53O:5=A@:45=5=37=7R3PP;<<IO35=379=K63(N+$,;<5=O6K=:&LB56OB，)**%；（))）：)"S!_

D$?&H:H4:4:L$&A676AH:7R6K656A5=37:7KA375675IJ:B6KB:O@<=7R3P9=K63B6W;67A6B(’+$07：-43A0&XQY&-0.，)**C；!#)*：!S)%

_$FN‘H:7R，Ea:78:7H:<<=，&V&O3<=:4$2=K63@:4B=7R:7KJ43>B=7R;B=7RA3O@46BB6KK:5:$,;<5=O6K=:Q33<B:7KE@@<=A:5=37B，)**C：_*S)))

*$?UT63，?U=;$^:@=KBA676:7:<LB=B37A3O@46BB6K9=K63(N+$0...’=4A;=5B&LB52=K63Q6AH73<，)**C；C：C%%SC##

)"$^U=67H:45$^6<=:J<654:7B=5=37K656A5=37=79=K63B：:B;496L:7K@4:A5=5=3764bBR;=K6(N+$075647:5=37:<N3;47:<3P0O:R6:7K/4:@H=AB，!"")；（)%）：#]*S#_]

))$c/:4R=，^a:B5;4=，&F&54:L64$-64P34O:7A6AH:4:A564=d:5=373P9=K63IBH35IAH:7R6K656A5=37O65H3KB(N+$0...’=4A;=5BE7K&LB56OB\342=K63Q6AH73<3RL，!"""；)"（)）：)S)%

)!$^‘:JH=，N,=<<64，a,:=$EP6:5;46IJ:B6K:<R34=5HOP34K656A5=7R:7KA<:BB=PL=7RBA676J46:8B(’+$07：-43AE’,,;<5=O6K=:，)**C：)_*S!""

)%$\E4O:7，EFB;，,T’H=;$0O:R6@43A6BB=7R37A3O@46BB6KK:5:P34<:4R69=K63K:5:J:B6B(’+$07：&-0.-43A&534:R6:7K^654=69:<P340O:R6:7K2=K631:5:J:B6B，)**%：!]DS!D!

)#$?UT63，?U=;$E;7=P=6K:@@43:AH5356O@34:<B6RO675:5=373PO35=37N-./:7K,-./A3O@46BB6K9=K63B(’+$07：-43A3P5H607564I7:5=37:<’37P6467A63P,;<5=O6K=:’3O@;5=7R:7K&LB56OB，)**C：_)S__

)C$白雪生，

徐光佑，史元春$镜头频度用于视频检索的研究(N+$软件学报，)***；)"（*）：*C]S*])

)]$傅庆东，

程义民，王以孝$含有复杂运动的,-./压缩域镜头分割算法(N+$电路与系统学报，!""!；（D!）：%"S%#

)D$?/e7B6<，E,\64O:7，E,Q68:<@$Q6O@34:<9=K63B6RO675:5=37;B=7R;7B;@649=B6KA<;B564=7R:7KB6O:75=A3JG6A554:A8=7R(N+$N3;47:<3P.<6A5437=A0O:R=7R，

)**_；（D%）：C*!S]"#)_$’’U3，&NV:7R$2=K63B6RO675:5=37;B=7R:H=B53R4:OIJ:B6KP;ddLAIO6:7BA<;B564=7R:<R34=5HO(’+$07：0...075647:5=37:<\;ddL&LB56OB’37P6467A6，!"")：*!"S*!%

)*$金红，

周源华，梅承力$用非监督式聚类进行视频镜头分割(N+$红外与激光工程，!"""；!*（C）：#!SC)

（下转_#页）

计算机工程与应用!""#$%!

（