本文从技术角度对MPEG-2的视频标准、MPEG-4 AVC/H.264和AVS视频(GB/T 200090.2) 三个视频标准进行对比,包括技术方案、主观测试、客观测试、复杂度等四个方面。
一、技术对比
AVS视频与MPEG标准都采用混合编码框架(见图1),包括变换、量化、熵编码、帧内预测、帧间预测、环路滤波等技术模块,这是当前主流的技术路线。AVS的主要创新在于提出了一批具体的优化技术,在较低的复杂度下实现了与国际标准相当的技术性能,但并未使用国际标准背后的大量复杂的专利。AVS-视频当中具有特征性的核心技术包括:8x8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等。熵编码反量化反变换控制数据量化后的变换系数运动数据帧内/帧间编码控制解码器运动估计变换/量化- 环滤波帧内 预测 运动补偿预测
图 1 典型视频编码框架
AVS视频编码器框图如下图所示。
图 2 AVS视频编码器框图
AVS视频标准定义了I帧、P帧和B帧三种不同类型的图像,I帧中的宏块只进行帧内预测,P帧和B帧的宏块则需要进行帧内预测或帧间预测,图中S0是预测模式选择开关。预测残差进行8×8整数变换(ICT)和量化,然后对量化系数进行zig-zag扫描(隔行编码块使用另一种扫描方式),得到一维排列的量化系数,最后对量化系数进行熵编码。AVS视频标准的变换和量化只需要加减法和移位操作,用16位精度即可完成。
AVS视频标准使用环路滤波器对重建图像滤波,一方面可以消除方块效应,改善重建图像的主观质量;另一方面能够提高编码效率。滤波强度可以自适应调整。
AVS标准支持多种视频业务,考虑到不同业务之间的互操作性,AVS标准定义了档次(profile)和级别(level)。档次是AVS定义的语法、语义及算法的子集;级别是在某一档次下对语法元素和语法元素参数值的限定集合。为了满足高清晰度/标准清晰度数字电视广播、数字存储媒体等业务的需要,AVS视频标准定义了基准档次(Jizhun profile)和4个级别(4.0、4.2、6.0和6.2),支持的最大图像分辨率从720×576到1920×1080,最大比特率从10 Mbit/s到30 Mbit/s。
表1 AVS与MPEG-2、MPEG-4 AVC/H.264使用的技术对比和性能差异估计
视频编码标准
MPEG-2视频
MPEG-4 AVC/H.264视频
AVS视频
AVS视频与AVC/H.264性能差异估计
(采用信噪比dB估算,括号内的百分比为码率差异)
帧内预测
只在频域内进行DC系数差分预测
基于4×4块,9种亮度预测模式,4种色度预测模式
基于8×8块,5种亮度预测模式,4种色度预测模式
基本相当
多参考帧预测
只有1帧
最多16帧
最多2帧
都采用两帧时相当,帧数增加性能提高不明显
变块大小运动补偿
16×16
16×8(场编码)
16×16、16×8、8×16、8×8、8×4、4×8、4×4
16×16、16×8、8×16、8×8
降低约0.1dB
(2-4%)
B帧宏块直接编码模式
无
独立的空域或时域预测模式,若后向参考帧中用于导出运动矢量的块为帧内编码时只是视其运动矢量为0,依然用于预测
时域空域相结合,当时域内后向参考帧中用于导出运动矢量的块为帧内编码时,使用空域相邻块的运动矢量进行预测
提高0.2-0.3dB
(5%)
B帧宏块双向预测模式
编码前后两个运动矢量
编码前后两个运动矢量
称为对称预测模式,只编码一个前向运动矢量,后向运动矢量由前向导出
基本相当
¼像素运动补偿
仅在半像素位置进行双线性插值
½像素位置采用6拍滤波,¼ 像素位置线性插值
½像素位置采用4拍滤波,¼像素位置采用4拍滤波、线性插值
基本相当
变换与量化
8×8浮点DCT变换,除法量化
4×4整数变换,编解码端都需要归一化,量化与变换归一化相结合,通过乘法、移位实现
8×8整数变换,编码端进行变换归一化,量化与变换归一化相结合,通过乘法、移位实现
提高约0.1dB(2%)
熵编码
单一VLC表,适应性差
CAVLC:与周围块相关性高,实现较复杂
CABAC:计算较复杂
上下文自适应2D-VLC,编码块系数过程中进行多码表切换
降低约0.5dB(10-15%)
环路滤波
无
基于4×4块边缘进行,滤波强度分类繁多,计算复杂
基于8×8块边缘进行,简单的滤波强度分类,滤波较少的像素,计算复杂度低
——
容错编码
简单的条带划分
数据分割、复杂的FMO/ASO等宏块、条带组织机制、强制Intra块刷新编码、约束性帧内预测等
简单的条带划分机制足以满足广播应用中的错误隐藏、恢复需求
——
DCT(Discrete Cosine Transform):离散余弦变换
VLC(Variable Length Coding):变长编码
CAVLC(Context-based Adaptive Variable Length Coding):基于上下文的自适应变长码
CABAC(Context-based Adaptive Binary Arithmetic Coding):基于上下文的自适应二进制算术编码
FMO(Flexible Macroblock Ordering):灵活的宏块排序
ASO(Arbitrary Slice Ordering):任意条带排列
二、主观评价和客观测试
压缩效果的评价标准有主观评价和客观评价两种,各有优缺点。主观评判是聘请专门的评价人员来比较压缩之后再恢复的视听效果和原始效果的差异,通常是在专门的视听环境中按照一定的规则进行主观评分。客观评判则是通过一种具体的算法来统计多媒体数据压缩结果的损失,例如信噪比SNR(即信号与噪声之比的对数)。主观评判和客观评判有时相差很大,因此衡量一个算法的好坏就需要在这二者之间找到一个平衡点。对一套标准的评价,通常开发过程中采用客观评价的方法,但最终要得到主观评价的确认。
1.MPEG-4 AVC视频标准主观测试
2002年10-12月,MPEG 组织了专题组对AVC (ISO/IEC 14496-10 | ITU-T Rec. H.264) 与MPEG-4 Visual (ISO/IEC 14496-2)和MPEG-2 Video (ISO/IEC 13818-2)标准进行了测试。测试在FUB/ISCTI (意大利)、NIST (美国)和TUM (德国)进行,测试结果表明AVC的编码性能有显著提高。
本次测试标准清晰度(SD)和高清晰度(HD)采用的测试条件(视频序列和码率)如下表:
表2 AVC标清测试条件
Test
SD Main Test
Codecs
AVC Main @ L3 compared against MPEG-2 MP@ML (MPEG-2 TM5 & HiQ)
Resolution
SD
Sequences
Mobile & Calendar, Husky
Tempete, Football
Input rate
50 fields per seconds
60 fields per seconds
Bitrate
6 Mbps, 4 Mbps, 3 Mbps, 2.25 Mbps, 1.5 Mbps (AVC only)
Maximum allowed intra refresh period
0.5 seconds
表3 AVC高清测试条件
Test
HD Main Test
Codecs
AVC Main @ L4compared against MPEG-2 MP@HL (MPEG-2 TM5 & HiQ)
Resolution
720(60p)
1080(30i)
1080(25p)
Sequences
Harbour, Crew
Stockholm Pan, New Mobile & Calendar
Vintage Car, Riverbed
Input rate
60 frames per second
60 fields per second
25 frames per second
Bitrate
20Mbps, 10Mbps, 6Mbps
20Mbps, 10Mbps
20Mbps, 10Mbps, 6Mbps
Maximum allowed intra refresh period
0.5 seconds
图像质量主观评价试验依据ITU-R BT.500-11 《Methodology for the subjective assessment of the quality of television pictures(电视图像质量主观评价方法)》(下面可以看到AVS的两次主观测试同样采用的是这个测试标准)。测试结果如下表:
表4 标清情况下,AVC与优化的MPEG(MPEG-2 HiQ)对比情况
SD Main (AVC Main vs. MPEG-2 HiQ)
序列
Football
Mobile
Husky
Tempete
6 Mbps
T
T
4Mbps
1.5x
T
1.5x
T
3Mbps
1.3x
2x
1x /1.3x
T
2.25Mbps
> 1.3x
2.7x
1.3x
T
AVC码率
1.5Mbps
> 1.5x
4x
> 1.5x
T, 2x
(注:表中T表示透明,压缩后与原始图像看不出差异,Nx表示被对比者码率是AVC的N倍时才能达到同等质量,下同)
由表可以看出,12个可比项中有8个的N大于等于1.5,有3个大于等于2,有一个等于4。
表5标清情况下,AVC与MPEG-2参考软件(MPEG-2 TM5)对比情况
SD Main (AVC Main compared to MPEG-2 TM5)
序列
Football
Mobile
Husky
Tempete
6 Mbps
T
T
4Mbps
1.5x
T
> 1.5
T
3Mbps
1.3x
> 2x
2x
T
2.25Mbps
1.8x
> 2.7x
1.8x
T
AVC码率
1.5Mbps
2x
> 4x
2.7x / 2x
T, 4x
由表可以看出,AVC与MPEG-2参考软件比,12个可比项中有9个的N大于等于1.8,有2个大于等于4。
表6 高清情况下,AVC与优化的MPEG(MPEG-2 HiQ)对比情况
HD Main (AVC Main compared MPEG-2 HiQ)
720 (60p)
1080 (30i)
1080 (25p)
Sequence
Crew
Harbour
Stockholm Pan
New Mobile & Calendar
River Bed
Vintage Car
20Mbps
T
T
T
T
T
10Mbps
2x
T
1x
T, 2x
> 1x
T, 2x
AVC bitrates
6Mbps
1.7x
T, 3.3x
This bitrate was not part of the test
> 1.7x
1.7x
由表可以看出,AVC与优化的MPEG-2高清编码器比,9个可比项中有7个的N大于等于1.7,有3个大于等于2,有一个等于3.3。
表7 高清情况下,AVC与MPEG-2参考软件(MPEG-2 TM5)对比情况
HD Main (AVC Main compared MPEG-2 TM5)
720 (60p)
1080 (30i)
1080 (25p)
Sequence
Crew
Harbour
Stockholm Pan
New Mobile & Calendar
River Bed
Vintage Car
20Mbps
T
T
T
T
T
10Mbps
2x
T
2x
T, 2x
> 1x
T, 2x
AVC bitrates
6Mbps
1.7x
T, 1.7x
This bitrate was not part of the test
> 1.7x
1.7x
由表可以看出,AVC与MPEG-2参考软件比,9个可比项中有8个的N大于等于1.7,有4个大于等于2。
总体上讲,AVC与MPEG-2对比,85个比对中66对MPEG-2的码率要达到1.5倍才能与AVC达到同样质量,其中51对MPEG-2码率要达到AVC的2倍才能达到AVC的质量。换句话说,在60%的情况下,AVC的编码效率能够达到MPEG-2的两倍。
鉴于AVC的编码效率能够达到MPEG-2的2倍,我国有关测试机构在测试AVS时,通常把AVS视频的码率也设在MPEG-2典型码率的二分之一或更低,也就是测试AVS编码效率是MPEG-2的2倍或更高的情况下的AVS视频的编码质量是否能够广播要求。
2.AVS主观测试—— 国家广播电视产品质量监督检验中心数字电视用户端产品测试实验室
2004年11月15日至12月26日,依据数字音视频编解码技术标准工作组的委托,国家广播电视产品质量监督检验中心数字电视用户端产品测试实验室对工作组送检的AVS视频编/解码方案组织了图像质量主观评价试验。通过对委托方提供的AVS软编/解码器的主观评价试验,评价AVS视频压缩方案的性能。
图像质量主观评价试验依据ITU-R BT.500-11 《Methodology for the subjective assessment of the quality of television pictures(电视图像质量主观评价方法)》和ITU-R BT.710-2《Subjective assessment of image quality in high-definition television(高清晰度电视图像质量的主观评价)》,采用双刺激连续质量标度(DSCQS)法评价AVS视频编/解码系统处理后的图像质量相对于未经压缩的原始图像质量的差别。
本次视频图像质量主观评价的目的是通过比较经AVS编/解码系统处理过的图像质量与原始素材图像质量的差别来评价AVS视频编/解码方案的总体性能,评价素材的选择内容应广泛且严酷度适当。所选择的测试序列应能反应图像的亮度再现、彩色再现、静态空间分辨率、动态空间分辨率、运动再现、视在深度效果、临场感、闪烁性能和熟悉的色调
的再现等特性。希望通过所选择的节目能够充分、准确地反映被评价的视频编/解码方案的性能。测试序列包括8个高清晰度节目和8个标准清晰度节目,每段节目时间长度为10s~20s。
高清晰度图像测试序列的被评价对象与原始素材的平均得分差在1.6和6.0之间,总平均分差为3.6,说明评价人员认为被评价对象的图像质量与原始素材的图像质量差别很小。
统计结果表明, AVS视频编/解码方案在图像格式为1920×1080P/25Hz、压缩码率为6Mbps时,被评价对象的图像质量与原始素材图像质量的差别很小,不易察觉。
8个标准清晰度图像测试序列的被评价对象与原始素材的平均得分差在1.1 和10.5之间,总平均分差为6.4。除序列2 外,其他7 个测试序列的标准偏差均在6.4 至8.6 之间,说明评价人员对这些测试序列打分的离散度较小。
试验结果表明AVS 视频编/解码方案在图像格式为720×576I/50Hz、压缩码率为2.5Mbps 时,可察觉经编/解码处理后的被评价对象与原始素材图像质量的差别,但差别小。
本次测试表明,AVS视频码率不到MPEG-2典型码率二分之一(标清)和三分之一(高清)的情况下,质量损失很小,可以达到广播要求。
3.AVS主观测试——国家广电总局广播电视规划院
2005年04月至9月,国家广电总局广播电视规划院受AVS工作组挂靠单位中国科学院计算技术研究所委托,对经过AVS参考软件编解码后的标准清晰度和高清晰度视频进行主观评价,评价其对源图像的质量损伤程度,完成了《AVS视频压缩质量主观评价》测试报告(附件)。
本次测试的依据是广电行业标准GY/T 134-1998《数字电视图像质量主观评价方法》和ITU-R BT.500-11、ITU-R BT.1210-3《Test Materials to be used in Subjective Assessment(用于主观评价的测试材料)》标准。标清测试采用6个国际标准图像序列,高清采用6个国家标准图像序列。
测试结果汇总如下:
表8 AVS主观测试结果
测试码率 \ 视频类型
标准清晰度(625/50i)
高清晰度(1125/50i)
AVS测试码率(Mbps)
3
1.5
10
6
测试结果
优秀
良好
优秀
良好到优秀
考虑到目前使用MPEG-2标准实施高清电视广播时,一般使用20Mbps的码率,使用MPEG-2标准实施标清电视广播时,一般使用5-6Mbps的码率,对照本次测试结果可以得知,
AVS码率为现行MPEG-2标准的一半时,无论是标准清晰度还是高清晰度,编码质量都达到优秀。码率不到其三分之一时,也达到良好到优秀。因此相比于MPEG-2视频编码效率高2~3倍的前提下,AVS视频质量已完全达到了大范围应用所需的“良好”要求。对比MPEG标准组织对MPEG-4 AVC/H.264的测试报告,AVS在编码效率上与其处于同等技术水平。
4.AVS与MPEG标准的客观测试
对视频编码标准进行客观评价的常用方法是峰值信噪比PSNR。表9、表10分别给出了AVS与MPEG-2标准以及AVS与MPEG-4 AVC/H.264标准main profile的客观编码性能。结果为相同码率条件下峰值信噪比PSNR的增益。可以看出,AVS相对于MPEG-2标准编码效率平均提高2.56dB,相比于H.264标准编码效率略低,平均有0.11dB的损失。
表9 AVS与MPEG-2标准客观编码效率比较
HD progressive序列
SD interlace序列
AVS相比于MPEG-2
pedestrain
Station2
Rushhour
hourseriding
Zy
PSNR增益(dB)
2.53
1.75
1.39
4.59
2.55
表10 AVS与MPEG-4 AVC/H.264标准main profile客观编码效率比较
HD progressive序列
SD interlace序列
AVS相比于H.264
pedestrain
Station2
Rushhour
hourseriding
Zy
PSNR增益(dB)
-0.07
0.17
-0.18
-0.28
-0.17
下面是另一组视频序列的AVS和H.264的性能比较实验结果。实验使用的AVS视频编码器是RM 5.0a,H.264编码器是JM 6.1e。实验序列包括720p和1080i序列。编码参数见表4。表11-12给出了AVS视频标准相对H.264在PSNR上的增益。图5到图8给出了PSNR曲线。
表11 AVS和H.264编码参数
JM 6.1e
RM 5.0a
熵编码
CABAC
2D-VLC
率失真优化
使用
使用
参考图像
2帧
2帧
B帧
2帧(IBBP)
2帧(IBBP)
隔行编码
宏块帧/场自适应
图像帧/场自适应
运动补偿块大小
16×16到4×4
16×16到8×8
环路滤波
使用
使用
表12 AVS和H.264实验结果
逐行扫描(1280×720)
隔行扫描(1920×1080)
序列
PSNR增益
序列
PSNR增益
City
-0.2239 dB
Fireworks
-1.2670 dB
Crew
0.0238 dB
Flamingo
-0.0638 dB
Harbour
0.2881 dB
Kayaka
-0.3138 dB
Night
0.0435 dB
Spincalendar
-0.3681 dB
平均
-0.0473 dB
平均
-0.5482 dB City32333435363738394041020004000600080001000012000bitrate (kbit/s)PSNR (dB)AVSH.264
图 3 City序列实验结果Harbour3233343536373839404105000100001500020000bitrate (kbit/s)PSNR (dB)AVSH.264
图 4 Harbour序列实验结果
Spincalendar32333435363738394005000100001500020000bitrate (kbit/s)PSNR (dB)AVSH.264
图 5 Spincalendar序列实验结果Flamingo32333435363738394041100002000030000400005000060000bitrate (kbit/s)PSNR (dB)AVSH.264
图 6 Flamingo序列实验结果
从上面的数据可以看出,在逐行编码方面,AVS视频标准的性能与H.264基本一致;在隔行编码方面,由于AVS视频标准目前只支持图像级帧/场自适应编码,平均有0.5dB的性能差距。
三、复杂度对比
表13对AVS与H.264的计算实现复杂性进行扼要对比,大致估算,AVS解码复杂度相当于H.264的30%,AVS编码复杂度相当于H.264的70%。
表13 AVS与H.264计算复杂性对比
技术模块
AVS视频
MPEG-4 AVC/H.264视频
复杂性分析
帧内预测
基于8×8块,5种亮度预测模式,4种色度预测模式
基于4×4块,9种亮度预测模式,4种色度预测模式
降低约50%
多参考帧预测
最多2帧
最多16帧,复杂的缓冲区管
存储节省50%以上
理机制
变块大小运动补偿
16×16、16×8、8×16、8×8块运动搜索
16×16、16×8、8×16、8×8、8×4、4×8、4×4块运动搜索
节省30~40%
B帧宏块对称模式
只搜索前向运动适量即可
双向搜索
最大降低50%
¼像素运动补偿
½像素位置采用4拍滤波
¼像素位置采用4拍滤波、线性插值
½像素位置采用6拍滤波
¼ 像素位置线性插值
降低1/3存储器的访问量
变换与量化
解码端归一化在编码端完成,降低解码复杂性
编解码端都需进行归一化
解码器低于
熵编码
上下文自适应2D-VLC,Exp-Golomb码降低计算及存储复杂性
CAVLC:与周围块相关性高,实现较复杂
CABAC:硬件实现特别复杂
相比CABAC降低30%以上
环路滤波
基于8×8块边缘进行,简单的滤波强度分类,滤波较少的像素
基于4×4块边缘进行,滤波强度分类繁多,滤波边缘多
降低50%
Interlace编码
PAFF帧级帧场自适应
MBAFF宏块级帧场自适应
降低30%
容错编码
简单的条带划分机制足以满足广播应用中的错误隐藏、恢复需求
数据分割、复杂的FMO/ASO等宏块、条带组织机制、强制Intra块刷新编码、约束性帧内预测等
实现特别复杂
大大低于
四、小结
AVS视频标准(GB/T 20090.2)是基于我国自主创新技术和国际公开技术所构建的标准,主要面向高清晰度和高质量数字电视广播、网络电视、数字存储媒体和其他相关应用,具有以下特点:(1)性能高,编码效率是MPEG-2的2倍以上,与H.264的编码效率处于同一水平;(2)复杂度低,算法复杂度比H.264明显低,软硬件实现成本都低于H.264;(3)我国掌握主要知识产权,专利授权模式简单,费用低。基于此,我们认为AVS标准是能够支撑国家数字音视频产业发展的重要标准。
参考文献
[1] 信息技术 先进音视频编码第2部分:视频. AVS N1165, 2005
[2] 黄铁军,高文. AVS标准制定背景与知识产权状况. 电视技术. 2005年第7期.P4-7
[3] Liang Fan, Siwei Ma, Feng Wu. Overview of AVS Video Standard. Proc. 2004 IEEE Intl. Conf.