ISP中的Demosaic技术:从传统算法到深度学习算法

摘要:Demosaic 技术是图像信号处理器(ISP)的核心模块,旨在从拜耳彩色滤光阵列(CFA)的单通道欠采样数据中恢复全分辨率 RGB 彩色图像。本文筛选了该技术不同方向的一些方法,涵盖传统算法与深度学习算法两大类:传统方法以手工设计先验为核心,包括基础插值、边缘判别、频域分离及非局部自相似方法,在计算效率与硬件适配性上各具优势;深度学习方法则通过端到端训练或网络结构先验,实现去马赛克与去噪等任务的联合优化,显著提升复杂场景下的重建精度。旨在能够帮助读者系统理解 Demosaic 技术的理论基础与实践应用。 关键字:Demosaic;传统算法;深度学习算法;ISP;图像恢复;颜色插值

1 Demosaic技术简介

1.1 背景

  在了解Demosaic之前我们需要了解下为什么需要Demosaic技术。要生成一幅彩色图像,每个像素位置至少需要采集红、绿、蓝三个颜色通道的信息。一种方案是在光路中使用分光棱镜,将入射光投射到三个独立的传感器上。在每个传感器前加装特定颜色的滤光片,即可获取三通道的全分辨率彩色图像。但这种方案成本高昂,不仅需要三个电荷耦合器件(CCD)传感器,还对传感器的机械对齐精度提出极高要求。更具成本效益的方案是在单个传感器前加装彩色滤光阵列,使每个像素仅采集一个颜色通道的信息,再通过插值算法恢复缺失的另外两个颜色通道信息。这种技术称为Demosaic(去马赛克)技术。Demosaic技术的核心任务是根据采样到的单通道数据,估计出每个像素位置的完整RGB信息,从而生成高质量的彩色图像。

  目前最常用的彩色滤光阵列是拜耳滤波器(Bayer Filter),其排列方式如图所示。拜耳滤波器采用2x2的重复单元,其中包含两个绿色通道、一个红色通道和一个蓝色通道。这种设计基于人眼对绿色更敏感的特性,从而提高图像的亮度分辨率。由于每个像素位置仅采集一个颜色通道的信息,Demosaic算法需要通过插值方法估计出缺失的颜色信息,以生成完整的RGB图像。

  多说一句,Byer Filter是最常用的采样模式,也就意味着在其他场景也存在其他类型的采样模型,比如X-Trans Filter、EXR Filter等,详细细节可以参考Bayer_filter

1.2 Demosaic技术

  Demosaic的核心是从单通道数据中估计出缺失的颜色通道信息,是一个欠采样重建问题。设全分辨率彩色图像为$S=(R, G, B)$,其对应的拜耳模式采样数据为$z_{S}=(z_{R}, z_{G}, z_{B})$,则去马赛克问题包含两个相互关联的插值任务:一是梅花形网格插值,即补全绿色通道中缺失的半数像素;二是矩形网格插值,即补全红、蓝通道中缺失的四分之三像素。尽管这两类插值问题均可通过双线性插值、边缘导向插值等经典图像插值技术解决,但去马赛克的核心挑战在于联合利用通道内与通道间的相关性,从而降低图像重建误差。

空间域统计   已有多项研究通过实验方法对颜色通道间的相关性进行建模,相关研究涵盖小波域与空间域等不同维度。这些研究的核心结论可归纳为恒色调假设,该假设也是绝大多数去马赛克算法的理论基础。在色彩科学中,色调是感知色彩的三大属性之一,另外两个属性为明度和饱和度(色调通常可由颜色分量的比值定义)。在恒色调假设中,颜色通道间的相关性通过色差或色比函数的平滑性来表征。尽管这一启发式假设在相关文献中被广泛应用,但需注意的是,恒色调假设的有效性高度依赖于数据集特性。

  在贝叶斯框架下,后验概率分布$P(S | z_{S}, \mathcal{H})$可通过贝叶斯公式与似然模型$P(z_{S} | S, \mathcal{H})$和先验模型$P(S | \mathcal{H})$建立关联,公式如下: $$P\left(S | z_{S}, \mathcal{H}\right)=\frac{P\left(z_{S} | S, \mathcal{H}\right) P(S | \mathcal{H})}{P\left(z_{S} | \mathcal{H}\right)} \quad (1)$$   其中$\mathcal{H}$代表所采用的模型假设。

  该统计建模方法可灵活纳入各类不确定性因素,例如,噪声干扰可通过似然项进行建模,多种基于最小均方误差(MMSE)的算法均可基于这一思路推导得出。相比之下,先验模型$P(S | \mathcal{H})$反映了对图像光谱-空间相关性的先验知识。与其他图像逆问题类似,先验模型的构建往往是算法设计的核心,其直接决定了算法性能与计算成本的权衡关系。

  一种简单的建模策略是忽略通道间相关性,对各颜色通道独立建模,例如采用马尔可夫随机场或自然图像统计特性。尽管这种方法较为简便,但仅考虑通道内相关性的建模方式本质上对应一种假设模型$H_{intra}$。另一种更常用的策略是将联合概率分布$P(S)$分解为$P(G)$与$P(R, B | G)$的乘积,进一步可将$P(R, B | G)$简化为$P(R | G) P(B | G)=P(d_{R G}) P(d_{B G})$,其中$d_{R G}=R-G$、$d_{B G}=B-G$为通道间的色差。这种将联合概率分布进行序列式分解的建模方式被记为$H_{inter }^{seq }$,是现有多数去马赛克算法的理论基石。此外,也可采用并行或迭代方式对通道间相关性进行建模,这类建模方式被记为$H_{inter }^{para }$。

频域确定性   去马赛克问题的另一种思路是,将彩色滤光阵列采样数据视为对全分辨率彩色图像$S=(R, G, B)$的降采样处理。根据彩色滤光阵列的采样模式,全分辨率图像可转换为马赛克采样数据$z$,其数学表达式为: $$z=\sum_{S=R, G, B} z_{S}=\sum_{S=R, G, B} M_{S} S \quad (2)$$   式中$z_{R}$、$z_{G}$、$z_{B}$分别为红、绿、蓝通道的降采样数据,掩模矩阵$M_{S}$用于表征彩色滤光阵列的采样模式。例如,在拜耳模式的红色像素位置,掩模矩阵取值为$[M_{R}, M_{G}, M_{B}]=[1, 0, 0]$。

  对于拜耳彩色滤光阵列,掩模矩阵可通过余弦函数显式表达: $$ \begin{aligned} z_{R}(i, j)&=M_{R}(i, j) R(i, j)=\frac{1}{4}(1-\cos \pi i)(1+\cos \pi j) R(i, j) \ z_{G}(i, j)&=M_{G}(i, j) G(i, j)=\frac{1}{2}(1+\cos \pi i \cos \pi j) G(i, j)\ z_{B}(i, j)&=M_{B}(i, j) B(i, j)=\frac{1}{4}(1+\cos \pi i)(1-\cos \pi j) B(i, j) \end{aligned} \quad (3) $$   其中$(i, j)$表示像素坐标,坐标原点为$(0,0)$。图2展示了马赛克采样数据$z$及各通道采样分量$z_{R}$、$z_{G}$、$z_{B}$的分布特征。

  从频域角度分析去马赛克问题的一大优势在于,可直接借鉴传统数字信号处理领域的丰富理论工具。例如,滤波器组理论可用于去马赛克算法的性能分析。近期研究表明,红、绿、蓝通道降采样数据的傅里叶变换,是全分辨率图像傅里叶变换的缩放与周期延拓结果,且红、蓝通道的频谱混叠现象比绿色通道更为严重。基于这一结论,针对亮度和色度分量设计的经典抗混叠滤波器,在柯达PhotoCD数据集上可实现优异性能,且计算成本适中。此外,频域建模方法可扩展至任意类型的彩色滤光阵列模式。

  两种方法各有优劣,需根据实际场景权衡选择。正如恒色调假设在通道间相关性较弱时不再成立,频域中的通道间频谱混叠也会使线性滤波器的设计面临挑战。与确定性建模中可能出现的过拟合问题类似,统计建模中先验模型的构建同样不可避免地需要进行近似处理。算法的最终选择取决于理论模型与观测数据的匹配度,以及内存占用、计算复杂度等工程约束条件。本文的综述目的并非评判不同算法的优劣——尽管文中也呈现了大量仿真实验结果,而是旨在阐明各类算法的异同点,从而深化对去马赛克问题的理解。

1.3 评价标准

  Demosaic算法的评价标准需从客观可量化指标和主观视觉感知两个维度综合判定,二者互补且各有侧重:客观指标保证算法的技术性能可复现、可对比,主观评价则贴合人类视觉的实际体验(也是图像最终的使用场景)。

1.3.4 客观评价

均方误差(MSE):基础误差指标,PSNR的前置计算   单通道MSE公式。最基础的像素值偏差量化指标,反映单通道(如亮度Y、色度U/V、RGB单通道)的平均平方误差,值越小,像素还原越精准。 $$ \text{MSE} = \frac{1}{H×W} \sum_{i=0}^{H-1}\sum_{j=0}^{W-1} \left[ I(i,j) - K(i,j) \right]^2 $$   多通道平均MSE(RGB/ Lab)。Demosaic需评价整体色彩还原,取三通道MSE的算术平均值: $$ \text{MSE}_{avg} = \frac{\text{MSE}_R + \text{MSE}_G + \text{MSE}_B}{3} $$

峰值信噪比(PSNR):最常用的误差评价指标   单通道PSNR公式。基于MSE的归一化指标,单位为分贝(dB)值越高,图像还原精度越高,8位图像($L=256$)为工程默认值,公式可简化。 通用公式: $$ \text{PSNR} = 10 \log_{10} \left( \frac{(L-1)^2}{\text{MSE}} \right) $$   8位图像简化公式($L-1=255$): $$ \text{PSNR} = 10 \log_{10} \left( \frac{255^2}{\text{MSE}} \right) = 20 \log_{10} \left( \frac{255}{\sqrt{\text{MSE}}} \right) $$   多通道PSNR(RGB/YCbCr)

  • RGB通道:直接用多通道平均MSE代入公式计算$\text{PSNR}_{RGB}$;

  • YCbCr通道(Demosaic优选):分别计算亮度通道$\text{PSNR}Y$、色度通道$\text{PSNR}{Cb}、\text{PSNR}_{Cr}$,重点关注$\text{PSNR}_Y$(人类视觉对亮度更敏感),色度通道仅作辅助。

结构相似性指数(SSIM):兼顾结构的相似度指标   弥补PSNR仅关注像素点误差、忽略图像结构的缺陷,从亮度、对比度、结构三个维度衡量相似度,取值范围0~1越接近1,图像结构和色彩还原越贴合参考图。   单像素对的SSIM。对参考图和输出图的任意像素窗口(Demosaic常用3×3窗口,适配插值的局部相关性),计算窗口内的SSIM: $$ \text{SSIM}(x,y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} $$   其中:

  • $\mu_x、\mu_y$:参考图窗口$x$、输出图窗口$y$的像素均值(反映亮度);

  • $\sigma_x^2、\sigma_y^2$:窗口$x、y$的像素方差(反映对比度);

  • $\sigma_{xy}$:窗口$x、y$的像素协方差(反映结构相关性);

  • $C_1、C_2$:极小的常数,避免分母为0,工程默认值:$C_1=(0.01L)^2$,$C_2=(0.03L)^2$(8位图像$C_1=6.5025$,$C_2=58.5225$)。   整图平均SSIM(MSSIM)。Demosaic需评价整图效果,计算所有3×3窗口的SSIM算术平均值,即平均结构相似性指数(MSSIM),为工程通用指标: $$ \text{MSSIM} = \frac{1}{H×W} \sum_{i=0}^{H-1}\sum_{j=0}^{W-1} \text{SSIM}(I(i,j),K(i,j)) $$   多通道SSIM。RGB三通道分别计算$\text{SSIM}_R、\text{SSIM}_G、\text{SSIM}B$,取平均值为$\text{SSIM}{RGB}$;同理YCbCr通道重点计算$\text{SSIM}_Y$。

CIE Lab色彩偏差(ΔE*ab):专属色彩还原的精准指标   PSNR和SSIM均基于RGB/YCbCr空间,与人类视觉的色彩感知存在偏差,ΔE*ab基于CIE Lab色彩空间(贴合人类视觉的均匀色彩空间),直接量化还原色彩与真实色彩的视觉偏差值越小,色彩还原越精准。   ΔE*ab核心公式。对逐像素的CIE Lab三通道值,计算色彩欧氏距离(即色彩偏差): $$ \Delta E_{ab}^* = \sqrt{(L_I^* - L_K^)^2 + (a_I^ - a_K^)^2 + (b_I^ - b_K^)^2} $$ 其中:$L_I^/a_I^/b_I^$为参考图像素的Lab值,$L_K^/a_K^/b_K^$为输出图像素的Lab值。   **整图平均ΔEab**。计算所有像素ΔEab的算术平均值,为Demosaic色彩还原的核心评价指标: $$ \Delta E_{avg}^ = \frac{1}{H×W} \sum_{i=0}^{H-1}\sum_{j=0}^{W-1} \Delta E_{ab}^*(i,j) $$

1.3.5 主观评价

  Demosaic算法的主观评价是以人类视觉感知特性为核心、遵循标准化测试规范的综合体验验收,是算法落地各类实际场景的最终判定标准,其通过专业组与普通组结合的双盲测试形式,在标准校色显示和中性光照环境下,对覆盖人像、风景、纹理等Demosaic典型挑战场景的测试图进行评价,核心围绕伪影可见度、色彩还原感知、细节视觉表现三大关键维度并结合整体观感做加权评分,重点关注摩尔纹、拉链伪影等各类伪影的视觉干扰性、色彩贴合现实场景的自然度与一致性、发丝/边缘等高频细节的可分辨性与清晰性,而非单纯对应客观量化指标,最终以贴合人眼真实观察体验、无视觉不适且适配实际使用场景为评价核心,弥补客观指标无法覆盖的人类视觉非线性感知特性偏差。

  • 模糊:图像的高频信息被削弱,导致细节损失。

  • 拉链效应:在边缘区域出现交替的亮暗条纹,类似拉链的形状。

  • 伪彩色:图像在 Demosaic 过程中,由于缺少对颜色信息的处理,导致颜色通道之间存在伪影。

  • 混叠:当 Demosaic 过程中,由于采样点与相邻像素的颜色值差异较大,导致混叠现象的出现。

2 传统Demosaic算法

  实际的ISP工程链路中如上面的图所示,除了Demosaic算法还包含预处理(坏点校正、白平衡)、伪影抑制、后处理(色彩校正矩阵、降噪和锐化)等流程,这里重点关注Demosaic算法本身,其他流程后续有机会再展开介绍。Demosaic算法的核心挑战在于联合利用通道内与通道间的相关性,从而降低图像重建误差。因此传统算法的基本思路都是从邻域空间或者频域借用信息来恢复缺失的颜色通道信息。

2.1 基础差值算法

2.1.1 线性差值

  Demosaicing的核心任务:对每个像素位置,补全其缺失的另外两个颜色通道的像素值(如R位置补G、B,G位置补R/B,B位置补R、G),双线性差值和 三次插值是两种经典的基于空间域插值的Demosaicing算法,均通过利用像素的空间连续性和局部相关性来估计缺失的颜色信息。 双线性插值Demosaicing(Bilinear Demosaicing) 双线性插值核心思想是:对每个缺失的颜色通道,取该位置周围2×2邻域内同色像素的加权平均值(等权时为算术平均),利用像素的空间连续性恢复缺失值。 该方法的核心假设:图像中局部像素的色彩值是连续变化的,适合平坦、无细节的图像区域。

  按像素类型分三类处理,所有插值均基于2×2最小邻域

  1. 绿色(G)像素的补全(R/B位置补G)

  • R位置(如坐标(i,j)为R)的G值:取其上下左右4个G像素的算术平均(2×2邻域内的两个水平G+两个垂直G,等权);

  • B位置的G值:与R位置补G逻辑完全一致,取邻域4个G像素的平均。

  1. 红色(R)像素的补全(G/B位置补R)

  • 水平/垂直对齐的G位置(如R右侧的G):取其左右/上下两个R像素的平均;

  • B位置(无直接邻域R):取其2×2邻域内4个对角R像素的算术平均。

  1. 蓝色(B)像素的补全(G/R位置补B):与R补全逻辑完全对称:G位置取邻域两个B平均,R位置取4个对角B平均。

  • 计算复杂度:O(W×H)(W/H为图像宽高),无复杂运算,适合硬件实时实现(如相机片上处理);

  • 画质问题:存在明显的色彩模糊、细节丢失、伪影(如拉链伪影)——因为2×2邻域无法捕捉图像的边缘/纹理方向,强行平均会抹平细节,且R/B通道插值仅用对角像素,易出现色彩错位;

  • 优势:算法简单、耗时短,是入门级Demosaicing的基础方案。

2.1.2 三次插值Demosaicing(Cubic Interpolation Demosaicing)*

  三次插值是双线性插值的进阶版,核心思想是:扩大插值邻域至4×4**,采用三次多项式核(Cubic Kernel)计算邻域内同色像素的非等权加权平均值,权重随像素到目标位置的空间距离衰减,同时兼顾图像的边缘连续性**。 该方法的核心改进:突破2×2邻域的限制,通过4×4大邻域和距离加权,更精准地拟合图像的局部灰度变化,减少模糊和伪影,是平衡画质计算量的经典方案。   三次插值的权重由三次多项式定义,主流为Bicubic核(双三次核,适用于2D空间插值),核心形式为(以距离x为自变量,x为像素间的欧氏距离,取值0~3): $$ W(x) = \begin{cases} (1.5|x| - 2.5)|x|^2 + 1, & 0 \le |x| < 1 \ (-0.5|x| + 2.5)|x|^2 - 4|x| + 2, & 1 \le |x| < 2 \ 0, & |x| \ge 2 \end{cases} $$ 权重规律:目标像素与邻域像素的距离越近,权重越大;距离≥2时,权重为0(即4×4邻域外的像素无贡献),既保证插值精度,又控制计算量。   核心插值步骤(以RGGB阵列为核心),整体逻辑与双线性一致(补全每个位置的缺失通道),但邻域扩大为4×4,且权重由三次核计算,分三步处理:

  1. 绿色(G)通道补全(优先级最高,因为G占50%,决定图像亮度) 对R/B位置的G值,取其4×4邻域内所有G像素,计算每个G像素到目标位置的空间距离x,通过三次核得到权重W(x),最终G值为: $$ G_{target} = \frac{\sum (G_i \times W(x_i))}{\sum W(x_i)} $$ (归一化权重,避免权重和不为1导致的亮度偏移)

  2. 红色(R)/蓝色(B)通道补全 G通道补全后,以已恢复的G通道为亮度参考(利用RGB通道的色度相关性:R/G、B/G的比值在局部更连续),对R/B通道进行4×4邻域的三次加权插值:

  • 对G/B位置的R值,取4×4邻域内所有R像素,按三次核计算权重并加权平均;

  • 对R/G位置的B值,与R通道对称,取4×4邻域内所有B像素加权平均。

  1. 三次插值的关键优化:边缘感知(可选) 进阶的三次插值Demosaicing会加入边缘检测:通过计算4×4邻域的灰度梯度(如水平/垂直/对角线梯度),判断图像的边缘方向(如水平边缘、垂直边缘),并调整权重分布——在边缘方向上增大权重,垂直边缘方向上减小权重,避免边缘被平均抹平,进一步减少拉链伪影和色彩错位。

  • 计算复杂度:O(W×H×16)(4×4邻域),比双线性高,但远低于基于频域、机器学习的高阶Demosaicing,仍可实现硬件加速;

  • 画质提升:显著减少模糊和细节丢失,边缘/纹理更清晰,伪影大幅降低——因为4×4邻域能捕捉更多局部信息,三次核的距离加权更贴合自然图像的像素变化规律;

  • 少量缺陷:在强纹理/高频细节区域(如毛发、文字),仍可能出现轻微的色彩混叠,但远优于双线性;

  • 优势:画质与计算量的平衡极佳,是消费级相机、图像处理库(如OpenCV)中最常用的Demosaicing方案之一。

2.1.2 样条差值

  样条插值(Spline Interpolation)是一类基于分段多项式的高阶插值方法,其核心思想是在已知采样点之间构建具有高阶连续性的函数,从而获得更加平滑且结构一致的重建结果。在去马赛克(Demosaicing)问题中,样条插值通常用于从彩色滤光阵列(Color Filter Array, CFA)采样数据中恢复缺失的颜色分量,相比双线性或最近邻方法,它能够更好地保持图像的边缘连续性并减少伪影。设全分辨率彩色图像为 $$ [ S(x, y) = \left(R(x,y), G(x,y), B(x,y)\right) ] $$   CFA采样过程可视为对每个颜色通道施加掩膜函数: $$ [ z(x,y) = M_R(x,y)R(x,y) + M_G(x,y)G(x,y) + M_B(x,y)B(x,y) ] $$   其中:

  • ($M_c(x,y) \in {0,1}),(c \in {R,G,B}$)

  • 对任意像素仅有一个掩膜为1

  目标是在未知位置估计各颜色通道: $$ [ \hat{c}(x,y), \quad (x,y) \notin \Omega_c ] $$

  • 其中 ($\Omega_c$) 表示通道 (c) 的已采样集合。

  样条函数是在区间 ($[x_i, x_{i+1}]$) 上定义的分段多项式,并满足函数值及其低阶导数连续。以常用的三次样条为例,每段函数可表示为: $$ [ S_i(t) = a_i + b_i t + c_i t^2 + d_i t^3, \quad t \in [0, h_i] ] $$

  • 其中 $(h_i = x_{i+1} - x_i)$。

约束条件包括:

  • (1) 插值条件$[ S_i(0) = f(x_i), \quad S_i(h_i) = f(x_{i+1}) ]$

  • (2) 一阶连续性 $[ S_i'(h_i) = S_{i+1}'(0) ]$

  • (3) 二阶连续性 $[ S_i''(h_i) = S_{i+1}''(0) ]$

  • (4) 边界条件(自然样条) $[ S''(x_0) = S''(x_n) = 0 ]$

  通过上述约束可得到一个三对角线性方程组,求解后即可确定所有多项式系数。   样条插值Demosaicing的核心流程如下,对于缺失的颜色分量,可沿行或列方向构建一维样条,再扩展到二维:

  • (1) 提取同色采样点。例如在估计红色通道时,仅使用红色采样位置: $$ [ {(x_i, y_j), R(x_i, y_j)} ] $$

  • (2) 构建样条函数。在固定 ($y_j$) 的情况下建立: $$ [ S_{y_j}(x) ] $$ 使其满足: $$ [ S_{y_j}(x_i) = R(x_i, y_j) ] $$

  • (3) 计算缺失值。对于未采样点 ($x^$): $$ [ \hat{R}(x^, y_j) = S_{y_j}(x^*) ] $$

  • (4) 二维扩展。可采用张量积样条(Tensor-product spline): $$ [ S(x,y) = \sum_{i}\sum_{j} c_{ij} B_i(x) B_j(y) ] $$

  • 其中 ($B_i(\cdot)$) 为样条基函数。

  样条插值Demosaicing的优势在于其能够更好地保持图像的边缘连续性,减少伪影,同时提供较高的插值精度。然而,其计算复杂度较高,尤其是在处理大尺寸图像时,可能需要更多的计算资源和时间。此外,样条插值对噪声较为敏感,可能需要结合预处理步骤以提高鲁棒性。总体而言,样条插值Demosaicing适用于对图像质量要求较高且计算资源允许的场景。

2.1.3 总结

  仅仅使用OpenCV自带的双线性插值Demosaic算法进行实验,能够清晰的看到明显的拉链和伪色问题。

  采用插值方法实现Demosaic的核心原理具有一致性,本质上都是通过对图像中缺失的色彩像素进行合理估算,还原出完整的彩色图像。但在实际工程应用中,需综合考量多方面因素以提升Demosaic的效果,确保还原图像的色彩准确性和视觉一致性,例如色度、色相的均衡性,此外还会从不同的色彩维度切入优化,比如CYMK色彩空间等角度,结合不同色彩模型的特性调整插值策略,适配各类实际应用场景的需求。

2.2 边缘判别算法

2.2.1 Hamilton-Adams (HA) 算法

  HA算法是彩色滤波阵列(CFA)插值中经典的方向性插值算法,核心精髓是结合二阶导数(拉普拉斯)修正梯度+跨通道结构信息融合,通过自适应判断边缘方向实现绿色通道高精度插值,是后续GBTF等算法的基础插值方法,主打细节补偿方向自适应

  HA算法以绿色通道优先插值为核心,核心设计有两个关键突破:

  1. 二阶导数(拉普拉斯)修正:在基础双线性插值的基础上,加入二阶导数修正项,补偿图像的高频细节,避免纯双线性插值的模糊问题;

  2. 跨通道结构同步假设:认为R/G/B通道的高频波动(边缘、纹理)是同步的,因此可利用红/蓝通道的结构信息(二阶导数)来预测绿色通道的缺失细节,提升插值的准确性。

  HA算法的核心是分方向的绿色通道插值公式,以缺失绿色的R像素位置水平方向插值为例,公式及各部分解析如下: $$\hat{G}{H}=\frac{G{i,j-1}+G_{i,j+1}}{2}+\frac{2R_{i,j}-R_{i,j-2}-R_{i,j+2}}{4}$$

项别

计算方式

核心作用

本质

第一项

$\frac{G_{i,j-1}+G_{i,j+1}}{2}$

提供基础的像素亮度估计,保证插值的平滑性

经典双线性插值(水平邻域G像素均值)

第二项

$\frac{2R_{i,j}-R_{i,j-2}-R_{i,j+2}}{4}$

补偿图像高频细节,还原边缘/纹理特征

红色通道二阶导数(拉普拉斯)修正项

  修正项的合理性基于:同一位置的R通道和G通道,在高频区域(边缘、纹理)的变化趋势一致,因此可用R通道的二阶导数来弥补G通道缺失的细节。

  HA算法整体遵循「G通道自适应插值 → R/B通道色差恢复」的经典CFA插值逻辑,步骤清晰且可操作性强,核心是通过梯度判断边缘方向,实现方向性插值**。

  1. 计算水平/垂直梯度,分类边缘方向。针对每个需要插值的像素点$(i,j)$,结合G通道的邻域差值R通道的二阶导数,分别计算水平梯度$dH$垂直梯度$dV$,梯度值反映对应方向的像素变化剧烈程度: $$dH=|G_{i,j-1}-G_{i,j+1}|+|2R_{i,j}-R_{i,j-2}-R_{i,j+2}|$$ $$dV=|G_{i-1,j}-G_{i+1,j}|+|2R_{i,j}-R_{i-2,j}-R_{i+2,j}|$$

    • ✅ 梯度设计巧思:不仅考虑G通道自身的邻域变化,还融入R通道的二阶导数,让梯度判断更贴合图像实际的边缘结构。

  2. 自适应决策,分方向插值G通道。根据计算出的$dH$和$dV$大小,判断像素点的实际边缘方向,并选择对应方向进行G通道插值(垂直边缘选水平插值,水平边缘选垂直插值),实现方向自适应

    1. 若 $dH<dV$:说明该位置为垂直边缘(水平方向像素变化更平缓),沿水平方向插值G通道;

    2. 若 $dH>dV$:说明该位置为水平边缘(垂直方向像素变化更平缓),沿垂直方向插值G通道;

    3. 若 $dH=dV$:无明显主边缘方向,对水平/垂直两个方向的G通道预测值求平均

  3. 利用色差恒定原理,恢复红/蓝(R/B)通道。在得到完整的高精度G通道后,基于CFA插值经典的**色差恒定(Constant Color Difference)**原理,补全R/B通道,步骤为:

    1. 计算原始图像中已知像素点的色差:$\Delta_{R-G}=R-G$、$\Delta_{B-G}=B-G$;

    2. 对色差平面$\Delta_{R-G}$、$\Delta_{B-G}$执行双线性插值,得到所有像素点的色差估计值;

    3. 还原R/B通道:将插值后的色差加回对应位置的G通道像素值,即:

    $$R = \hat{G} + \Delta_{R-G(插值)}$$ $$B = \hat{G} + \Delta_{B-G(插值)}$$

  核心特点:

  1. 细节保留好:二阶导数修正项有效补偿高频细节,相比纯双线性插值,图像边缘/纹理更清晰;

  2. 方向自适应:通过梯度判断边缘方向,分方向插值,贴合图像实际结构;

  3. 跨通道复用:利用R/B通道的结构信息辅助G通道插值,提升缺失像素预测精度;

  4. 计算简洁:公式和步骤无复杂运算,工程实现难度低,是经典的轻量级高精度插值算法。

  局限性(也是后续GBTF算法的优化切入点):

  1. 硬阈值梯度判断:通过$dH$和$dV$的大小比较做“非此即彼”的方向选择,在边缘过渡区/复杂纹理区易出现方向判断错误,引发拉链效应、伪色

  2. 梯度仅参考R通道:梯度计算主要依赖R通道信息,若R通道存在噪声,会直接影响边缘方向判断的准确性;

  3. R/B通道仅双线性插值:对色差平面仅采用简单的双线性插值,高频细节恢复能力有限。

2.2.2 绿通道分离的自适应梯度法

  论文:Method of color interpolation in a single sensor color camera using green channel separation

  算法针对单传感器彩色相机Bayer阵列下,因不同色彩通道像素串扰引发的绿平面插值块效应、细节区域伪色扩散问题设计,核心思想是保留原始绿像素数据的前提下,将绿通道拆分为与红、蓝通道分别高相关的双平面,利用通道间相关性实现精准插值,同时结合梯度选择与拉普拉斯校正,避免边缘平滑与噪声恶化,从根源上解决跨通道串扰带来的图像伪影问题。

  1. Bayer阵列串扰根源:Bayer阵列中绿像素分为与红像素相邻的$G_r$和与蓝像素相邻的$G_b$,部分色彩下$G_r$与$G_b$值差异显著,叠加像素水平邻域的响应串扰,红、蓝通道的插值误差会直接导致插值图像出现块效应和伪色扩散,这也是传统单绿平面插值方法的核心缺陷。

  2. 通道相关性利用原理:红通道与$G_r$、蓝通道与$G_b$存在天然高相关性,将绿通道拆分为偏红的$G_R$平面和偏蓝的$G_B$平面后,可分别作为红、蓝通道插值的参考,大幅降低跨通道插值的误差传递,同时避免修改或丢弃原始绿像素数据,防止场景信息丢失。

  3. 梯度选择与校正原理:插值时优先选择梯度最小的水平/垂直方向,避免跨边缘插值导致的图像锐度丢失;同时通过红/蓝通道的二阶拉普拉斯梯度对绿像素插值基础值做校正,匹配色彩通道的变化趋势。

    • 绿像素基础插值值为选定梯度方向上两个绿像素的平均值:$$G_{avg }=\frac{G_{h o}+G_{h 1}}{2}$$

    • 红通道二阶拉普拉斯梯度校正值(加权1/4以匹配绿通道相对偏移):$$\delta=\left(2 R_{0}-R_{-1}-R_{+1}\right) \frac{1}{4}$$

    • 蓝通道对$G_B$平面的校正公式与红通道原理一致,校正时需判断红/绿、蓝/绿通道梯度变化方向,梯度符号相反时将校正值从基础插值值中减去,符号相同时则相加。

  4. 最终绿通道融合原理:将插值后的$G_R$、$G_B$平面取平均得到最终绿通道,兼顾红、蓝通道的相关性特征,公式为:$$G_{final} = \frac{G_R+G_B}{2}$$

  算法全程保留原始绿像素数据,分为绿通道双平面构建双绿平面独立插值红/蓝通道关联插值RGB通道最终融合四个步骤,流程清晰且可与其他插值方案兼容:

  1. 绿通道双平面构建:采用中值滤波器,先以4个$G_r$值和1个$G_b$值替换原始$G_b$,生成偏红的$G_R$平面;再交换$G_r$与$G_b$的角色重复中值滤波操作,生成偏蓝的$G_B$平面,原始绿像素会完整保留在$G_R$或$G_B$平面中。

  2. 双绿平面独立插值:采用带二阶拉普拉斯校正的双线性插值,分别对$G_R$、$G_B$平面补全缺失像素;先计算垂直梯度$\Delta v$和水平梯度$\Delta h$,选择梯度更小的方向插值,若待插值区域无对应红/蓝像素参考,则直接取绿像素平均值作为插值结果。

  3. 红、蓝通道关联插值:利用$G_R-R$、$G_B-B$的高相关性,以插值后的$G_R$平面边缘信息为参考完成红通道插值,以$G_B$平面边缘信息为参考完成蓝通道插值,实现噪声有效抑制。

  4. RGB通道最终融合:将插值后的红、蓝通道,与$G_R$、$G_B$平面的平均值进行融合,得到最终的彩色插值图像,即$RGB=(R, \frac{G_R+G_B}{2}, B)$。

  优点:

  1. 伪影抑制效果显著:在McBeth色卡和自然图像测试中,绿通道伪色值平均降低54%,有效解决了块效应和细边缘区域的伪色扩散问题,契合人眼对绿通道高敏感度的视觉特性,且平滑区域和细边缘区域均能实现良好的伪色抑制。

  2. 噪声抑制能力突出:相比带边缘检测的双线性插值,绿通道可视噪声降低42.1%~64.8%,红、蓝通道也实现0.7%~3.78%、1.75%~3.17%的噪声抑制,且噪声抑制过程中不会影响图像结构的边缘锐度。

  3. 原始数据无损失:绿通道分离和插值全程不修改、不丢弃原始绿像素数据,避免了传统方法过度平滑导致的场景信息丢失,保留了图像的原始细节特征。

  4. 兼容性与通用性强:绿通道分离的核心方法可与其他带边缘检测、模式识别或绿平面校正的插值方案结合,无需对原有插值框架做大幅修改,适配性较高。

  5. 边缘与细结构保留完好:通过梯度方向选择避免跨边缘插值,结合色彩通道的梯度校正,有效保留了图像的细结构和边缘锐度,解决了传统低通滤波方法移除细结构的问题。

  缺点:

  1. 计算量略有增加:相比传统单绿平面插值,新增了中值滤波、双绿平面梯度计算、双平面独立插值和融合等步骤,对硬件算力有轻微要求,在低算力嵌入式设备上的实时性会受一定影响。

  2. 部分区域插值精度受限:在Bayer阵列的蓝通道行中,因无红像素参考,无法对$G_R$平面做二阶拉普拉斯梯度校正,只能采用平均值插值,该区域的绿通道插值精度略有下降。

  3. 红、蓝通道优化效果不均衡:算法对绿通道的伪影和噪声抑制效果大幅优于红、蓝通道,红、蓝通道的噪声抑制幅度较小,对红、蓝通道的细节噪声优化仍有提升空间。

  4. 需结合后续色彩处理:实验中未对图像进行伽马校正和色彩校正,仅验证了插值方案的性能,实际工程应用中需结合后续的色彩校正、伽马校正步骤,才能实现最佳视觉效果。

2.2.3 自适应相似度选边插值法

  论文Adaptive Homogeneity - Directed Demosaicing Algorithm

  该算法是针对图像插值的优化方案,核心突破在于摒弃硬阈值的方向二选一判断,通过梯度引导的连续权重融合水平/垂直方向插值结果,从根源减少边缘过渡区的伪色、拉链效应,常作为高精度图像插值算法的基础框架。传统插值算法(如AHD):设定固定阈值,根据像素局部特征二选一(水平/垂直)进行插值,边缘过渡区易因阈值判断失误产生方向错误,引发伪色。GBTF 算法:无阈值+双方向融合,同时计算水平、垂直两个方向的插值估计值,通过局部梯度强弱生成连续权重,对双方向结果加权平均得到最终值,实现边缘方向的软切换,适配复杂纹理区域。

  算法遵循绿色通道优先的原则(图像中G通道信息量最丰富、信噪比最高,是插值的基础),先完成G通道高精度重建,再基于G通道实现R/B通道的还原。

  1. 方向性初始插值(仅针对G通道)。分别在水平、垂直方向独立执行插值,采用Hamilton-Adams二阶梯度公式(利用邻近像素二阶梯度信息提升预测精度),得到两组完整的G通道初步插值结果:

    • 水平方向插值结果:$G_{H}$

    • 垂直方向插值结果:$G_{V}$

  2. 计算方向性梯度与融合权重。

    1. 梯度计算:在色差域(如$G-R$、$G-B$)计算每个像素点$(i,j)$的水平梯度$\Delta H$垂直梯度$\Delta V$; ✅ 选择色差域的原因:色差信号在图像局部更平滑,能更准确反映图像的边缘和结构特征,避免原始RGB域的亮度干扰。

    2. 权重生成:权重与梯度值成反比——梯度越小,说明该方向的图像连续性越强、边缘特征越匹配,分配的权重越高;反之则权重越低。 例:垂直梯度$\Delta V \ll$ 水平梯度$\Delta H$ → 该位置为垂直边缘 → 垂直方向插值结果$G_{V}$分配更高权重。

  3. G通道无阈值融合。将第一步得到的$G_{H}$、$G_{V}$,与第二步生成的水平权重$w_{H}$、垂直权重$w_{V}$进行加权融合,得到最终的G通道插值结果,公式为: $$^{G}{i,j}=w{H}\cdot G_{H}(i,j)+w_{V}\cdot G_{V}(i,j)$$ ✅ 关键作用:连续权重的软融合,避免了硬阈值带来的“非此即彼”的方向错误,彻底解决复杂纹理区的拉链效应。

  4. 红/蓝(R/B)通道重建。基于已重建的高质量完整G通道,通过色差插值法还原R、B通道,步骤为:

    1. 计算已知点色差:在原始图像中存在R/B像素的位置,计算色差$\Delta _{R-G}=R-G$、$\Delta _{B-G}=B-G$;

    2. 色差平面插值:将第二步得到的梯度方向性权重复用到色差域,对$\Delta _{R-G}$、$\Delta _{B-G}$平面执行插值,得到完整的色差插值结果;

    3. 还原R/B通道:将插值后的色差结果,加回对应的G通道像素值,最终得到完整的RGB图像,即: $$R = ^{G} + \Delta _{R-G(插值)}$$ $$B = ^{G} + \Delta _{B-G(插值)}$$

  优点:

  • 抑制伪影:无阈值的软切换机制,从根源解决了传统算法的拉链效应、方向判断错误引发的伪色,提升图像插值的视觉效果;

  • 精度可控:基于二阶梯度的初始插值+色差域的梯度判断,保证了插值的数值精度;

  • 高可扩展性:框架通用性强,可与其他高精度插值技术结合,衍生出更优的算法。

2.3 频域方法

2.3.1 亮度/色度频率解复用法

  Alleysson算法是Bayer格式图像去马赛克(Demosaicing)领域的经典频域算法,彻底跳出传统空域的像素邻域补全思维,将去马赛克问题转化为频域的信号分离与复用问题,通过亮度/色度的频谱分离、滤波解调实现RGB三通道重建,是频域去马赛克的代表性方案。传统去马赛克算法(HA/GBTF)均在空域操作:通过邻域像素的梯度、边缘特征,对缺失像素进行方向插值或加权融合,核心是“局部像素补全”。   Alleysson算法在频域操作:核心假设是Bayer原始图像是亮度分量和色度分量在空间频率上的线性组合,通过分离频域中不同频段的亮度、色度信号,再解调重建,核心是“全局信号分离与还原”。   Bayer图像的两个核心分量具备频率域的天然分离特性,为频域分离提供了理论基础:

  1. 亮度分量(L):代表图像的轮廓、细节、亮度变化,属于高带宽信号,但频谱主要集中在频域基带(中心低频区),是图像的主要能量载体;

  2. 色度分量(C):代表图像的颜色差异(如$R-G$、$B-G$),属于低带宽信号,但被调制到频域的调制带(边缘/角落高频区)(最高水平/垂直/对角线频率处)。

  对原始Bayer格式图像$f(n,m)$做二维傅里叶变换后,其频谱呈现明确的分区分布,这是算法能实现信号分离的关键:

  • 基带(Baseband):频域中心的低频区域,仅由亮度信号$f_L$占据,无色度信号干扰,是亮度提取的核心区域;

  • 调制带(Modulated bands):频域的边缘、角落高频区域,仅由色度信号$f_C$占据(如$R-G$、$B-G$色差信号),且精准分布在$[\pi,0]$、$[0,\pi]$、$[\pi,\pi]$等特征频率位置,为色度提取提供精准靶点。

  简单来说:Bayer图像的亮度和色度在频域“各占其区”,通过针对性滤波器即可实现两者的精准分离。算法全程围绕**“频谱估计→滤波分离→解调重建”**展开,无空域的梯度计算、方向判断,所有核心操作均在频域完成,最终还原出完整RGB三通道图像。

  1. 频谱估计(Spectral Estimation)。对原始Bayer格式图像执行二维傅里叶变换(2D-FFT),将图像从空域转换为频域,得到完整的频域频谱分布;

    • ✅ 替代方案:若追求工程实现的便捷性,也可直接在空域使用对应频率特性的滤波器(等效频域滤波),避免直接的FFT运算,降低计算复杂度。

    • ✅ 核心结果:明确频域中基带(亮度)和调制带(色度)的精准位置,为后续滤波提供依据。

  2. 滤波器设计(Filter Design)。根据频谱分布规律,设计一组精密的频域数字滤波器,实现亮度、色度信号的无混叠分离,滤波器的设计精度直接决定重建效果:

    1. 低通滤波器(LPF):匹配频域基带的频率范围,仅允许中心低频的亮度信号通过,精准提取纯净的亮度信号$f_L$;

    2. 带通滤波器(BPF):匹配频域调制带的特征频率位置($[\pi,0]$等),仅允许高频的色度信号通过,精准提取纯净的色度信号$f_C$;

    • ✅ 核心设计要求:滤波器截止频率自适应调整——根据图像的实际内容(如纹理密度、边缘分布)动态调整滤波范围,避免亮度和色度的频谱发生混叠(Aliasing),这是抑制伪影的关键。

  3. 解调与重建(Demodulation & Reconstruction)。将滤波提取的亮度、色度信号还原为空域信号,并通过线性变换实现RGB色彩还原,分为3个子步骤:

    1. 色度解调:将频域调制带中提取的高频色度信号,平移回频域基带(低频区),再通过**逆傅里叶变换(IFFT)**转换为空域信号,得到连续、平滑的色差平面($R-G$、$B-G$);

    2. 亮度合成:在频域中,从原始Bayer图像的频谱中减去提取出的色度信号频谱,得到仅包含亮度的纯净频谱,再通过逆傅里叶变换转换为空域,得到完整的亮度平面$L$;

    3. 色彩还原:将空域的亮度平面$L$和解调后的色差平面($R-G$、$B-G$)进行线性矩阵运算,通过亮度-色度的逆变换,还原出完整的R、G、B三通道图像。

  算法核心特点:优劣势与适用场景。Alleysson算法作为频域去马赛克的标杆,与HA/GBTF等空域算法形成鲜明互补,其优劣势均源于频域全局处理的本质特征:

  1. 理论体系优雅:彻底摆脱空域算法中复杂的边缘方向判断、梯度计算、权重设计,以信号处理的经典频域分离思想解决去马赛克问题,逻辑简洁且严谨;

  2. 全局优化效果佳:对具有周期性特征的纹理(如远处的栅栏、网格、条纹图案)处理效果远优于传统空域梯度算法,重建结果更自然,无空域算法的拉链效应;

  3. 伪影类型更可控:只要滤波器设计精准、截止频率自适应合理,可有效避免空域算法因局部判断错误引发的方向型伪色,伪影主要为频谱混叠类,更易通过滤波优化抑制。

  缺点:

  1. 存在边界效应:若图像的亮度和色度频谱因图像内容特殊(如高饱和度纹理)发生重叠,滤波分离时会出现**“假色”或“彩虹纹”**,且该类伪影较难通过简单优化消除;

  2. 计算开销大:核心涉及二维傅里叶变换/逆变换高精度数字滤波,相比HA/GBTF等轻量级空域算法,计算量大幅提升,对硬件算力要求更高;

  3. 工程实现难度高:滤波器的精准设计、截止频率的自适应调整需要结合图像内容做复杂的自适应逻辑,相比空域算法的直接插值,工程落地更复杂。

2.3.2 Dubois 最小二乘频率修整法

  该算法核心是对Alleysson频域解复用思想的数学优化升级,通过最小二乘最优滤波器设计,从根本上解决了传统频域法因亮度-色度频谱重叠导致的混叠问题,是高端图像复原领域的核心技术之一。   Alleysson基础频域法采用固定低通/带通滤波器切分亮度(L)和色度(C)信号,但自然图像的亮度信号高频分量会延伸至色度调制频段,形成频谱重叠,滤波器无法精准切分,直接引发两类伪影:

  1. 伪色:亮度高频细节被误判为色度信息,出现无意义的彩色噪点;

  2. 边缘模糊:色度信号被过度滤除,导致图像边缘、纹理的色彩信息丢失。

  Dubois算法的核心改进:摒弃简单理想滤波器,通过最小二乘法设计自适应最优分离滤波器,实现亮度与色度信号的频域精准解耦。算法的本质是通过数学优化确定最优滤波器响应,实现“通带失真最小、阻带抑制最大”的信号分离目标,核心分为两步:

  1. 信号表示:Bayer图像的频域调制建模。将单通道Bayer采样图像 $x[\mathbf{n}]$ 建模为亮度基波+色度调制波的叠加形式,精准描述频域分布特征: $$x[\mathbf{n}]=f_{L}[\mathbf{n}]+\sum f_{Ck}[\mathbf{n}]\cos (\omega _{k}\cdot \mathbf{n})$$

  • $f_{L}[\mathbf{n}]$:亮度分量(低频为主,含图像核心细节);

  • $f_{Ck}[\mathbf{n}]$:第$k$个色度分量(如Cr/Cb);

  • $\omega _{k}$:色度载波频率(典型为$[\pi ,\pi ]$,是Bayer阵列的固有调制频率);

  • $\mathbf{n}$:二维像素空间坐标。

  1. 最小二乘优化:最优滤波器的设计准则。设计滤波器响应 $h[\mathbf{n}]$,通过加权最小二乘问题求解,满足双重优化目标:

  • 通带平坦度:在目标分量(如亮度)的频率范围内,滤波后的信号失真最小,保留原始细节;

  • 阻带抑制:在干扰分量(如色度)的频率范围内,对其能量的抑制效果最大化,避免串扰。

  1. 最终为每个像素位置计算专属的最优插值系数,实现像素级的自适应信号恢复。

  算法采用“频域分解-局部特征分析-加权融合-色彩还原”的流程,核心是根据图像局部内容动态调整分离策略,在亮度细节保留和色度伪影抑制间实现最优平衡,共4步:

  1. 自适应频率分解:采用非子采样的方向滤波器组(覆盖水平、垂直、对角线全方向),将原始Bayer图像分解为多个频域子带,保留全方向的频率信息;

  2. 局部特征估计:在局部像素窗口内分析各子带的能量分布——某方向高频能量极强,即判定为图像强边缘,标记为重点保护区域;

  3. 最优系数加权:调用通过最小二乘预计算的最优系数矩阵,根据局部特征(如强边缘、平滑区域)对各频域子带进行加权融合,边缘区域优先保留亮度细节,平滑区域优先抑制色度伪影;

  4. 色彩空间还原:将分离后的亮度分量 $f_L$ 与两个色度分量 $f_{C1}/f_{C2}$ 进行组合,从Bayer单通道还原为完整的RGB彩色图像。

  相较于AHD、Hamilton-Adams等空域解马赛克算法,Dubois算法因基于频域最优切分,具备两大核心优势,也是其成为高端图像处理方案的关键:

  1. 超强抗摩尔纹能力:对细密织物、栅栏、网格等易产生摩尔纹的纹理,能通过频域精准分离亮度/色度,从根源上抑制摩尔纹生成,这是该算法最突出的性能亮点;

  2. 全向性边缘处理:滤波器组覆盖水平、垂直、对角线及任意斜向,能精准还原任意角度的图像边缘,避免空域算法常见的“方向伪影”;

  3. 低混叠、低伪色:最优滤波器从数学上最大化减少频谱重叠带来的信号串扰,伪色和边缘模糊问题远轻于传统方法。

  Dubois算法的性能优势以计算成本为代价,同时存在轻微的算法固有缺陷,导致其应用场景受限,核心局限性有二:

  1. 计算复杂度极高:涉及大规模矩阵求逆、多维滤波器卷积及像素级最优系数计算,硬件实现成本高、实时性差,因此仅见于专业高端摄影后期处理软件(如Adobe系列专业修图工具),难以落地在嵌入式、移动端等低算力平台;

  2. 存在振铃效应风险:若滤波器参数设置不当,在图像极尖锐的边缘(如黑白强对比边界)会出现Gibbs现象,表现为边缘周围的轻微振铃伪影,影响视觉效果;

  3. 参数敏感性高:最优滤波器的设计依赖于图像统计特征,针对不同场景(如风光、人像、夜景)需调整加权系数,泛化性需结合场景适配。

2.4 非局部方法

2.4.1 非局部自相似性的demosaicking

  论文:Self-similarity driven color demosaicking

  该算法是面向RAW图像的高级彩色重建算法,区别于双线性插值、AHD(基于梯度的解马赛克)等传统方法,其核心突破在于利用自然图像的非局部自相似性(Non-local Self-similarity)——图像中某一局部块的结构会在其他位置重复出现,通过挖掘这种跨位置的结构相关性,实现缺失像素的精准估计,在高频细节、纹理丰富区域的重建效果显著,能有效抑制拉链效应、伪色、摩尔纹等解马赛克常见伪影。

  基础假设:自然图像中,若两个局部像素块(Patches)在空间结构上相似,则其在红(R)、绿(G)、蓝(B)全色通道上的像素值也具备高度相关性;且绿色通道的结构相似性可迁移至红、蓝通道,为其插值提供精准引导。   因此将缺失像素的估计问题转化为加权平均求解,通过相似性权重衡量搜索窗口内像素对目标像素的贡献度,公式如下: $$\hat{I}_{c}(p)=\frac{\sum {q\in \Omega }w(p,q)\cdot I{c}(q)}{\sum _{q\in \Omega }w(p,q)}$$   各参数定义:

  • $p$:待插值的缺失像素位置;

  • $q$:搜索窗口 $\Omega$ 内的已知像素/已插值像素位置;

  • $w(p,q)$:基于结构相似度计算的权重(相似性越高,权重越大);

  • $c$:代表R/G/B某一颜色通道;

  • $\hat{I}{c}(p)$:像素$p$在$c$通道的估计值,$I{c}(q)$:像素$q$在$c$通道的实际值。

  算法采用分阶段重建+迭代细化的策略,遵循“先绿通道、后红蓝图、再优化”的顺序,核心是通过绿色通道构建相似性权重引导图,实现红、蓝通道的非局部精准插值,共分四个阶段。

  1. 绿色通道的初始重建。Bayer阵列中绿色像素占比50%,是亮度信息的核心载体,其重建精度直接决定后续红、蓝通道的效果,因此作为算法的起始步骤。

    1. 方向性检测插值:计算像素局部的水平、垂直、对角线梯度,根据梯度方向进行初步插值,保留图像边缘的方向性;

    2. 自相似性修正:在大尺寸搜索窗口内,寻找与当前像素块相似的已知绿色像素块,通过加权平均计算这些相似块的贡献,修正初始插值的误差,确保图像边缘锐利、纹理细节完整。

  2. 利用自相似性构建“引导图”。这是该算法的核心关键步骤,实现从“单通道重建”到“跨通道引导”的过渡,为红、蓝通道插值提供基础权重。

    1. 计算相似度权重:基于第一阶段重建的完整绿色通道,计算像素块之间的欧几里得距离,距离越小则相似性越高,对应权重越大,生成绿色通道的相似性权重矩阵;

    2. 权重共享假设:算法核心迁移规则——若绿色通道中块$A$和块$B$结构相似,则该几何相似性在红、蓝通道中同样成立,将绿色通道的权重矩阵保存为引导图,用于指导后续R/B通道的插值。

  3. 红/蓝通道的非局部重建:红、蓝像素在Bayer阵列中占比均为25%,缺失量更大,本阶段基于绿色通道的引导图,采用非局部均值(Non-local Means) 方法完成重建,核心是色差域处理

    1. 空间转换:将红、蓝通道转换为色差空间($R-G$、$B-G$),色差信号的特性是局部平滑性强且能完整保留结构相似性,可降低插值难度;

    2. 加权插值:利用绿色通道推导的相似性权重,对搜索窗口内已知的红、蓝像素进行加权聚合,估计缺失的红、蓝像素值,再通过色差空间还原为原始的R、B通道像素值。

  4. 迭代细化 (Refinement)。为消除红、蓝通道插值后可能残留的伪色、边缘模糊等问题,通过多轮迭代优化全色图像,一般迭代2-3轮即可达到稳定效果。

    1. 基于当前重建的完整R、G、B图像,重新计算像素块之间的结构相似度,更新权重矩阵;

    2. 利用更新后的权重重新估计缺失像素,反复迭代至图像的局部结构指标(如全变分、局部对比度)趋于稳定,完成最终重建。

  该算法的优势与劣势均源于其非局部相似性搜索的核心机制——大窗口的相似性挖掘带来了重建精度的提升,但也导致计算与内存成本的急剧增加,优缺点对比清晰,适用场景具有明确的针对性。优点:

  1. 卓越的细节恢复能力:能精准重建复杂的周期性纹理(如织物纹理、建筑栅栏、毛发细节等),这类区域是传统插值算法的短板,易出现模糊或伪影;

  2. 强效的伪影抑制:从结构层面挖掘像素相关性,能有效减少边缘处的“拉链效应”、摩尔纹,以及红、蓝通道插值带来的伪色,重建图像的视觉效果更自然;

  3. 抗噪性:非局部相似性的加权平均过程本质上具有低频去噪作用,可直接处理RAW图像中存在的传感器低频噪声,无需额外增加去噪步骤。

  缺点:

  1. 计算开销极大:需要在大尺寸搜索窗口内进行大量的像素块匹配和相似度计算,计算量远超双线性插值、AHD等简单的梯度插值算法,对硬件算力要求高;

  2. 内存需求高:算法执行过程中需要存储大量的权重矩阵,或进行多次滑窗搜索,对硬件的内存/显存容量有较高要求;

  3. 实时性差:受计算和内存成本的限制,该算法无法应用于低功耗移动端的实时取景场景(如手机相机实时预览),主要用于图像的后期处理(如RAW图修图、专业摄影后期)。

2.4.2 Nonlocal Color Correction Method for CFA Demosaicking

  MLRI作为传统非深度学习去马赛克算法的性能标杆,核心是通过残差分析拉普拉斯能量最小化,解决了传统色差法插值的伪影、锐度损失问题,由Monno等人2011年提出,是残差插值(RI)的核心改进版本。

  MLRI的理论基础是对传统去马赛克色差恒定假设的精细化升级,同时引入残差拉普拉斯算子作为核心评价指标,两个核心定义与假设如下:

  1. 残差(Residual)定义:原始像素值与引导滤波估算值的差值,即 $Res(p) = I_{raw}(p) - \tilde{I}(p)$($p$ 为像素点,$I_{raw}$ 为原始未插值像素,$\tilde{I}$ 为引导滤波得到的暂定插值像素),残差反映了暂定插值结果与真实值的偏差

  2. 拉普拉斯能量最小化核心假设:理想的插值结果应使残差平面的拉普拉斯能量(二阶导数)最小。拉普拉斯能量表征平面的高频波动程度,能量越小,残差平面空间越平滑,无高频突变,这一假设从根源上避免了插值后出现边缘伪影、彩虹纹等问题。

  对比传统色差法(假设$R-G$/$B-G$局部恒定):MLRI放弃了简单的色彩通道差值恒定假设,转而从插值偏差的空间分布特性入手,假设更贴合真实图像的纹理分布规律,插值精度更高。

  MLRI针对Bayer阵列的去马赛克需求,以绿色通道为核心引导(Bayer阵列中G像素占比50%,信息最丰富),分步骤完成R/B通道的插值重建,全程围绕引导滤波拉普拉斯优化展开,步骤间层层递进,无冗余环节,具体流程如下:

  1. 引导图像生成 (Guided Image Generation)

    • 目标:生成完整的绿色像素平面 $\hat{G}$,作为R/B通道插值的引导图

    • 方法:采用基础高性能去马赛克算法(如Hamilton-Adams,简称AHD)对原始Bayer阵列的G像素进行插值,得到完整、低伪影的$\hat{G}$;

    • 核心意义:利用G通道的高信息密度,为后续R/B通道插值提供空间纹理参考,避免无引导的盲目插值。

  2. 暂定值估计 (Tentative Image Estimation)

    • 目标:为R(或B)通道生成暂定插值图像 $\tilde{R}$($\tilde{B}$);

    • 方法:以第一步得到的$\hat{G}$为引导图,结合局部线性模型,在Guided Filter(引导滤波器)框架下,通过最小化局部线性回归误差求解R/B通道的暂定插值值;

    • 核心意义:引导滤波器能保证插值结果与引导图$\hat{G}$的边缘纹理一致,初步得到无明显边缘失真的R/B暂定平面,为后续残差优化奠定基础。

  3. 残差计算 (Residual Calculation)

    • 目标:计算R(或B)通道已知原始像素点的残差,得到离散的残差点集;

    • 方法:仅在Bayer阵列中R(B)通道的原始有效像素点$p$ 处,计算原始值与暂定插值值的差值,公式为: $$Res(p) = R_{raw}(p) - \tilde{R}(p)$$

    • 核心意义:仅对已知像素计算残差,避免无原始值参考的无效残差,保证残差值的真实性,为后续残差插值提供有效样本。

  4. 残差插值与拉普拉斯优化(MLRI核心创新步骤)

    • 目标:对残差点集进行带权插值,得到完整的残差平面 $Res_{full}$;

    • 方法:

      1. 计算拉普拉斯算子值:对离散的残差点集,计算其水平/垂直方向的二阶梯度(即拉普拉斯算子值),表征残差在该方向的高频波动程度;

      2. 拉普拉斯能量加权插值:在R(B)通道的缺失像素位置,利用周围已知残差点进行插值,插值权重与拉普拉斯能量成反比——能量越小(残差越平滑)的方向,权重越高;能量越大(残差高频突变)的方向,权重越低;

      3. 伪影规避:通过加权策略,算法会自动避开拉普拉斯能量高的复杂边缘区域,选择平滑方向插值,从根源上减少边缘伪影和彩虹纹。

  5. 全色重建 (Full-Color Reconstruction)

    • 目标:得到R(B)通道的最终插值平面,结合$\hat{G}$完成全色图像重建;

    • 方法:将第四步得到的完整残差平面 $Res_{full}$ 加回第二步的暂定插值图像,公式为: $$R_{final} = \tilde{R} + Res_{full}$$

      • 对B通道执行相同操作,得到$B_{final}$,最终由$\hat{G}$、$R_{final}$、$B_{final}$拼接为完整的RGB彩色图像。

  相较于传统去马赛克算法(如AHD、双线性插值、简单RI),MLRI在锐度保留、伪色抑制、噪声鲁棒性三个核心维度实现了质的提升,也是其成为传统非深度学习算法“性能标杆”的关键:

  1. 极高的纹理锐度:以G通道为引导,结合局部线性模型的暂定插值,保证了R/B通道与G通道的边缘纹理一致性,相较于AHD能保留更真实的细节边缘,无明显的锐度损失和模糊感;

  2. 极低的伪色/彩虹纹:拉普拉斯能量最小化的核心假设,让残差平面保持高度平滑,且加权插值自动避开复杂边缘,在细小交错线条、高频纹理区域极少出现传统算法的“彩虹纹”和色彩失真;

  3. 优秀的噪声鲁棒性:引导滤波器和拉普拉斯加权插值均具有一定的噪声抑制能力,能有效降低Bayer阵列中椒盐噪声、高斯噪声对插值结果的影响,插值后图像的信噪比更高;

  4. 计算效率可控:全程基于传统数字图像处理算子(引导滤波、拉普拉斯算子、线性插值),无复杂计算,相较于深度学习去马赛克算法,无需大量算力,易在嵌入式、端侧设备部署。

3 深度学习Demosaic算法

3.1 DemosaicNet

  深度联合去马赛克与去噪(Deep Joint Demosaicking and Denoising, JDD) 旨在通过一个统一的深度学习框架同时解决 RAW 数据的插值(去马赛克)和降噪问题。在传统的 ISP 流程中,去噪和去马赛克通常是分离的步骤。然而,这种顺序处理存在固有缺陷:

  • 误差累积: 如果先去马赛克再去噪,插值过程会平滑或分散噪声,使其分布变得极其复杂(变为空间相关且非高斯),导致后续去噪算法难以建模。

  • 伪影放大: 如果先去噪再去马赛克,去噪过程可能会破坏关键的边缘和纹理特征,导致去马赛克产生严重的拉链(zippering)和伪色(false color)伪影。

  • JDD 的优势: 联合处理利用了两个任务共享的图像先验信息。例如,绿色通道的高采样率和高信噪比(SNR)可以指导红蓝通道的重建与降噪。

  网络结果比较简单:由 D+1 层卷积构成(实验中 D=15,每层 64 个 3×3 卷积核),输入为拜耳马赛克阵列 M + 噪声水平 σ,先将 M 重排为 1/4 分辨率 4 通道特征,拼接 σ 扩展为 5 通道;经多轮卷积 + ReLU 后,将 12 通道低分辨率特征上采样至全分辨率,拼接原始马赛克的掩码特征,最后经全分辨率卷积得到 RGB 输出,全程通过补零保持图像尺寸不变,感受野随深度扩大。

  需要额外注意的是噪声建模:针对白平衡、伽马校正后的 sRGB 图像采用加性高斯噪声模型,训练时随机采样 σ∈[0,20] 的噪声水平,让网络适应连续噪声范围。   由于训练依赖图像指标检测困难样本,而HDR-VDP2 并非完美的亮度伪影检测器;若原始 sRGB 真值含摩尔纹,网络会学习该失真,需无参考摩尔纹检测器进一步优化;网络深度和滤波器数量对摩尔纹处理影响较大,浅层网络难以应对复杂摩尔纹。

3.2 SGNet

  SGNet聚焦计算摄影管线中早期的联合去马赛克与去噪(JDD)任务,针对现有方法未充分利用 Bayer 格式图像的通道采样先验、未区分不同频率区域退化差异的问题。现有 JDD 相关深度学习方法多将 Bayer 原始图像解耦为四通道 RGGB 图像后直接输入网络,忽略了绿色通道采样率为红、蓝通道两倍的关键先验,且传统卷积的内容无关性让模型难以适配图像不同位置的频率与噪声差异,同时部分方法对高低频区域的恢复采用相同策略,易导致高频区域伪影、低频区域噪声残留的问题。此外,传统损失函数在训练中对所有像素的监督强度一致,无法重点关注高频边缘区域,而总变分损失在去噪时又容易破坏纹理细节,这些问题都制约了 JDD 任务的恢复效果。

  为解决上述问题,SGNet 的核心设计围绕两种自引导机制展开,同时提出了两种专属损失函数优化训练过程。模型先对 Bayer 图像的两个绿色通道进行初始估计,借助 RRDB 模块和深度到空间层完成绿色通道重建,再通过空间自适应卷积让重建后的绿色通道为全通道缺失值恢复提供引导,利用高斯函数实现卷积操作随绿色通道内容的空间自适应调整,充分挖掘绿色通道的边缘与纹理信息;同时设计密度图引导,通过两次高斯模糊与归一化处理得到表征图像不同位置恢复难度的密度图,将其与噪声图、解耦后的四通道数据拼接作为主重建分支输入,让模型针对性处理高低频区域。在损失函数上,提出自适应阈值边缘损失,为图像不同分块设置自适应的 Canny 边缘检测阈值,结合平衡权重的交叉熵损失让模型重点监督高频边缘区域;设计边缘感知平滑损失,在总变分损失基础上加入指数平滑项,实现平滑区域去噪与纹理边缘区域保边的兼顾,最终整体损失融合了边缘损失、平滑损失、输出与真值的 L1 损失及绿色通道初始估计的 L1 损失。

  实验结果表明,SGNet 在多个公开数据集上均优于现有 JDD 方法,在去噪与去马赛克的联合任务中实现了更高的峰值信噪比(PSNR)和结构相似性(SSIM),同时在视觉效果上也展现出更少的伪影与更丰富的细节保留,验证了自引导机制和专属损失函数在提升 JDD 任务性能方面的有效性。

3.3 DPN

  传统深度卷积网络在图像恢复任务中的优异表现,常被归因于从海量数据中学习到的自然图像先验,而Deep Image Prior(DIP)提出了颠覆性观点:生成式卷积网络的架构本身,无需任何数据训练,就能捕捉到自然图像的大量低层统计特征。研究发现,随机初始化的卷积网络可作为一种手工设计的图像先验,直接应用于去噪、超分辨率、图像补全等逆问题,其性能接近基于大数据训练的深度学习方法,同时填补了基于深度学习的图像恢复方法与基于自相似性等手工先验的无学习方法之间的鸿沟。

  DIP的核心实现逻辑是将随机初始化的生成网络作为图像的参数化表示,将图像恢复任务转化为对网络参数的优化:固定随机初始化的输入张量$z$,通过梯度下降优化网络参数$\theta$,使网络输出$f_\theta(z)$尽可能贴合退化图像$x_0$,整个过程仅利用单张退化图像的信息和网络架构本身的先验,无需任何外部训练数据。

  随机初始化的卷积网络之所以能作为有效先验,关键在于其对噪声的高阻抗、对有效信号的低阻抗特性。实验表明,在以$L^2$损失优化网络拟合目标图像时,自然图像或带噪自然图像能让优化过程快速收敛,而像素打乱的图像、纯白噪声则会让优化过程产生显著“惯性”,收敛极慢。尽管网络理论上能拟合任意图像(包括噪声),但会极不情愿地拟合噪声,优化轨迹会自然向符合自然图像统计特征的方向收敛。

  同时,DIP通过早停策略进一步强化先验效果:对于去噪这类退化问题,若优化过久,网络会过度拟合退化图像中的噪声,而优化过程中,轨迹会先经过接近真实清晰图像的区域,在该节点停止优化,即可得到优质的恢复结果。此外,不同网络架构会赋予DIP不同的先验特性,如带跳跃连接的U-Net类沙漏架构能捕捉多尺度的图像自相似性,是DIP实验中的最优选择。

  DIP摒弃了传统图像恢复的显式正则化形式$x^=\underset{x}{argmin} E\left(x ; x_{0}\right)+R(x)$($E$为任务相关数据项,$R$为正则项),将正则项隐含在网络架构中,采用无显式正则化的参数化优化: $$\theta^{}=\underset{\theta}{argmin} E\left(f_{\theta}(z) ; x_{0}\right), x^{}=f_{\theta^{}}(z)$$   DIP的优化流程为:从随机参数$\theta_0$出发,通过ADAM等优化器迭代更新参数,每次迭代将参数映射为图像$f_\theta(z)$,计算其与退化图像的任务相关损失,再通过反向传播更新参数,最终将最优参数对应的网络输出作为恢复图像。

  针对不同图像恢复任务,仅需调整数据项$E$的定义:超分辨率任务中$E$为网络输出下采样后与低分辨率图像的$L^2$损失,图像补全中$E$为网络输出与原始图像在非掩码区域的$L^2$损失,去噪任务中则直接为网络输出与带噪图像的$L^2$损失。

  DIP作为一种通用的无训练图像先验,在多种经典图像恢复及相关任务中展现出优异性能,且均无需针对任务训练模型:

  1. 去噪:在高斯噪声($\sigma=25$)和真实非高斯噪声基准测试中,PSNR接近甚至超过CBM3D、非局部均值等经典无训练方法,能有效去除JPEG压缩伪影等复杂退化,且对不同架构的适配性验证了先验与架构的强关联;

  2. 超分辨率:4×、8×超分辨率任务中,无训练的DIP效果远超双三次插值、TV先验等方法,边缘更清晰、无振铃伪影和卡通化效果,PSNR接近LapSRN、SRResNet等基于大数据训练的模型;

  3. 图像补全:能有效去除图像中的文字掩码、补全50%随机缺失像素的区域,甚至对大尺寸非语义孔洞的补全效果接近基于学习的Global-Local GAN,利用图像自相似性插值纹理,无明显伪影;

  4. 网络诊断:可替代TV范数作为正则项,实现深度网络(AlexNet、VGG-19)的自然预图像重建和神经元激活最大化,重建结果更清晰、可解释性更强,且无学习先验带来的数据集偏置;

  5. 其他拓展:实现图像高频细节增强、基于闪光-无闪光图像对的联合恢复,还可拓展至视频恢复、压缩感知、相位恢复等领域。

  DIP的实验均基于全卷积沙漏架构(Encoder-Decoder),采用LeakyReLU激活、反射填充、双线性/最近邻上采样,输入张量$z$多为随机均匀噪声(部分大孔洞补全任务使用meshgrid输入增强平滑性),训练中可通过输入加噪、损失突变回滚提升优化稳定性。其核心局限性为优化效率低:单张图像的恢复需要数千次卷积网络的前向和反向传播,耗时数分钟,远慢于基于训练的前馈网络;同时,DIP无法像GAN类方法那样幻觉出图像的高频语义细节,在高语义要求的任务(如人脸补全)中表现有限,且性能仍略逊于针对特定任务训练的深度学习模型。

4 总结

  传统算法以手工设计先验为核心:

  • 基础插值算法(双线性、三次、样条)结构最简单、计算最快,但细节丢失严重、伪影明显;

  • 边缘判别算法(HA、自适应梯度、AHD/GBTF)引入方向自适应与梯度加权,显著改善边缘与纹理重建,是消费级ISP主流方案;

  • 频域方法(Alleysson、Dubois)从信号调制与最优滤波角度解耦亮度与色度,对摩尔纹与周期性纹理抑制能力突出;

  • 非局部方法(非局部自相似、MLRI)利用图像自相似性与残差优化,成为传统算法中精度上限最高的代表。

  深度学习算法则摆脱手工先验限制,以数据驱动方式实现端到端重建:

  • DemosaicNet首次提出联合去马赛克与去噪,解决传统串行ISP的误差累积问题;

  • SGNet利用自引导机制与绿色通道先验,进一步提升高低频区域的自适应恢复能力;

  • DIP以无训练网络结构先验,为无标注、单帧图像重建提供了全新思路。

总体而言,传统Demosaic算法计算轻量、硬件友好、理论透明,仍广泛应用于实时嵌入式ISP;深度学习方法精度更高、泛化性更强、可联合降噪/锐化等任务,成为高端计算摄影与AI-ISP的核心趋势。未来Demosaic技术将进一步向轻量化部署、多任务联合优化、低光高噪声鲁棒重建方向发展。

方法类别

代表算法

核心思想

优点

缺点

计算复杂度

工程适用场景

基础插值

双线性、三次、样条

局部空间平滑插值

极简、极快、易硬件实现

模糊严重、拉链效应、伪色多

极低

低端传感器、超低功耗设备

边缘判别

HA、AHD、GBTF

梯度判断边缘+方向自适应插值

细节好、伪影少、速度适中

复杂纹理易误判

手机/相机主流实时ISP

频域方法

Alleysson、Dubois

频域解复用+最优滤波分离亮/色度

抗摩尔纹强、全局一致性好

计算量大、边界效应、实现复杂

专业摄影、后期软件

非局部方法

非局部自相似、MLRI

自相似性/残差/拉普拉斯最小化

传统算法精度上限、伪影极少

搜索匹配慢、内存占用高

很高

高画质离线处理

深度学习

DemosaicNet、SGNet、DIP

数据驱动/端到端/联合去噪

精度最高、泛化强、可联合任务

依赖数据、算力高、可解释性弱

极高

AI-ISP、计算摄影、高端影像

5 参考文献