Part C — 모듈 심화 §7

Denoising센서가 빛을 셀 때 생기는 불확실성을, 디테일을 죽이지 않고 지우는 일

노이즈 제거는 역설의 기술이다. 노이즈와 미세 텍스처는 둘 다 고주파 성분이라, 노이즈를 지우려 하면 디테일이 함께 사라진다. 핵심 질문은 늘 하나다 — 무엇이 신호이고 무엇이 잡음인가. 그 경계를 가르는 사전지식(prior)이 고전 필터에서는 손으로, 딥러닝에서는 데이터로 들어온다.

7.1 노이즈 모델 — 무엇을 지우는가

Poisson–Gaussian: 신호에 비례하는 잡음

이미지 노이즈는 후처리의 부산물이 아니라 광자 계측(photon counting)의 물리에서 출발한다. 센서가 받는 광자 수는 본질적으로 무작위라, 평균이 $\boldsymbol{\lambda}$ 인 광자는 분산도 $\boldsymbol{\lambda}$ 인 Poisson 분포를 따른다(shot noise, 산탄잡음). 여기에 회로의 열·읽기 잡음이 신호와 무관한 Gaussian으로 더해진다(read noise). 둘을 합치면 RAW 신호의 분산은 밝기에 선형으로 의존한다:

\boldsymbol{\mathrm{Var}(y) \;=\; \underbrace{a\,x}_{\text{shot}} \;+\; \underbrace{b}_{\text{read}}\,,\qquad b=\sigma_{\text{read}}^2}

여기서 $\boldsymbol{x}$ 는 참 신호, $\boldsymbol{y}$ 는 관측값, $\boldsymbol{a}$ 는 게인·광자 환산 계수(shot noise), $\boldsymbol{b}$ 는 read 잡음의 분산이다. 핵심은 이분산성(heteroscedasticity) — 밝은 영역일수록 분산이 크다. 그래서 단일 $\boldsymbol{\sigma}$ 를 가정하는 균일 Gaussian denoiser는 RAW에서 잘 맞지 않는다. 아래 실험에서 게인 $\boldsymbol{a}$ 와 read 잡음 $\boldsymbol{b}$ 를 조절하며 분산이 밝기를 따라 어떻게 자라는지 직접 보라.

Lab 01

Poisson–Gaussian 노이즈 시뮬레이터

Var(y) = a·x + b

게인 a (shot) · 0.020

read 잡음 σ · 0.040

분산 안정화 (Anscombe)

참 신호 (clean)

관측 (noisy)

분산 vs 밝기

PSNR (noisy)— dB

관측 모델Poisson+Gauss

※ 속도를 위해 Poisson을 평균 $\boldsymbol{x}$ , 분산 $\boldsymbol{a x}$ 인 Gaussian으로 근사한다. 점은 밝기 구간별 경험적 분산, 선은 이론값 $\boldsymbol{ax+b}$ . VST 적용을 켜면 일반화 Anscombe 변환 $\boldsymbol{g(y)=\tfrac{2}{a}\sqrt{ay+b}}$ 뒤의 분산이 밝기와 무관하게 평평해진다 — denoiser가 균일 잡음만 다루면 되도록 만드는 고전 기법.

RAW에서 지울 것인가, sRGB에서 지울 것인가

노이즈의 통계는 ISP 파이프라인을 지나며 망가진다. 디모자이킹은 잡음을 **공간적으로 상관(correlated)**시키고, 톤 매핑·감마는 분산을 비선형으로 왜곡하며, 샤프닝은 고주파 잡음을 증폭한다. 그 결과 sRGB의 실제 잡음은 더 이상 백색(white)도 Gaussian도 아니다. 이것이 real-noise denoising이 합성 AWGN보다 훨씬 어려운 이유이고, 최신 연구가 RAW 도메인에서, 혹은 ISP를 모델링해 학습하는 쪽으로 간 배경이다(§7.4의 Unprocessing·CycleISP).

광자 (Poisson) +read (Gauss) →RAW: ax+b, 백색 → ISP →sRGB: 상관·비백색·비정규

7.2 평가 지표

PSNR이 높다고 좋은 그림은 아니다

가장 널리 쓰는 지표는 PSNR(평균제곱오차 기반)과 SSIM(구조 유사도)이다. 둘은 편하지만, PSNR은 픽셀 단위 MSE라 과도한 평활화(over-smoothing)를 선호한다 — 디테일을 뭉개 평균에 가깝게 만들수록 MSE가 줄기 때문이다. 그래서 PSNR 1등 모델이 종종 가장 흐릿하다. 지각 품질을 보려면 LPIPS(학습된 지각 거리) 같은 지표를 함께 본다. 이 평활화 vs 디테일의 긴장은 §9 초해상에서 perception–distortion tradeoff로 정식화된다.

\boldsymbol{\mathrm{PSNR} = 10\log_{10}\!\frac{\mathrm{MAX}^2}{\mathrm{MSE}},\qquad \mathrm{MSE}=\frac{1}{N}\sum_i (\hat{x}_i - x_i)^2}

아래 실험에서 직접 확인하라: bilateral 필터의 강도를 올리면 PSNR이 어느 지점까지는 오르다가, 너무 세게 밀면 체커 텍스처(미세 디테일)가 사라지면서 시각적으로는 더 나빠진다.

Lab 02

디노이징 트레이드오프 — Bilateral vs Gaussian

평활화 ↔ 디테일

커널 반경 (공간 σ) · 3

강도 (range σ) · 0.10

필터

clean

noisy · —

denoised · —

PSNR 개선— dB

엣지 보존—

Bilateral은 밝기 차가 큰 이웃의 가중치를 낮춰 엣지를 보존한다(range σ↑일수록 평범한 Gaussian에 수렴). Gaussian은 엣지·텍스처를 가리지 않고 밀어버린다. range σ를 키워 둘이 같아지는 지점을 찾아보라.

7.3 고전·통계 — Bible

손으로 짠 prior: 평활성과 자기유사성

딥러닝 이전의 denoiser는 “자연 영상은 어떤 성질을 갖는가”라는 가정을 명시적으로 설계했다. 이 계보는 지금도 baseline·해석·경량 구현으로 살아있다.

Gaussian/TV →Bilateral (1998) →NLM (2005) →BM3D (2007) →K-SVD / 사전학습

Bilateral Filtering for Gray and Color Images

Tomasi & Manduchi · ICCV 1998 · Scholar

아이디어: 공간 거리 가중치에 밝기(range) 유사도 가중치를 곱한다. 비슷한 값끼리만 평균하므로 평탄 영역은 매끄럽게, 엣지는 살아남는다.
의의·한계: 엣지보존 평활화의 표준 도구(톤매핑·HDR 분해에도 쓰임). 단점은 그래디언트 반전·계단 현상, 텍스처와 잡음을 구분 못함. Lab 02가 이 필터다.

A Non-Local Algorithm for Image Denoising (NLM)

Buades, Coll & Morel · CVPR 2005 · Scholar

아이디어: ”비슷한 패치는 영상 전체에 반복된다”는 자기유사성(self-similarity)을 활용. 한 픽셀을, 주변 패치가 유사한 모든 위치의 가중 평균으로 추정한다.
의의: local→non-local로의 전환점. 이후 모든 패치 기반·트랜스포머의 “유사 패치 집계” 사고의 원형. BM3D·딥러닝 attention으로 이어진다.

★Image Denoising by Sparse 3-D Transform-Domain Collaborative Filtering (BM3D)

Dabov, Foi, Katkovnik & Egiazarian · IEEE TIP 2007 · Scholar

핵심: 유사 패치를 3D 블록으로 쌓아 변환영역에서 함께 수축(collaborative filtering)하고 다시 합성(aggregation)한다. NLM의 자기유사성 + 변환영역 희소성의 결합.
왜 ★: 10년 넘게 비학습 SOTA이자 모든 딥러닝 논문의 baseline. CBM3D(컬러)·BM4D·VBM3D로 확장. 오늘도 “딥러닝이 BM3D를 얼마나 이겼나”가 표준 비교다.
한계: 잡음 수준 σ를 알아야 하고(non-blind), 실제 잡음·강한 잡음에서 약함. 느림.

Total Variation · Wavelet Shrinkage · K-SVD 사전학습

Rudin–Osher–Fatemi 1992 · Donoho 1995 · Elad–Aharon 2006 · Scholar

스펙트럼: TV: 그래디언트 L₁ 최소화(조각별 평탄 prior, 만화 같은 결과). Wavelet: 변환계수 임계 수축. K-SVD: 데이터로 학습한 over-complete 사전에 희소 표현 — “학습된 prior”의 전조.
맥락: 희소성·변환영역 사고가 딥러닝의 표현 학습으로 흡수된다.

7.4 딥러닝

prior를 데이터로 학습하다

CNN/트랜스포머는 손으로 짠 가정을 대량의 (깨끗함, 더러움) 쌍으로 대체했다. 흐름은 ① 합성 AWGN을 푸는 회귀망(DnCNN류) → ② 깨끗한 GT 없이 배우는 자기지도 → ③ 실제·RAW 잡음으로의 이행 → ④ 복원 백본의 일반화로 정리된다.

① 합성 잡음을 푸는 회귀망

★Beyond a Gaussian Denoiser: Residual Learning of Deep CNN (DnCNN)

Zhang, Zuo, Chen, Meng & Zhang · IEEE TIP 2017 · arXiv:1608.03981

핵심: 깨끗한 영상이 아니라 잔차(=잡음)를 예측하고(residual learning) BN을 결합. 단일 모델로 여러 σ를 처리하는 blind 버전도 제시.
왜 ★: 딥러닝 denoising의 출발점이자 기본기. 잔차 학습은 이후 거의 모든 복원망의 표준 설계가 됨.

FFDNet: Toward a Fast and Flexible Solution for CNN Denoising

Zhang, Zuo & Zhang · IEEE TIP 2018 · arXiv:1710.04026

기여: 잡음수준을 입력 맵으로 받아 하나의 망으로 공간적으로 변하는 잡음·여러 σ를 처리. 다운샘플로 속도↑. 실용 denoiser의 원형.

CBDNet · RIDNet — blind / real noise

Guo et al. CVPR 2019 · Anwar & Barnes ICCV 2019 · arXiv:1807.04686

기여: 잡음 추정 + 비대칭 손실로 합성↔실제 격차를 줄이고(CBDNet), feature attention으로 실잡음 성능을 끌어올림(RIDNet). “AWGN만으로는 실사진을 못 지운다”는 인식의 전환.

② 깨끗한 GT 없이 — 자기지도(self-supervised)

★Noise2Noise: Learning Image Restoration without Clean Data

Lehtinen et al. · ICML 2018 · arXiv:1803.04189

핵심: 같은 장면의 독립적으로 더러운 두 관측만 있으면, 깨끗한 타깃 없이도 평균이 참값인 추정기를 배울 수 있다(잡음 평균이 0이면). GT 수집이 불가능한 의료·천문에 충격.
왜 ★: “깨끗한 정답이 필요하다”는 통념을 깸. 자기지도 denoising 계보의 출발점.

Noise2Void · Noise2Self — 단일 영상 자기지도

Krull et al. CVPR 2019 · Batson & Royer ICML 2019 · arXiv:1811.10980

기여: 쌍도 필요 없이 한 장에서 학습. blind-spot(자기 자신을 보지 못하게 가림)으로 항등 붕괴를 막는다. 데이터가 극히 적은 현장에서 강력.

③ 실제·RAW 잡음 — 도메인 갭 메우기

★Unprocessing Images for Learned Raw Denoising

Brooks, Mildenhall, Xue, Chen, Sharlet & Barron · CVPR 2019 · arXiv:1811.11127

핵심: sRGB 영상을 ISP 역방향으로 풀어 현실적인 RAW를 합성하고, RAW에서 Poisson–Gaussian 잡음을 학습. 진짜 RAW GT 없이도 실제 잡음에 강한 모델을 얻음.
왜 ★: “잡음을 RAW에서, 물리에 맞게” 푸는 사고의 정착. ISP 인식 학습의 대표작.

Learning to See in the Dark (SID)

Chen, Chen, Xu & Koltun · CVPR 2018 · arXiv:1805.01934

기여: 극저조도 단노출 RAW → 정상 노출로 가는 학습형 ISP를 end-to-end로. See-in-the-Dark 데이터셋 공개. 디노이징을 ISP 전체와 묶어 보는 관점.

ELD: Physics-based Noise Formation Model · CycleISP

Wei et al. CVPR 2020 · Zamir et al. CVPR 2020 · arXiv:2003.12751 · 2003.07761

기여: ELD: 센서별 잡음을 정밀 모델링(흑준위·행/열·양자화 포함)해 극저조도에서 합성→실제 격차를 크게 줄임. CycleISP: RAW↔sRGB를 순환 학습해 사실적 RAW 데이터 생성·실잡음 SOTA.

④ 복원 백본 — 한 구조로 여러 복원

아래 백본들은 디노이징 전용이 아니라 deblur·SR·deraining을 함께 푸는 범용 복원기다. §8·§9와 공유하므로 이 페이지에서는 요지만, 자세한 비교는 별도 복원 백본 노트에서 다룬다.

★Restormer: Efficient Transformer for High-Resolution Restoration

Zamir et al. · CVPR 2022 · arXiv:2111.09881

핵심: 채널 축 self-attention(MDTA)으로 고해상에서 전역 맥락을 선형 비용에 가깝게. 디노이징·deblur·deraining 다수 SOTA. SIDD 실잡음에서 강력(≈40.0 dB대, 프로토콜 의존).

★NAFNet: Simple Baselines for Image Restoration

Chen, Chu, Zhang & Sun · ECCV 2022 · arXiv:2204.04676

핵심: 활성함수조차 없는(nonlinear activation-free) 극단적 단순화로, 복잡한 트랜스포머에 필적·능가. SIDD에서 최상위권(≈40.3 dB대, 프로토콜 의존). “단순함이 강하다”의 상징.

SwinIR · Uformer · MIRNet

Liang et al. ICCVW 2021 · Wang et al. CVPR 2022 · Zamir et al. ECCV 2020 · arXiv:2108.10257

요지: SwinIR: Swin 트랜스포머를 복원에 이식한 범용 강자. Uformer: U자형 윈도우 트랜스포머. MIRNet: 다중 스케일 특징을 유지·교환하는 설계로 실잡음·저조도에서 강함.

7.5 최신 SOTA · 2023–2026

확산 모델·자기지도·동영상으로

최근 흐름은 세 갈래다. (1) 생성형 prior — 확산(diffusion) 모델을 복원에 끌어와, 평활화된 결과 대신 그럴듯한 디테일을 합성한다(지각 품질↑, 단 충실도와 트레이드오프·환각 위험). (2) 실세계 자기지도/blind — 단일 노이즈 영상이나 비대칭 쌍만으로 학습하는 기법의 정교화. (3) RAW·버스트·동영상 — 다중 프레임 정렬과 시간 일관성으로 한계를 미는 방향.

⚐ 빠르게 바뀌는 영역 — 갱신 권장

이 블록의 구체적 모델·수치는 매년 빠르게 갱신된다. 최신 순위·논문은 Deep Research로 정기 업데이트하고, 표/주장은 출처와 측정 프로토콜을 함께 기록하라(아래 ⚠️ 참조).

회귀망 (MSE) →트랜스포머 백본 →확산 prior (지각) 실세계 자기지도 버스트·비디오

7.6 상업화

제품 속의 디노이저

디노이징은 ISP에서 가장 먼저, 가장 널리 상업화된 복원 모듈이다. 데스크톱 RAW 현상부터 스마트폰의 야간 모드까지 거의 모든 카메라 파이프라인에 들어있다.

DxO DeepPRIME · DeepPRIME XD

데스크톱 RAW · 딥러닝 디모자이크+디노이즈 결합

특징: 디모자이킹과 디노이징을 RAW에서 동시에 처리하는 학습형 파이프라인. 고감도(고 ISO)에서 강한 평판. (제조사 성능 주장은 ⚠️ 자체 검증 권장)

Adobe Lightroom / Camera Raw — AI Denoise

RAW 전용 ML 디노이즈 (2023~)

특징: RAW 파일에 직접 적용하는 ML 디노이저를 기본 워크플로에 통합. “디모자이크 전/직후 RAW에서 처리”라는 연구 흐름의 제품화 사례.

Topaz DeNoise AI / Photo AI · 스마트폰 다중프레임

소비자 ML 복원 · 모바일 야간 모드

특징: Topaz는 디노이즈·샤픈·업스케일을 묶은 소비자 도구. 스마트폰은 버스트 정렬+병합(컴퓨테이셔널 포토그래피)으로 저조도 잡음을 다중프레임 평균으로 억제 — §12 burst와 직결.

7.7 벤치마크 · 데이터셋

실제 잡음으로 평가하기

합성 AWGN 벤치마크(Set12·BSD68·Kodak)는 여전히 쓰이지만, 의미 있는 평가는 실촬영 잡음 데이터셋에서 이뤄진다. 깨끗한 GT는 보통 같은 장면의 다수 프레임 평균·저감도 장노출로 만든다.

데이터셋	도메인	특징	GT 방식
SIDD Abdelhamed 2018	스마트폰 실잡음	실잡음 디노이징의 사실상 표준 벤치	다중프레임 통계 추정
DND Plötz–Roth 2017	DSLR 실잡음	온라인 제출 평가(GT 비공개)	저 ISO 참조 촬영
RENOIR	실잡음	다양한 기기·조도	저감도 참조
PolyU	실잡음	크롭 단위 실잡음 쌍	다중프레임 평균
Set12 / BSD68 / Kodak	합성 AWGN	고전 비교용(σ 지정)	원본=GT, 잡음 합성

⚠️ 수치 인용 시 주의

같은 모델도 측정 프로토콜(sRGB vs RAW, 전체 vs 크롭, 검증 분할, 자체 학습 여부)에 따라 PSNR이 0.x dB 단위로 달라진다. NAFNet·Restormer가 SIDD에서 40 dB 안팎으로 보고되지만, 리더보드 1~2위는 자주 바뀌고 소수점 차이는 큰 의미가 없다. 표를 옮길 땐 반드시 출처·프로토콜을 같이 적어라.

→ 이웃 모듈로

이 다음은

디노이징은 다른 복원 문제와 모델·사고를 공유한다. 같은 백본(Restormer·NAFNet·SwinIR)이 흐림 제거와 초해상에도 쓰이고, 디모자이킹과는 RAW에서 함께 푸는 것이 자연스럽다.

이어서 읽기

§8 — Deblurring · 흐림 제거 §9 — Super-Resolution · 초해상 §6 — Demosaicing · joint denoise §5 — White Balance

개인 학습 자료 · ISP & Computational Photography · §7 Denoising