Denoising센서가 빛을 셀 때 생기는 불확실성을, 디테일을 죽이지 않고 지우는 일
노이즈 제거는 역설의 기술이다. 노이즈와 미세 텍스처는 둘 다 고주파 성분이라, 노이즈를 지우려 하면 디테일이 함께 사라진다. 핵심 질문은 늘 하나다 — 무엇이 신호이고 무엇이 잡음인가. 그 경계를 가르는 사전지식(prior)이 고전 필터에서는 손으로, 딥러닝에서는 데이터로 들어온다.
Poisson–Gaussian: 신호에 비례하는 잡음
이미지 노이즈는 후처리의 부산물이 아니라 광자 계측(photon counting)의 물리에서 출발한다. 센서가 받는 광자 수는 본질적으로 무작위라, 평균이 인 광자는 분산도 인 Poisson 분포를 따른다(shot noise, 산탄잡음). 여기에 회로의 열·읽기 잡음이 신호와 무관한 Gaussian으로 더해진다(read noise). 둘을 합치면 RAW 신호의 분산은 밝기에 선형으로 의존한다:
여기서 는 참 신호, 는 관측값, 는 게인·광자 환산 계수(shot noise), 는 read 잡음의 분산이다. 핵심은 이분산성(heteroscedasticity) — 밝은 영역일수록 분산이 크다. 그래서 단일 를 가정하는 균일 Gaussian denoiser는 RAW에서 잘 맞지 않는다. 아래 실험에서 게인 와 read 잡음 를 조절하며 분산이 밝기를 따라 어떻게 자라는지 직접 보라.
Poisson–Gaussian 노이즈 시뮬레이터
Var(y) = a·x + b※ 속도를 위해 Poisson을 평균 , 분산 인 Gaussian으로 근사한다. 점은 밝기 구간별 경험적 분산, 선은 이론값 . VST 적용을 켜면 일반화 Anscombe 변환 뒤의 분산이 밝기와 무관하게 평평해진다 — denoiser가 균일 잡음만 다루면 되도록 만드는 고전 기법.
RAW에서 지울 것인가, sRGB에서 지울 것인가
노이즈의 통계는 ISP 파이프라인을 지나며 망가진다. 디모자이킹은 잡음을 **공간적으로 상관(correlated)**시키고, 톤 매핑·감마는 분산을 비선형으로 왜곡하며, 샤프닝은 고주파 잡음을 증폭한다. 그 결과 sRGB의 실제 잡음은 더 이상 백색(white)도 Gaussian도 아니다. 이것이 real-noise denoising이 합성 AWGN보다 훨씬 어려운 이유이고, 최신 연구가 RAW 도메인에서, 혹은 ISP를 모델링해 학습하는 쪽으로 간 배경이다(§7.4의 Unprocessing·CycleISP).
PSNR이 높다고 좋은 그림은 아니다
가장 널리 쓰는 지표는 PSNR(평균제곱오차 기반)과 SSIM(구조 유사도)이다. 둘은 편하지만, PSNR은 픽셀 단위 MSE라 과도한 평활화(over-smoothing)를 선호한다 — 디테일을 뭉개 평균에 가깝게 만들수록 MSE가 줄기 때문이다. 그래서 PSNR 1등 모델이 종종 가장 흐릿하다. 지각 품질을 보려면 LPIPS(학습된 지각 거리) 같은 지표를 함께 본다. 이 평활화 vs 디테일의 긴장은 §9 초해상에서 perception–distortion tradeoff로 정식화된다.
아래 실험에서 직접 확인하라: bilateral 필터의 강도를 올리면 PSNR이 어느 지점까지는 오르다가, 너무 세게 밀면 체커 텍스처(미세 디테일)가 사라지면서 시각적으로는 더 나빠진다.
디노이징 트레이드오프 — Bilateral vs Gaussian
평활화 ↔ 디테일Bilateral은 밝기 차가 큰 이웃의 가중치를 낮춰 엣지를 보존한다(range σ↑일수록 평범한 Gaussian에 수렴). Gaussian은 엣지·텍스처를 가리지 않고 밀어버린다. range σ를 키워 둘이 같아지는 지점을 찾아보라.
손으로 짠 prior: 평활성과 자기유사성
딥러닝 이전의 denoiser는 “자연 영상은 어떤 성질을 갖는가”라는 가정을 명시적으로 설계했다. 이 계보는 지금도 baseline·해석·경량 구현으로 살아있다.
Bilateral Filtering for Gray and Color Images
- 아이디어
- 공간 거리 가중치에 밝기(range) 유사도 가중치를 곱한다. 비슷한 값끼리만 평균하므로 평탄 영역은 매끄럽게, 엣지는 살아남는다.
- 의의·한계
- 엣지보존 평활화의 표준 도구(톤매핑·HDR 분해에도 쓰임). 단점은 그래디언트 반전·계단 현상, 텍스처와 잡음을 구분 못함. Lab 02가 이 필터다.
A Non-Local Algorithm for Image Denoising (NLM)
- 아이디어
- ”비슷한 패치는 영상 전체에 반복된다”는 자기유사성(self-similarity)을 활용. 한 픽셀을, 주변 패치가 유사한 모든 위치의 가중 평균으로 추정한다.
- 의의
- local→non-local로의 전환점. 이후 모든 패치 기반·트랜스포머의 “유사 패치 집계” 사고의 원형. BM3D·딥러닝 attention으로 이어진다.
★Image Denoising by Sparse 3-D Transform-Domain Collaborative Filtering (BM3D)
- 핵심
- 유사 패치를 3D 블록으로 쌓아 변환영역에서 함께 수축(collaborative filtering)하고 다시 합성(aggregation)한다. NLM의 자기유사성 + 변환영역 희소성의 결합.
- 왜 ★
- 10년 넘게 비학습 SOTA이자 모든 딥러닝 논문의 baseline. CBM3D(컬러)·BM4D·VBM3D로 확장. 오늘도 “딥러닝이 BM3D를 얼마나 이겼나”가 표준 비교다.
- 한계
- 잡음 수준 σ를 알아야 하고(non-blind), 실제 잡음·강한 잡음에서 약함. 느림.
Total Variation · Wavelet Shrinkage · K-SVD 사전학습
- 스펙트럼
- TV: 그래디언트 L₁ 최소화(조각별 평탄 prior, 만화 같은 결과). Wavelet: 변환계수 임계 수축. K-SVD: 데이터로 학습한 over-complete 사전에 희소 표현 — “학습된 prior”의 전조.
- 맥락
- 희소성·변환영역 사고가 딥러닝의 표현 학습으로 흡수된다.
prior를 데이터로 학습하다
CNN/트랜스포머는 손으로 짠 가정을 대량의 (깨끗함, 더러움) 쌍으로 대체했다. 흐름은 ① 합성 AWGN을 푸는 회귀망(DnCNN류) → ② 깨끗한 GT 없이 배우는 자기지도 → ③ 실제·RAW 잡음으로의 이행 → ④ 복원 백본의 일반화로 정리된다.
① 합성 잡음을 푸는 회귀망
★Beyond a Gaussian Denoiser: Residual Learning of Deep CNN (DnCNN)
- 핵심
- 깨끗한 영상이 아니라 잔차(=잡음)를 예측하고(residual learning) BN을 결합. 단일 모델로 여러 σ를 처리하는 blind 버전도 제시.
- 왜 ★
- 딥러닝 denoising의 출발점이자 기본기. 잔차 학습은 이후 거의 모든 복원망의 표준 설계가 됨.
FFDNet: Toward a Fast and Flexible Solution for CNN Denoising
- 기여
- 잡음수준을 입력 맵으로 받아 하나의 망으로 공간적으로 변하는 잡음·여러 σ를 처리. 다운샘플로 속도↑. 실용 denoiser의 원형.
CBDNet · RIDNet — blind / real noise
- 기여
- 잡음 추정 + 비대칭 손실로 합성↔실제 격차를 줄이고(CBDNet), feature attention으로 실잡음 성능을 끌어올림(RIDNet). “AWGN만으로는 실사진을 못 지운다”는 인식의 전환.
② 깨끗한 GT 없이 — 자기지도(self-supervised)
★Noise2Noise: Learning Image Restoration without Clean Data
- 핵심
- 같은 장면의 독립적으로 더러운 두 관측만 있으면, 깨끗한 타깃 없이도 평균이 참값인 추정기를 배울 수 있다(잡음 평균이 0이면). GT 수집이 불가능한 의료·천문에 충격.
- 왜 ★
- “깨끗한 정답이 필요하다”는 통념을 깸. 자기지도 denoising 계보의 출발점.
Noise2Void · Noise2Self — 단일 영상 자기지도
- 기여
- 쌍도 필요 없이 한 장에서 학습. blind-spot(자기 자신을 보지 못하게 가림)으로 항등 붕괴를 막는다. 데이터가 극히 적은 현장에서 강력.
③ 실제·RAW 잡음 — 도메인 갭 메우기
★Unprocessing Images for Learned Raw Denoising
- 핵심
- sRGB 영상을 ISP 역방향으로 풀어 현실적인 RAW를 합성하고, RAW에서 Poisson–Gaussian 잡음을 학습. 진짜 RAW GT 없이도 실제 잡음에 강한 모델을 얻음.
- 왜 ★
- “잡음을 RAW에서, 물리에 맞게” 푸는 사고의 정착. ISP 인식 학습의 대표작.
Learning to See in the Dark (SID)
- 기여
- 극저조도 단노출 RAW → 정상 노출로 가는 학습형 ISP를 end-to-end로. See-in-the-Dark 데이터셋 공개. 디노이징을 ISP 전체와 묶어 보는 관점.
ELD: Physics-based Noise Formation Model · CycleISP
- 기여
- ELD: 센서별 잡음을 정밀 모델링(흑준위·행/열·양자화 포함)해 극저조도에서 합성→실제 격차를 크게 줄임. CycleISP: RAW↔sRGB를 순환 학습해 사실적 RAW 데이터 생성·실잡음 SOTA.
④ 복원 백본 — 한 구조로 여러 복원
아래 백본들은 디노이징 전용이 아니라 deblur·SR·deraining을 함께 푸는 범용 복원기다. §8·§9와 공유하므로 이 페이지에서는 요지만, 자세한 비교는 별도 복원 백본 노트에서 다룬다.
★Restormer: Efficient Transformer for High-Resolution Restoration
- 핵심
- 채널 축 self-attention(MDTA)으로 고해상에서 전역 맥락을 선형 비용에 가깝게. 디노이징·deblur·deraining 다수 SOTA. SIDD 실잡음에서 강력(≈40.0 dB대, 프로토콜 의존).
★NAFNet: Simple Baselines for Image Restoration
- 핵심
- 활성함수조차 없는(nonlinear activation-free) 극단적 단순화로, 복잡한 트랜스포머에 필적·능가. SIDD에서 최상위권(≈40.3 dB대, 프로토콜 의존). “단순함이 강하다”의 상징.
SwinIR · Uformer · MIRNet
- 요지
- SwinIR: Swin 트랜스포머를 복원에 이식한 범용 강자. Uformer: U자형 윈도우 트랜스포머. MIRNet: 다중 스케일 특징을 유지·교환하는 설계로 실잡음·저조도에서 강함.
확산 모델·자기지도·동영상으로
최근 흐름은 세 갈래다. (1) 생성형 prior — 확산(diffusion) 모델을 복원에 끌어와, 평활화된 결과 대신 그럴듯한 디테일을 합성한다(지각 품질↑, 단 충실도와 트레이드오프·환각 위험). (2) 실세계 자기지도/blind — 단일 노이즈 영상이나 비대칭 쌍만으로 학습하는 기법의 정교화. (3) RAW·버스트·동영상 — 다중 프레임 정렬과 시간 일관성으로 한계를 미는 방향.
이 블록의 구체적 모델·수치는 매년 빠르게 갱신된다. 최신 순위·논문은 Deep Research로 정기 업데이트하고, 표/주장은 출처와 측정 프로토콜을 함께 기록하라(아래 ⚠️ 참조).
제품 속의 디노이저
디노이징은 ISP에서 가장 먼저, 가장 널리 상업화된 복원 모듈이다. 데스크톱 RAW 현상부터 스마트폰의 야간 모드까지 거의 모든 카메라 파이프라인에 들어있다.
DxO DeepPRIME · DeepPRIME XD
- 특징
- 디모자이킹과 디노이징을 RAW에서 동시에 처리하는 학습형 파이프라인. 고감도(고 ISO)에서 강한 평판. (제조사 성능 주장은 ⚠️ 자체 검증 권장)
Adobe Lightroom / Camera Raw — AI Denoise
- 특징
- RAW 파일에 직접 적용하는 ML 디노이저를 기본 워크플로에 통합. “디모자이크 전/직후 RAW에서 처리”라는 연구 흐름의 제품화 사례.
Topaz DeNoise AI / Photo AI · 스마트폰 다중프레임
- 특징
- Topaz는 디노이즈·샤픈·업스케일을 묶은 소비자 도구. 스마트폰은 버스트 정렬+병합(컴퓨테이셔널 포토그래피)으로 저조도 잡음을 다중프레임 평균으로 억제 — §12 burst와 직결.
실제 잡음으로 평가하기
합성 AWGN 벤치마크(Set12·BSD68·Kodak)는 여전히 쓰이지만, 의미 있는 평가는 실촬영 잡음 데이터셋에서 이뤄진다. 깨끗한 GT는 보통 같은 장면의 다수 프레임 평균·저감도 장노출로 만든다.
| 데이터셋 | 도메인 | 특징 | GT 방식 |
|---|---|---|---|
| SIDD Abdelhamed 2018 | 스마트폰 실잡음 | 실잡음 디노이징의 사실상 표준 벤치 | 다중프레임 통계 추정 |
| DND Plötz–Roth 2017 | DSLR 실잡음 | 온라인 제출 평가(GT 비공개) | 저 ISO 참조 촬영 |
| RENOIR | 실잡음 | 다양한 기기·조도 | 저감도 참조 |
| PolyU | 실잡음 | 크롭 단위 실잡음 쌍 | 다중프레임 평균 |
| Set12 / BSD68 / Kodak | 합성 AWGN | 고전 비교용(σ 지정) | 원본=GT, 잡음 합성 |
같은 모델도 측정 프로토콜(sRGB vs RAW, 전체 vs 크롭, 검증 분할, 자체 학습 여부)에 따라 PSNR이 0.x dB 단위로 달라진다. NAFNet·Restormer가 SIDD에서 40 dB 안팎으로 보고되지만, 리더보드 1~2위는 자주 바뀌고 소수점 차이는 큰 의미가 없다. 표를 옮길 땐 반드시 출처·프로토콜을 같이 적어라.
이 다음은
디노이징은 다른 복원 문제와 모델·사고를 공유한다. 같은 백본(Restormer·NAFNet·SwinIR)이 흐림 제거와 초해상에도 쓰이고, 디모자이킹과는 RAW에서 함께 푸는 것이 자연스럽다.
개인 학습 자료 · ISP & Computational Photography · §7 Denoising