Part A — 모듈 심화 §3

Deep Learning§6–§16에 반복 등장하는 구조와 학습법을 한곳에 — CNN·U-Net·attention·GAN·diffusion, 그리고 prior라는 한 단어

이 핸드북의 복원·향상 챕터(§6–§16)는 놀랄 만큼 같은 부품을 쓴다 — 잔차 CNN, U-Net, attention, GAN, diffusion. 이 장은 그 빌딩블록과 학습법을 한곳에 모은 지도다. 위젯은 응용 챕터에 있으니, 여기서는 “무엇이 어디서 왜 쓰이는지”의 계보를 잡는다.

CNN / 잔차 →U-Net (enc–dec) →attention / transformer →GAN (지각) →diffusion (생성 prior)

이 장의 사용법

각 부품이 처음 등장한 응용을 함께 적었다 — 잔차는 §7 DnCNN, U-Net은 §4 학습형 ISP, 채널 attention은 §7 Restormer, GAN은 §9 SRGAN, diffusion은 §9·§10·§16. 인터랙티브 데모는 그 챕터들에 있다.

3.1 구성 요소 — 반복되는 구조

잔차, U-Net, attention

세 부품이 복원망의 골격을 이룬다. 잔차 학습은 깨끗한 영상 대신 손상분(잔차)을 예측해 학습을 쉽게 하고, U-Net은 인코더–디코더 + skip으로 전역 맥락과 디테일을 함께 보존하며, attention/transformer는 멀리 떨어진 픽셀의 의존성을 효율적으로 모은다.

★ResNet — Deep Residual Learning

He, Zhang, Ren, Sun · CVPR 2016 · arXiv:1512.03385

핵심: 출력 대신 잔차 F(x)=H(x)−x를 학습해 매우 깊은 망을 가능케 함. 복원에서 “손상분만 예측”(DnCNN·EDSR)의 토대.

★U-Net — Encoder–Decoder + Skip

Ronneberger, Fischer, Brox · MICCAI 2015 · arXiv:1505.04597

핵심: 다운–업샘플 구조에 skip-connection으로 디테일을 직결. 디노이즈·디블러·학습형 ISP·디모자이크의 사실상 표준 백본.

★Transformer / ViT — Attention

Vaswani et al. NeurIPS 2017 · Dosovitskiy et al. ICLR 2021 · arXiv:1706.03762

핵심: self-attention으로 전역 의존성을 학습. 복원에선 비용을 줄인 변형(채널 attention=Restormer, 윈도우=SwinIR)으로 이식(→ 복원 백본 노트).

3.2 생성 모델 — 그럴듯함을 합성

GAN과 diffusion

회귀망은 MSE 최소화로 평균(흐릿함)에 수렴한다. 생성 모델은 대신 그럴듯한 디테일을 합성해 지각 품질을 높인다 — 충실도와의 트레이드오프(환각)를 안고서(→ §9 perception–distortion).

★GAN — Generative Adversarial Networks

Goodfellow et al. · NeurIPS 2014 · arXiv:1406.2661

핵심: 생성기 vs 판별기의 적대 학습으로 사실적 표본을 생성. 복원에선 perceptual+adversarial loss로 선명함을 얻음(SRGAN·ESRGAN·DeblurGAN).

★Diffusion — DDPM

Ho, Jain, Abbeel · NeurIPS 2020 · arXiv:2006.11239

핵심: 잡음을 점진적으로 제거하는 반복 denoising으로 고품질 생성. 강력한 생성 prior로 SR·HDR·디블러·편집에 확산(→ §9·§10·§16). 추론 비용·환각이 과제.

3.3 학습 방식과 손실

무엇으로 배우나

복원은 보통 (손상, 깨끗) 쌍의 지도학습이지만, 깨끗한 정답을 구하기 어려우면 자기지도(Noise2Noise·Noise2Void)로 배운다. 손실 함수가 결과의 성격을 정한다 — L2는 평균/평활(고 PSNR·흐림), L1은 약간 더 선명, perceptual(VGG 특징)·adversarial은 지각 품질을 높인다.

\boldsymbol{\mathcal{L} = \underbrace{\lVert \hat{x}-x\rVert_1}_{\text{충실도}} \;+\; \lambda_p\,\mathcal{L}_{\text{perceptual}} \;+\; \lambda_a\,\mathcal{L}_{\text{adv}}}

자기지도 복원 — Noise2Noise 계열

Lehtinen et al. ICML 2018 · Krull et al. CVPR 2019 (→ §7)

요지: 깨끗한 GT 없이 더러운 관측만으로 학습(잡음 평균이 0이면). 의료·천문처럼 GT가 불가능한 현장에 강력. 자세히는 §7 디노이즈.

3.4 prior라는 한 단어

고전과 딥러닝을 잇는 말

복원은 모두 같은 형태다 — 데이터 충실도 + prior. “무엇이 자연스러운 영상인가”라는 prior가 고전에선 손으로(TV·희소성·자기유사성), 딥러닝에선 데이터로 들어온다. 둘은 단절이 아니라 같은 최적화의 두 구현이다.

\boldsymbol{\hat{x} = \arg\min_x \underbrace{\lVert y - A x\rVert^2}_{\text{데이터}} + \underbrace{\lambda\,\mathcal{R}(x)}_{\text{prior}}}

흥미로운 경계 사례 — Deep Image Prior

Ulyanov et al.(CVPR 2018)은 학습 없이 무작위 초기화 CNN 구조 자체가 자연 영상의 prior로 작동함을 보였다 — “prior가 데이터가 아니라 구조에 있을 수 있다”는 통찰. 고전 prior와 학습 prior 사이의 다리.

→ 이웃 모듈로

이 다음은

이 부품들이 조립되는 현장으로 — ISP 전체를 학습하는 §4, 그 부품으로 복원을 푸는 §7–§9, 한 구조가 여러 과제를 푸는 복원 백본 노트.

이어서 읽기

§4 — ISP · 학습형 ISP §7 — Denoising · 잔차·자기지도 Note — 복원 백본 §9 — Super-Resolution · GAN·diffusion

개인 학습 자료 · ISP & Computational Photography · §3 Deep Learning