Deep Learning§6–§16에 반복 등장하는 구조와 학습법을 한곳에 — CNN·U-Net·attention·GAN·diffusion, 그리고 prior라는 한 단어
이 핸드북의 복원·향상 챕터(§6–§16)는 놀랄 만큼 같은 부품을 쓴다 — 잔차 CNN, U-Net, attention, GAN, diffusion. 이 장은 그 빌딩블록과 학습법을 한곳에 모은 지도다. 위젯은 응용 챕터에 있으니, 여기서는 “무엇이 어디서 왜 쓰이는지”의 계보를 잡는다.
각 부품이 처음 등장한 응용을 함께 적었다 — 잔차는 §7 DnCNN, U-Net은 §4 학습형 ISP, 채널 attention은 §7 Restormer, GAN은 §9 SRGAN, diffusion은 §9·§10·§16. 인터랙티브 데모는 그 챕터들에 있다.
잔차, U-Net, attention
세 부품이 복원망의 골격을 이룬다. 잔차 학습은 깨끗한 영상 대신 손상분(잔차)을 예측해 학습을 쉽게 하고, U-Net은 인코더–디코더 + skip으로 전역 맥락과 디테일을 함께 보존하며, attention/transformer는 멀리 떨어진 픽셀의 의존성을 효율적으로 모은다.
★ResNet — Deep Residual Learning
- 핵심
- 출력 대신 잔차 F(x)=H(x)−x를 학습해 매우 깊은 망을 가능케 함. 복원에서 “손상분만 예측”(DnCNN·EDSR)의 토대.
★U-Net — Encoder–Decoder + Skip
- 핵심
- 다운–업샘플 구조에 skip-connection으로 디테일을 직결. 디노이즈·디블러·학습형 ISP·디모자이크의 사실상 표준 백본.
★Transformer / ViT — Attention
- 핵심
- self-attention으로 전역 의존성을 학습. 복원에선 비용을 줄인 변형(채널 attention=Restormer, 윈도우=SwinIR)으로 이식(→ 복원 백본 노트).
GAN과 diffusion
회귀망은 MSE 최소화로 평균(흐릿함)에 수렴한다. 생성 모델은 대신 그럴듯한 디테일을 합성해 지각 품질을 높인다 — 충실도와의 트레이드오프(환각)를 안고서(→ §9 perception–distortion).
★GAN — Generative Adversarial Networks
- 핵심
- 생성기 vs 판별기의 적대 학습으로 사실적 표본을 생성. 복원에선 perceptual+adversarial loss로 선명함을 얻음(SRGAN·ESRGAN·DeblurGAN).
★Diffusion — DDPM
- 핵심
- 잡음을 점진적으로 제거하는 반복 denoising으로 고품질 생성. 강력한 생성 prior로 SR·HDR·디블러·편집에 확산(→ §9·§10·§16). 추론 비용·환각이 과제.
무엇으로 배우나
복원은 보통 (손상, 깨끗) 쌍의 지도학습이지만, 깨끗한 정답을 구하기 어려우면 자기지도(Noise2Noise·Noise2Void)로 배운다. 손실 함수가 결과의 성격을 정한다 — L2는 평균/평활(고 PSNR·흐림), L1은 약간 더 선명, perceptual(VGG 특징)·adversarial은 지각 품질을 높인다.
자기지도 복원 — Noise2Noise 계열
- 요지
- 깨끗한 GT 없이 더러운 관측만으로 학습(잡음 평균이 0이면). 의료·천문처럼 GT가 불가능한 현장에 강력. 자세히는 §7 디노이즈.
고전과 딥러닝을 잇는 말
복원은 모두 같은 형태다 — 데이터 충실도 + prior. “무엇이 자연스러운 영상인가”라는 prior가 고전에선 손으로(TV·희소성·자기유사성), 딥러닝에선 데이터로 들어온다. 둘은 단절이 아니라 같은 최적화의 두 구현이다.
Ulyanov et al.(CVPR 2018)은 학습 없이 무작위 초기화 CNN 구조 자체가 자연 영상의 prior로 작동함을 보였다 — “prior가 데이터가 아니라 구조에 있을 수 있다”는 통찰. 고전 prior와 학습 prior 사이의 다리.
이 다음은
이 부품들이 조립되는 현장으로 — ISP 전체를 학습하는 §4, 그 부품으로 복원을 푸는 §7–§9, 한 구조가 여러 과제를 푸는 복원 백본 노트.
개인 학습 자료 · ISP & Computational Photography · §3 Deep Learning