Part C — 모듈 심화 §9

Super-Resolution저해상에서 잃어버린 고주파를 그럴듯하게 되살리는 일 — PSNR이 높을수록 더 흐릿한 역설

초해상은 없는 것을 지어내는 기술이다. 다운샘플은 고주파를 돌이킬 수 없게 버리므로, 한 저해상 영상에 대응하는 고해상 영상은 무수히 많다(ill-posed). 따라서 SR은 “복원”이라기보다 그럴듯한 디테일의 합성이며, 여기서 충실도(원본과 같은가)와 지각 품질(자연스러운가)이 정면으로 충돌한다.

Instrument 01

다운샘플 · aliasing · 업샘플

왜 정보가 사라지나

축소 배율

안티앨리어싱 (축소 시)

업샘플 방식

원본 HR

저해상 LR (÷4) — 픽셀 확대

업샘플 복원

안티앨리어싱 OFF로 ÷8 해보라 — 울타리·격자에 **moiré(에일리어싱)**가 생긴다. 나이퀴스트 위 주파수가 접혀 들어온 것이다. 업샘플을 nearest↔bicubic으로 바꿔도 사라진 디테일은 돌아오지 않는다(nearest는 계단, bicubic은 뭉갬). 이 정보 손실이 SR을 ill-posed로 만든다 — 이 사진은 데모용 실사(출처: public/assets/CREDITS.md).

9.1 문제 · perception–distortion tradeoff

충실도를 높일수록 흐릿해지는 역설

저해상 관측은 고해상 $\boldsymbol{x}$ 를 흐리고(블러 $\boldsymbol{k}$ ) 줄이고(다운샘플 $\boldsymbol{\downarrow_s}$ ) 잡음을 더한 결과다.

\boldsymbol{y = (x * k)\!\downarrow_s + \;n}

이 연산은 정보를 버리므로 역은 여럿이다. 픽셀 MSE를 최소화하는 추정(PSNR 최적)은 가능한 모든 정답의 평균으로 수렴하고, 평균은 곧 흐릿함이다 — 그래서 PSNR 1등이 가장 뿌옇다. 반대로 GAN·확산은 그럴듯한 고주파를 합성해 선명하지만, 그 디테일은 원본과 다를 수 있다(환각). Blau & Michaeli(CVPR 2018)는 이를 perception–distortion tradeoff로 정식화했다 — 왜곡(distortion)을 낮추는 것과 지각 품질(perception)을 높이는 것은 동시에 불가능하며, 둘 사이엔 넘을 수 없는 하한 곡선이 있다.

Instrument 02

Perception–Distortion Tradeoff

선명함 ↔ 충실도

λ · distortion-opt ↔ perception-opt 0.45

입력 LR (÷4) — 확대

복원 (λ)

원본 HR (정답)

P–D 곡선 — ● 현재 λ · 회색=대표 기법(문헌 도식)

PSNR (충실도)— dB

디테일/HR (프록시)—

λ를 키우면 디테일이 살아 지각적으로 선명해지지만 PSNR은 떨어진다(곡선이 오른쪽-아래로). 곡선 위를 따라 움직일 뿐, 좌하단(둘 다 좋음)으로는 못 간다 — 그게 tradeoff다. ⚠️ 세로축 ‘perception 거리’는 LPIPS를 브라우저에서 못 돌려서 고주파/그래디언트 불일치 프록시로 근사한 것이고, 회색 마커(Bicubic→ESRGAN→Diffusion)는 문헌 경향을 나타낸 도식이다. 실제 평가는 LPIPS·NIQE·PI를 쓴다.

9.2 고전

보간에서 예제 기반으로

딥러닝 이전 SR은 ① 신호처리적 보간, ② 외부 DB의 패치를 가져오는 예제 기반, ③ 한 영상 내부의 반복을 쓰는 self-similarity로 나뉘었다.

Bicubic / Lanczos →Freeman 예제 기반 (2002) →Yang sparse coding (2010) →Glasner self-similarity (2009) →A+ (2014)

보간 baseline — Bicubic · Lanczos

신호처리 고전 · SR의 하한선

방법: 주변 픽셀의 가중 평균으로 빈 격자를 채운다. 새 정보는 없음 — 부드럽지만 디테일을 만들지 못한다. 모든 SR 논문의 최저 baseline이자 위 데모의 distortion-opt 끝.

★Image Super-Resolution via Sparse Representation

Yang, Wright, Huang, Ma · IEEE TIP 2010 · Scholar

아이디어: 저해상·고해상 패치의 결합 사전(dictionary)을 학습하고, LR 패치의 희소 표현 계수를 HR 사전에 적용해 디테일을 복원. 예제 기반 SR의 대표.
왜 ★: “학습된 prior로 디테일을 채운다”는 사고의 정착 — 딥러닝 SR의 직접 전조.

Super-Resolution from a Single Image (self-similarity)

Glasner, Bagon, Irani · ICCV 2009 · Scholar

아이디어: 자연 영상의 패치는 같은 영상의 다른 스케일에서 반복된다는 성질을 이용해 외부 DB 없이 SR. 내부 통계만으로 디테일을 만든다.

A+ · Anchored Neighborhood Regression

Timofte, De Smet, Van Gool · ACCV 2014 · Scholar

기여: 사전의 각 atom에 선형 회귀자를 미리 학습해 추론을 매우 빠르게. 딥러닝 직전 예제 기반 SR의 정점·강력한 baseline.

9.3 딥러닝

CNN, sub-pixel, 그리고 GAN의 분기

딥러닝 SR은 두 갈래로 갈라진다 — distortion 지향(PSNR을 올리는 회귀망)과 perception 지향(GAN으로 선명함을 합성). 이 분기가 곧 §9.1의 tradeoff다.

SRCNN (2014) →ESPCN sub-pixel (2016) →EDSR (2017) →RCAN (2018) →SRGAN (2017) →ESRGAN (2018)

distortion 지향 — PSNR을 올리다

★Image Super-Resolution Using Deep Convolutional Networks (SRCNN)

Dong, Loy, He, Tang · ECCV 2014 / TPAMI 2016 · arXiv:1501.00092

핵심: 단 3층 CNN으로 bicubic 업샘플을 정제 — SR을 end-to-end 학습으로 푼 최초. 단순하지만 고전 예제 기반을 능가.
왜 ★: 딥러닝 SR의 출발점. 이후 모든 SR망의 뿌리.

ESPCN (sub-pixel) · FSRCNN · VDSR

Shi et al. CVPR 2016 · Dong 2016 · Kim 2016 · arXiv:1609.05158

기여: ESPCN: LR 공간에서 처리하고 끝에서 sub-pixel convolution(pixel shuffle)로 업샘플 — 속도·품질 동시 개선, 이후 표준 업샘플러. VDSR: 깊은 잔차망. FSRCNN: 경량 실시간.

EDSR · RCAN — 깊고 넓게

Lim et al. CVPRW 2017 (NTIRE) · Zhang et al. ECCV 2018 · arXiv:1707.02921

기여: EDSR: 불필요한 BN을 제거하고 깊게 — NTIRE 우승, distortion-지향의 강력 baseline. RCAN: 채널 attention + 매우 깊은 잔차로 PSNR을 더 끌어올림.

perception 지향 — 선명함을 합성하다

★Photo-Realistic SISR Using a GAN (SRGAN)

Ledig et al. · CVPR 2017 · arXiv:1609.04802

핵심: MSE 대신 perceptual loss(VGG 특징) + 적대적 손실로 학습 — PSNR은 낮아도 사람 눈에 훨씬 선명·사실적. perception-지향 SR을 연 전환점.
왜 ★: “PSNR이 곧 화질이 아니다”를 SR에서 실증. tradeoff의 perception 끝을 개척.

★ESRGAN: Enhanced Super-Resolution GAN

Wang et al. · ECCVW 2018 · arXiv:1809.00219

핵심: BN 없는 RRDB 블록 + relativistic discriminator + 개선된 perceptual loss. SRGAN보다 더 선명·자연스러운 텍스처. PIRM perceptual SR 챌린지 우승.
왜 ★: perception-지향 SR의 사실상 표준. 이후 실세계 SR(Real-ESRGAN)로 이어짐.

9.4 최신 SOTA · 2023–2026

실세계 열화 · 트랜스포머 · 확산

최근 흐름은 셋이다. (1) 실세계 SR — 깨끗한 bicubic 열화 대신 복잡한 실제 열화를 모델링(Real-ESRGAN·BSRGAN). (2) 트랜스포머 백본 — SwinIR·HAT가 전역 맥락으로 PSNR·지각 동시 개선. (3) 확산 prior — 강력한 생성 prior로 사실적 디테일을 합성(SR3·StableSR·ResShift).

⚐ 빠르게 바뀌는 영역 — 갱신 권장

이 블록의 모델·수치는 매년 빠르게 갱신된다. SR은 특히 distortion 지표(PSNR)와 perception 지표(LPIPS·NIQE)가 따로 노는 분야라, 어느 지표·어느 데이터셋·어느 열화 모델인지 반드시 함께 적어라.

회귀망 (PSNR) →GAN (perception) →실세계 SR (Real-ESRGAN) 트랜스포머 (SwinIR/HAT) 확산 (SR3/StableSR)

★Real-ESRGAN · BSRGAN — 실세계 열화

Wang et al. ICCVW 2021 · Zhang et al. ICCV 2021 · arXiv:2107.10833

핵심: bicubic이 아닌 고차 랜덤 열화(블러·잡음·압축·다운샘플의 무작위 조합)로 학습해 실제 저화질 사진에 강건. 실사용 SR의 사실상 기준.
왜 ★: “벤치마크 SR ≠ 실사진 SR”의 갭을 정면으로 메운 실용 전환점.

HAT · SwinIR — 트랜스포머 SR

Chen et al. CVPR 2023 · Liang et al. ICCVW 2021 · arXiv:2205.04437

기여: HAT(Activating More Pixels): 채널·윈도우 attention을 결합해 더 많은 입력 픽셀을 활용, distortion SR SOTA. SwinIR: 범용 복원 트랜스포머(→ 복원 백본 노트).

확산 기반 SR — SR3 · StableSR · ResShift

Saharia et al. 2021 · Wang et al. 2023 · Yue et al. NeurIPS 2023 · arXiv:2104.07636

아이디어: SR3: 반복적 denoising 정제로 SR. StableSR: 사전학습 latent diffusion prior를 SR에 이식. ResShift: 잔차 이동으로 확산 단계를 줄여 속도↑. perception 끝에서 강력하나 추론 비용·충실도 트레이드오프.

9.5 상업화

제품 속의 초해상

SR은 디지털 줌과 영상 업스케일로 가장 널리 상업화됐다.

스마트폰 — Super-Res Zoom (다중프레임)

Wronski et al. SIGGRAPH 2019 · Pixel

특징: 손떨림으로 생기는 프레임 간 미세 이동을 역으로 활용 — 여러 LR 프레임을 정렬·병합해 한 장보다 높은 해상도를 얻는다(multi-frame SR). 단일 영상 환각 위험을 데이터로 회피(→ §12 burst).

Topaz Gigapixel AI · TV 업스케일러

데스크톱·디스플레이 ML 업스케일 (⚠️ 벤더 주장)

특징: ⚠️ ML 업스케일을 소비자 제품화. 강한 업스케일은 없던 디테일을 생성(환각)하므로 충실도가 중요한 용도엔 주의. 제조사 성능 주장은 자체 검증 권장.

9.6 벤치마크 · 데이터셋

두 종류의 지표로 평가하기

⚠️ distortion 지표와 perception 지표는 따로 본다

SR은 **PSNR/SSIM(충실도)**과 **LPIPS·NIQE·PI(지각)**가 자주 상반된다(§9.1 tradeoff). 한 모델이 PSNR 1등이면서 LPIPS 꼴찌일 수 있다. 수치를 옮길 땐 **어느 지표·배율(×2/×4)·열화 모델(bicubic vs 실세계)**인지 반드시 함께 적고, “SOTA”를 단정하지 말 것.

데이터셋	용도	특징	지표
Set5 / Set14	고전 SISR 테스트	소규모, 빠른 비교	PSNR/SSIM
BSD100 / Urban100	일반 / 도시 구조	Urban100은 반복 구조·에일리어싱	PSNR/SSIM
Manga109	만화·라인아트	날카로운 엣지·텍스트	PSNR/SSIM
DIV2K NTIRE	학습·검증 표준	2K 고해상 800+100장	PSNR + LPIPS
RealSR / DRealSR	실세계 SR	실제 광학 줌 LR/HR 쌍	실세계

지각 지표 LPIPS(학습된 특징 거리)·NIQE(무참조 자연성)·PI(perceptual index, PIRM)는 distortion 지표가 못 잡는 “자연스러움”을 측정한다. NTIRE/PIRM은 perceptual track을 따로 둘 만큼 두 축을 구분한다.

→ 이웃 모듈로

이 다음은

초해상은 디노이징·디블러링과 한 가족이다 — 같은 복원 백본을 공유하고, “사라진 고주파를 합성한다”는 점에서 디블러링과 직결되며, 다중프레임 SR은 burst 파이프라인으로 이어진다.

이어서 읽기

Note — 복원 백본 (SwinIR·HAT·NAFNet)§8 — Deblurring · 흐림 제거 §7 — Denoising · 노이즈 제거 §5 — White Balance

개인 학습 자료 · ISP & Computational Photography · §9 Super-Resolution