Super-Resolution저해상에서 잃어버린 고주파를 그럴듯하게 되살리는 일 — PSNR이 높을수록 더 흐릿한 역설
초해상은 없는 것을 지어내는 기술이다. 다운샘플은 고주파를 돌이킬 수 없게 버리므로, 한 저해상 영상에 대응하는 고해상 영상은 무수히 많다(ill-posed). 따라서 SR은 “복원”이라기보다 그럴듯한 디테일의 합성이며, 여기서 충실도(원본과 같은가)와 지각 품질(자연스러운가)이 정면으로 충돌한다.
다운샘플 · aliasing · 업샘플
왜 정보가 사라지나안티앨리어싱 OFF로 ÷8 해보라 — 울타리·격자에 **moiré(에일리어싱)**가 생긴다. 나이퀴스트 위 주파수가 접혀 들어온 것이다. 업샘플을 nearest↔bicubic으로 바꿔도 사라진 디테일은 돌아오지 않는다(nearest는 계단, bicubic은 뭉갬). 이 정보 손실이 SR을 ill-posed로 만든다 — 이 사진은 데모용 실사(출처: public/assets/CREDITS.md).
충실도를 높일수록 흐릿해지는 역설
저해상 관측은 고해상 를 흐리고(블러 ) 줄이고(다운샘플 ) 잡음을 더한 결과다.
이 연산은 정보를 버리므로 역은 여럿이다. 픽셀 MSE를 최소화하는 추정(PSNR 최적)은 가능한 모든 정답의 평균으로 수렴하고, 평균은 곧 흐릿함이다 — 그래서 PSNR 1등이 가장 뿌옇다. 반대로 GAN·확산은 그럴듯한 고주파를 합성해 선명하지만, 그 디테일은 원본과 다를 수 있다(환각). Blau & Michaeli(CVPR 2018)는 이를 perception–distortion tradeoff로 정식화했다 — 왜곡(distortion)을 낮추는 것과 지각 품질(perception)을 높이는 것은 동시에 불가능하며, 둘 사이엔 넘을 수 없는 하한 곡선이 있다.
Perception–Distortion Tradeoff
선명함 ↔ 충실도λ를 키우면 디테일이 살아 지각적으로 선명해지지만 PSNR은 떨어진다(곡선이 오른쪽-아래로). 곡선 위를 따라 움직일 뿐, 좌하단(둘 다 좋음)으로는 못 간다 — 그게 tradeoff다. ⚠️ 세로축 ‘perception 거리’는 LPIPS를 브라우저에서 못 돌려서 고주파/그래디언트 불일치 프록시로 근사한 것이고, 회색 마커(Bicubic→ESRGAN→Diffusion)는 문헌 경향을 나타낸 도식이다. 실제 평가는 LPIPS·NIQE·PI를 쓴다.
보간에서 예제 기반으로
딥러닝 이전 SR은 ① 신호처리적 보간, ② 외부 DB의 패치를 가져오는 예제 기반, ③ 한 영상 내부의 반복을 쓰는 self-similarity로 나뉘었다.
보간 baseline — Bicubic · Lanczos
- 방법
- 주변 픽셀의 가중 평균으로 빈 격자를 채운다. 새 정보는 없음 — 부드럽지만 디테일을 만들지 못한다. 모든 SR 논문의 최저 baseline이자 위 데모의 distortion-opt 끝.
★Image Super-Resolution via Sparse Representation
- 아이디어
- 저해상·고해상 패치의 결합 사전(dictionary)을 학습하고, LR 패치의 희소 표현 계수를 HR 사전에 적용해 디테일을 복원. 예제 기반 SR의 대표.
- 왜 ★
- “학습된 prior로 디테일을 채운다”는 사고의 정착 — 딥러닝 SR의 직접 전조.
Super-Resolution from a Single Image (self-similarity)
- 아이디어
- 자연 영상의 패치는 같은 영상의 다른 스케일에서 반복된다는 성질을 이용해 외부 DB 없이 SR. 내부 통계만으로 디테일을 만든다.
A+ · Anchored Neighborhood Regression
- 기여
- 사전의 각 atom에 선형 회귀자를 미리 학습해 추론을 매우 빠르게. 딥러닝 직전 예제 기반 SR의 정점·강력한 baseline.
CNN, sub-pixel, 그리고 GAN의 분기
딥러닝 SR은 두 갈래로 갈라진다 — distortion 지향(PSNR을 올리는 회귀망)과 perception 지향(GAN으로 선명함을 합성). 이 분기가 곧 §9.1의 tradeoff다.
distortion 지향 — PSNR을 올리다
★Image Super-Resolution Using Deep Convolutional Networks (SRCNN)
- 핵심
- 단 3층 CNN으로 bicubic 업샘플을 정제 — SR을 end-to-end 학습으로 푼 최초. 단순하지만 고전 예제 기반을 능가.
- 왜 ★
- 딥러닝 SR의 출발점. 이후 모든 SR망의 뿌리.
ESPCN (sub-pixel) · FSRCNN · VDSR
- 기여
- ESPCN: LR 공간에서 처리하고 끝에서 sub-pixel convolution(pixel shuffle)로 업샘플 — 속도·품질 동시 개선, 이후 표준 업샘플러. VDSR: 깊은 잔차망. FSRCNN: 경량 실시간.
EDSR · RCAN — 깊고 넓게
- 기여
- EDSR: 불필요한 BN을 제거하고 깊게 — NTIRE 우승, distortion-지향의 강력 baseline. RCAN: 채널 attention + 매우 깊은 잔차로 PSNR을 더 끌어올림.
perception 지향 — 선명함을 합성하다
★Photo-Realistic SISR Using a GAN (SRGAN)
- 핵심
- MSE 대신 perceptual loss(VGG 특징) + 적대적 손실로 학습 — PSNR은 낮아도 사람 눈에 훨씬 선명·사실적. perception-지향 SR을 연 전환점.
- 왜 ★
- “PSNR이 곧 화질이 아니다”를 SR에서 실증. tradeoff의 perception 끝을 개척.
★ESRGAN: Enhanced Super-Resolution GAN
- 핵심
- BN 없는 RRDB 블록 + relativistic discriminator + 개선된 perceptual loss. SRGAN보다 더 선명·자연스러운 텍스처. PIRM perceptual SR 챌린지 우승.
- 왜 ★
- perception-지향 SR의 사실상 표준. 이후 실세계 SR(Real-ESRGAN)로 이어짐.
실세계 열화 · 트랜스포머 · 확산
최근 흐름은 셋이다. (1) 실세계 SR — 깨끗한 bicubic 열화 대신 복잡한 실제 열화를 모델링(Real-ESRGAN·BSRGAN). (2) 트랜스포머 백본 — SwinIR·HAT가 전역 맥락으로 PSNR·지각 동시 개선. (3) 확산 prior — 강력한 생성 prior로 사실적 디테일을 합성(SR3·StableSR·ResShift).
이 블록의 모델·수치는 매년 빠르게 갱신된다. SR은 특히 distortion 지표(PSNR)와 perception 지표(LPIPS·NIQE)가 따로 노는 분야라, 어느 지표·어느 데이터셋·어느 열화 모델인지 반드시 함께 적어라.
★Real-ESRGAN · BSRGAN — 실세계 열화
- 핵심
- bicubic이 아닌 고차 랜덤 열화(블러·잡음·압축·다운샘플의 무작위 조합)로 학습해 실제 저화질 사진에 강건. 실사용 SR의 사실상 기준.
- 왜 ★
- “벤치마크 SR ≠ 실사진 SR”의 갭을 정면으로 메운 실용 전환점.
HAT · SwinIR — 트랜스포머 SR
- 기여
- HAT(Activating More Pixels): 채널·윈도우 attention을 결합해 더 많은 입력 픽셀을 활용, distortion SR SOTA. SwinIR: 범용 복원 트랜스포머(→ 복원 백본 노트).
확산 기반 SR — SR3 · StableSR · ResShift
- 아이디어
- SR3: 반복적 denoising 정제로 SR. StableSR: 사전학습 latent diffusion prior를 SR에 이식. ResShift: 잔차 이동으로 확산 단계를 줄여 속도↑. perception 끝에서 강력하나 추론 비용·충실도 트레이드오프.
제품 속의 초해상
SR은 디지털 줌과 영상 업스케일로 가장 널리 상업화됐다.
스마트폰 — Super-Res Zoom (다중프레임)
- 특징
- 손떨림으로 생기는 프레임 간 미세 이동을 역으로 활용 — 여러 LR 프레임을 정렬·병합해 한 장보다 높은 해상도를 얻는다(multi-frame SR). 단일 영상 환각 위험을 데이터로 회피(→ §12 burst).
Topaz Gigapixel AI · TV 업스케일러
- 특징
- ⚠️ ML 업스케일을 소비자 제품화. 강한 업스케일은 없던 디테일을 생성(환각)하므로 충실도가 중요한 용도엔 주의. 제조사 성능 주장은 자체 검증 권장.
두 종류의 지표로 평가하기
SR은 **PSNR/SSIM(충실도)**과 **LPIPS·NIQE·PI(지각)**가 자주 상반된다(§9.1 tradeoff). 한 모델이 PSNR 1등이면서 LPIPS 꼴찌일 수 있다. 수치를 옮길 땐 **어느 지표·배율(×2/×4)·열화 모델(bicubic vs 실세계)**인지 반드시 함께 적고, “SOTA”를 단정하지 말 것.
| 데이터셋 | 용도 | 특징 | 지표 |
|---|---|---|---|
| Set5 / Set14 | 고전 SISR 테스트 | 소규모, 빠른 비교 | PSNR/SSIM |
| BSD100 / Urban100 | 일반 / 도시 구조 | Urban100은 반복 구조·에일리어싱 | PSNR/SSIM |
| Manga109 | 만화·라인아트 | 날카로운 엣지·텍스트 | PSNR/SSIM |
| DIV2K NTIRE | 학습·검증 표준 | 2K 고해상 800+100장 | PSNR + LPIPS |
| RealSR / DRealSR | 실세계 SR | 실제 광학 줌 LR/HR 쌍 | 실세계 |
지각 지표 LPIPS(학습된 특징 거리)·NIQE(무참조 자연성)·PI(perceptual index, PIRM)는 distortion 지표가 못 잡는 “자연스러움”을 측정한다. NTIRE/PIRM은 perceptual track을 따로 둘 만큼 두 축을 구분한다.
이 다음은
초해상은 디노이징·디블러링과 한 가족이다 — 같은 복원 백본을 공유하고, “사라진 고주파를 합성한다”는 점에서 디블러링과 직결되며, 다중프레임 SR은 burst 파이프라인으로 이어진다.
개인 학습 자료 · ISP & Computational Photography · §9 Super-Resolution