Part D — 모듈 심화 §15

IQAPSNR이 곧 화질이 아니다 — 충실도·구조·지각·선호를 재는 지표들과 그 불일치

이 핸드북의 모든 복원 챕터가 수치로 자신을 증명한다 — PSNR·SSIM·LPIPS. 하지만 “좋은 그림”은 지각의 문제라 한 숫자로 안 잡힌다. 같은 열화도 지표마다 다르게 점수 매기고, 지표 1등이 사람 눈엔 꼴찌일 수 있다. IQA는 “무엇을 재고 있는가”를 묻는 장이다.

Instrument 01

화질 지표 비교 — PSNR vs SSIM

지표는 서로 다르게 본다

열화

강도 5

원본

열화

PSNR (픽셀 충실도)— dB

SSIM (구조)—

엣지 유사도—

열화를 **이동(shift)**으로 바꿔 보라 — 1~2픽셀만 밀어도 PSNR은 폭락하지만 SSIM·엣지 유사도는 거의 그대로다(사람 눈엔 똑같이 좋은 그림인데!). 흐림은 반대로 PSNR이 비교적 높은데 구조·엣지는 무너진다. 같은 영상을 두고 지표가 서로 다른 순위를 매긴다 — 그래서 어느 지표인지 명시하는 게 중요하다(→ §9 perception–distortion).

15.1 왜 어려운가

화질은 지각이고, 종종 주관이다

화질 평가는 두 축으로 갈린다 — 참조 유무(정답 영상이 있나)와 무엇을 재나(픽셀 충실도 vs 지각 품질). 정답이 있으면 전참조(FR), 없으면(실사진·생성물) **무참조(NR)**다. 그리고 §9에서 본 perception–distortion tradeoff — 충실도를 높이는 것과 자연스러움을 높이는 것은 동시에 안 된다 — 때문에, 한 지표로 둘을 다 재려는 시도는 실패한다.

전참조 (FR): PSNR·SSIM·LPIPS →무참조 (NR): NIQE·MUSIQ →주관 (MOS) →distortion ↔ perception (§9)

15.2 전참조 지표 — Bible

픽셀에서 구조, 그리고 지각으로

★SSIM — Image Quality Assessment: From Error Visibility to Structural Similarity

Wang, Bovik, Sheikh, Simoncelli · IEEE TIP 2004 · Scholar

핵심: 픽셀 오차(MSE/PSNR) 대신 휘도·대비·구조의 국소 유사도를 잰다. 사람 지각과 더 잘 맞아 복원 평가의 표준 동반자. MS-SSIM으로 다중스케일 확장.
왜 ★: “구조가 픽셀보다 중요하다”를 정립한 IQA의 분기점. 위 lab의 SSIM이 이것.

★LPIPS — Deep Features as a Perceptual Metric

Zhang, Isola, Efros, Shechtman, Wang · CVPR 2018 · arXiv:1801.03924

핵심: 사전학습 망의 심층 특징 거리가 사람 지각과 놀랍도록 잘 맞음을 보임. GAN·diffusion 복원의 지각 평가 표준(→ §9). 단 학습 데이터·백본 의존.
왜 ★: 지각 IQA를 학습 특징으로 끌어올린 대표작. (브라우저에선 못 돌려 §9 lab은 프록시로 근사.)

PSNR · VIF · FSIM

픽셀·정보·특징 기반 FR 지표

스펙트럼: PSNR: MSE 기반, 과평활 선호(흐림에 관대). VIF: 정보이론적 충실도. FSIM: 위상 일치·그래디언트 특징. 각자 다른 측면을 재므로 함께 봐야 한다.

15.3 무참조 지표

정답 없이 품질을 재기

실사진·생성물·실세계 복원은 정답이 없다 — 무참조(NR/blind) IQA가 필요하다. 자연 영상 통계(NSS)에서 벗어난 정도로 품질을 추정한다.

★NIQE · BRISQUE — 자연영상 통계 기반 NR-IQA

Mittal et al. 2012/2013 · Scholar

핵심: NIQE: 라벨 없이 자연영상 통계 모델과의 거리로 품질 추정(“완전 블라인드”). BRISQUE: 공간영역 NSS 특징 + 회귀. 실세계 SR·생성 평가의 NR 표준(→ §9 PI).

MUSIQ · 학습형 NR-IQA

Ke et al. ICCV 2021 · 트랜스포머 NR-IQA

요지: 다중스케일 트랜스포머로 NR 화질을 직접 예측. 학습형 NR-IQA가 NSS 기반을 넘어서는 흐름 — 단 학습 데이터(주관 점수) 의존.

15.4 학습형·주관 평가

지표와 사람 사이의 간극

결국 기준은 사람이다. 주관 평가(MOS, pairwise 비교)가 진짜 정답이지만 느리고 비싸다. 학습형 지표(LPIPS·DISTS·MUSIQ)는 이를 근사하려 하나, 학습 분포 밖(새 생성 모델·새 열화)에서 어긋난다. 그래서 새 복원·생성 결과는 여러 지표 + 주관을 함께 보고하는 게 정석이다.

⚠️ 지표 인용의 원칙

“PSNR/SSIM/LPIPS 중 무엇으로, 어느 데이터셋·프로토콜에서” 잰 값인지 항상 명시하라. 한 지표의 SOTA를 화질 SOTA로 단정하지 말 것 — distortion 지표와 perception 지표는 §9의 tradeoff 때문에 자주 상반된다. 생성형(§16)일수록 무참조·주관 평가가 중요하다.

→ 이웃 모듈로

이 다음은

지표를 알았으니 그것이 결정을 가르는 곳으로 — 충실도와 지각이 충돌하는 초해상(§9), 평가가 곧 목표인 복원 전반(§7·§8), 그리고 평가가 가장 모호한 생성·편집(§16).

이어서 읽기

§9 — Super-Resolution · perception–distortion §16 — Editing & Generative · 평가의 모호함 §7 — Denoising · PSNR vs 지각 Note — 복원 백본

개인 학습 자료 · ISP & Computational Photography · §15 IQA