ISP광자 계측에서 sRGB까지, 비가역 변환들의 사슬 — 각 단계가 한 챕터다
카메라가 내놓는 보기 좋은 사진은 센서가 준 것이 아니다. 센서는 모자이크된, 선형의, 화이트밸런스도 안 된 광자 계측값(RAW)만 준다. 그것을 사람이 볼 수 있는 sRGB로 바꾸는 변환들의 사슬이 ISP(Image Signal Processor)다. 이 핸드북의 다른 단원들 — 화이트밸런스·디모자이크·색 렌더링·디노이즈 — 은 모두 이 사슬의 한 고리다.
ISP 파이프라인 플레이그라운드
RAW → sRGB, 단계별로단계를 하나씩 꺼 보라. demosaic OFF → Bayer 모자이크 그대로(격자색). WB OFF → 광원색(따뜻한 캐스트)이 남는다. gamma OFF → 선형값이라 어둡다. CCM OFF → 채도가 빠진다. 넷을 다 켜야 정답에 가까워진다. 이 데모는 실사 sRGB를 거꾸로 풀어 pseudo-RAW를 만든 것이다(실제 RAW 처리는 §6/§7에서). 순서가 중요하다 — 각 단계는 앞 단계를 가정한다.
RAW에서 sRGB로, 한 번에 한 단계씩
전형적 ISP는 대략 이 순서로 흐른다. 각 단계는 앞 단계의 출력을 입력으로 받으며, 상당수가 비가역이다 — 한 번 톤매핑·압축된 sRGB는 RAW로 되돌릴 수 없다.
핵심은 도메인이다. 잡음·색·복원은 어디서 푸느냐에 따라 난이도가 갈린다. RAW는 선형이고 잡음이 백색이라 물리 모델이 잘 맞지만(→ §7 RAW denoise), sRGB는 비선형 톤·디모자이크 상관·압축을 거쳐 통계가 망가진다. 그래서 최신 연구는 가능한 한 RAW 도메인에서, 혹은 ISP를 통째로 학습하는 쪽으로 간다.
이 단원은 지도다. white balance는 §5, demosaic은 §6, denoise는 §7, 색 렌더링(CCM·3D LUT)은 §11에서 깊게 다룬다. 여기서는 단계들이 어떻게 맞물리는지와 RAW↔sRGB 도메인의 의미만 잡는다.
블록 다이어그램의 시대
전통 ISP는 각 단계를 독립 블록으로 손설계·손튜닝했다. 빠르고 해석 가능하지만, 블록 간 상호작용(예: 디모자이크와 디노이즈)을 따로 처리해 최적이 아니고, 센서·장면마다 방대한 튜닝이 필요하다.
black level · lens shading · 선형화
- 역할
- 센서의 암전류 오프셋(black level)을 빼고, 렌즈 주변부 광량 저하(vignetting)를 보정하고, 응답을 선형화. 이후 모든 물리 모델(잡음·WB)이 선형 RAW를 가정하므로 맨 앞에 온다.
white balance · demosaic · CCM
- WB
- 광원색을 추정해 대각 게인으로 제거(→ §5). 디모자이크 전·후 어디서 하느냐가 설계 포인트.
- demosaic
- Bayer CFA의 누락 색을 보간(→ §6). zipper·false color 아티팩트가 생긴다.
- CCM
- 센서 RGB를 표준 색공간으로 보내는 3×3 행렬(컬러체커로 최소제곱 피팅). 이후 3D LUT로 비선형 색 렌더링(→ §11).
tone mapping · gamma · denoise · sharpen
- tone/gamma
- 높은 동적범위를 표시 범위로 압축(→ §10 HDR)하고 감마 인코딩으로 지각 균등하게. 여기서부터 강한 비선형·비가역.
- denoise/sharpen
- 잡음 억제(→ §7)와 엣지 강조. 순서·강도가 화질 인상을 좌우하는 튜닝의 핵심.
블록을 신경망 하나로
딥러닝은 ISP를 다시 물었다 — 블록들을 손튜닝하는 대신, RAW → sRGB 매핑 전체를 한 네트워크로 학습하면 어떨까? 단계 간 상호작용을 공동 최적화하고, 휴대폰 카메라로 DSLR 같은 색을 내려는 흐름이다.
★DeepISP: Learning an End-to-End Image Processing Pipeline
- 핵심
- 저수준(디모자이크·디노이즈)과 고수준(색·톤) 처리를 하나의 네트워크로 end-to-end 학습 — 블록 분리를 없애고 RAW→sRGB를 직접 매핑.
- 왜 ★
- “ISP 전체를 학습 가능하게”의 대표 초기작.
★Replacing Mobile Camera ISP with a Single Deep Learning Model (PyNET)
- 핵심
- 휴대폰 RAW를 입력해 DSLR 품질 sRGB를 내는 멀티스케일 PyNET. Zurich RAW-to-RGB 데이터셋(폰↔DSLR 정렬쌍) 공개.
- 왜 ★
- “학습형 ISP”를 벤치마크와 함께 정착시킨 분기점.
Learning to See in the Dark · CameraNet
- 기여
- SID: 극저조도 단노출 RAW→정상 노출을 학습형 ISP로(→ §7). CameraNet: ISP를 복원·향상 두 단계로 나눠 학습해 해석성과 성능을 절충.
RAW 도메인으로, 트랜스포머로
최근 흐름은 ① RAW 도메인 복원·인식(잡음·블러를 sRGB가 아닌 RAW에서), ② 트랜스포머 ISP, ③ 모바일 효율 ISP(NPU 실시간)다. 공통 주제는 “비가역 sRGB로 가기 전에, 정보가 살아있는 RAW에서 최대한 처리”다.
학습형 ISP·RAW 복원은 매년 갱신된다. 수치는 데이터셋(Zurich·MAI·자체 센서)과 정렬 품질에 크게 의존하므로 출처·프로토콜을 함께 적어라.
RAW 도메인 복원 · 트랜스포머 ISP
- 요지
- 잡음·블러·SR을 RAW에서 풀면 물리 모델이 잘 맞는다(→ §7 Unprocessing·CycleISP). 범용 복원 백본(Restormer·NAFNet)이 ISP/RAW에도 이식된다(→ 복원 백본 노트).
모바일 효율 ISP — MAI / on-device
- 요지
- 학습형 ISP를 NPU 실시간으로 돌리는 경량화·양자화 흐름. 품질-지연-전력의 삼각 절충이 핵심.
제품 속의 ISP
모든 스마트폰·카메라에 ISP가 있다. 하드웨어 ISP(고정 파이프라인)에 컴퓨테이셔널 사진(다중프레임)과 학습형 블록이 점점 섞인다.
Qualcomm Spectra · Apple · MediaTek ISP
- 특징
- ⚠️ SoC 내장 ISP가 디모자이크·WB·HDR·잡음을 실시간 처리하고, 점점 더 많은 AI 블록을 결합. 세부 알고리즘은 비공개이며 마케팅 주장은 자체 검증 권장.
Google HDR+ · 컴퓨테이셔널 파이프라인
- 특징
- 여러 RAW 프레임을 정렬·병합해 잡음·동적범위·해상도를 한꺼번에 개선 — 전통 ISP를 컴퓨테이셔널 사진으로 확장(→ §10 HDR·§12 burst).
RAW–sRGB 쌍으로 평가하기
학습형 ISP 벤치는 폰 RAW ↔ DSLR sRGB처럼 다른 기기 쌍을 정렬해 만든다. 정렬 오차·센서 차이가 수치를 좌우하므로, 어느 데이터셋·어느 정렬인지 명기하고 리더보드 순위를 단정하지 말 것.
| 데이터셋 | 도메인 | 특징 | 용도 |
|---|---|---|---|
| Zurich RAW-to-RGB Ignatov 2020 | 폰 RAW ↔ DSLR sRGB | 학습형 ISP의 표준 | RAW→RGB |
| MAI ISP | 모바일 RAW | on-device 효율 평가 | 모바일 |
| MIT-Adobe FiveK | RAW + 전문가 보정 | 색·톤 향상 학습 | enhancement |
| SID (See-in-the-Dark) | 저조도 RAW | 극저조도 ISP | low-light |
ISP 평가는 단일 지표로 어렵다 — PSNR/SSIM(충실도)에 색차(ΔE)·지각(LPIPS)·전문가 선호가 섞인다. “보기 좋은 사진”엔 미적 선호가 개입해 절대 정답이 없다는 점은 §5 WB와 같다.
이 다음은
이 지도의 각 고리를 깊게 보라. 색을 다루는 사슬은 화이트밸런스에서 시작해 디모자이크·색 렌더링으로 이어지고, 복원(잡음·블러·초해상)은 RAW 도메인에서 가장 잘 풀린다.
개인 학습 자료 · ISP & Computational Photography · §4 ISP