Post

Latent Bridge Matching: 단 한 번의 추론으로 완성하는 고품질 이미지-이미지 변환 기술

Latent Bridge Matching: 단 한 번의 추론으로 완성하는 고품질 이미지-이미지 변환 기술

Latent Bridge Matching: 단 한 번의 추론으로 완성하는 고품질 이미지-이미지 변환 기술 🚀

LBM 개요

1. Latent Bridge Matching의 등장 배경과 의미 🌟

인공지능의 이미지 생성 및 변환 분야는 지난 몇 년간 확산 모델(Diffusion Models)을 중심으로 급격한 발전을 이루었습니다. 그러나 이러한 확산 모델은 고품질 이미지를 생성하기 위해 수십에서 수백 번의 반복적인 계산 과정이 필요하다는 큰 한계가 있었습니다. 실시간 응용이나 자원이 제한된 환경에서는 이런 계산 비용이 큰 걸림돌이 되었죠.

Latent Bridge Matching(LBM) 은 Jasper Research의 연구팀(Clement Chadebec, Onur Tasar, Sanjeev Sreetharan, Benjamin Aubin)이 2025년 3월에 발표한 혁신적인 접근법으로, 이러한 한계를 극복하고자 합니다. LBM은 ‘브릿지 매칭(Bridge Matching)’이라는 확률적 프레임워크를 잠재 공간(latent space)에 적용함으로써, 단 한 번의 신경망 함수 평가(1 NFE) 만으로도 고품질 이미지 변환을 가능하게 하는 획기적인 기술입니다.

LBM이 해결하는 핵심 문제들

  • 계산 효율성: 기존 확산 모델의 반복적 계산 과정을 극적으로 줄임
  • 속도-품질 trade-off: 빠른 속도와 높은 품질을 동시에 달성
  • 다양한 활용성: 다양한 이미지 변환 작업에 일관된 프레임워크 제공
  • 확장성: 고해상도 이미지에도 효과적으로 적용 가능

2. LBM의 수학적 원리와 동작 메커니즘 ⚙️

LBM은 확률론적 미분 방정식(SDE)과 잠재 공간 표현을 결합한 정교한 수학적 프레임워크를 기반으로 합니다. 그 작동 원리를 단계별로 살펴보겠습니다.

LBM 구조도

LBM 구조도

LBM 구조도

2.1. 브릿지 매칭의 기본 원리

브릿지 매칭은 두 확률 분포(π₀와 π₁) 사이의 변환 맵을 찾는 방법입니다. 쉽게 말해 “이미지 A를 어떻게 변형하면 이미지 B가 될까?”라는 질문에 대한 수학적 해답이라고 볼 수 있습니다.

이미지 변환에서:

  • π₀: 소스 이미지들의 분포 (예: 객체가 있는 이미지들)
  • π₁: 타겟 이미지들의 분포 (예: 객체가 제거된 이미지들)

가장 핵심적인 아이디어는 두 이미지 사이에 확률적 경로를 만드는 것입니다. 이 경로는 다음 수식으로 표현됩니다:

\[x_t = (1-t)x_0 + tx_1 + \sigma\sqrt{t(1-t)}\epsilon\]

여기서:

  • $x_0$는 소스 이미지, $x_1$은 타겟 이미지
  • $t$는 0에서 1 사이의 시간 매개변수 (경로 상의 위치)
  • $\epsilon$은 표준 정규 분포에서 샘플링한 노이즈
  • $\sigma$는 노이즈의 강도를 조절하는 매개변수

이 수식의 의미를 풀어보면:

  1. 첫 부분 (1-t)x_0 + tx_1은 단순한 선형 보간입니다 (A와 B 사이를 일직선으로 이동)
  2. 두 번째 부분 σ√(t(1-t))ε은 약간의 무작위성을 추가합니다

이 무작위성이 왜 중요할까요? 단순 선형 보간은 자연스럽지 않은 중간 결과를 만들 수 있지만, 약간의 노이즈는 더 자연스러운 변환 경로를 제공합니다. 이것이 LBM이 Flow Matching(σ=0인 경우)보다 더 좋은 결과를 만드는 이유입니다.

2.2. 잠재 공간으로의 확장: Latent Bridge Matching

여기서 LBM의 진짜 혁신이 등장합니다. 픽셀 공간(고해상도 이미지)에서 직접 작업하는 대신, 이미지를 먼저 잠재 공간으로 압축합니다.

이 과정은 다음과 같습니다:

  1. 인코딩: VAE(Variational Autoencoder)의 인코더를 사용하여 이미지를 압축된 잠재 벡터로 변환 \(z_0 = E(x_0), \quad z_1 = E(x_1)\)
    • 1080×1920 픽셀(약 6백만 차원) 이미지가 수천 차원의 벡터로 압축됨
  2. 잠재 공간에서의 브릿지 매칭: 잠재 공간에서 두 벡터 사이의 경로 계산 \(z_t = (1-t)z_0 + tz_1 + \sigma\sqrt{t(1-t)}\epsilon\)

  3. 드리프트 함수 학습: 신경망 $v_\theta(z_t, t)$를 학습하여 ‘최적 경로’를 예측 \(\mathcal{L}_{LBM} = \mathbb{E}\left[\left\|\frac{E(x_1) - E(x_t)}{1 - t} - v_\theta(z_t, t)\right\|^2\right]\)

    이 드리프트 함수는 “지금 위치에서 목표 지점으로 가기 위해 어느 방향으로 얼마나 빠르게 이동해야 하는지”를 알려줍니다.

  4. 디코딩: 변형된 잠재 벡터를 다시 이미지 공간으로 변환 \(\hat{x}_1 = D(\hat{z}_1)\)

잠재 공간에서 작업하는 것의 두 가지 큰 이점:

  1. 계산 효율성: 6백만 차원 대신 수천 차원에서 계산하므로 속도가 훨씬 빠름
  2. 의미적 표현: 잠재 공간은 이미지의 고수준 특성을 더 잘 포착하므로, 더 자연스러운 변환이 가능

2.3. 조건부 생성을 위한 확장

LBM의 또 다른 강력한 측면은 조건부 생성입니다. 추가 조건 변수 $c$를 도입하여 변환 과정을 더 세밀하게 제어할 수 있습니다.

조건부 LBM의 드리프트 함수는 다음과 같이 확장됩니다: \(v_\theta(z_t, t, c)\)

여기서 $c$는 다음과 같이 다양한 형태일 수 있습니다:

  • 광원 위치 맵: 2D 이미지에서 광원의 위치를 나타내는 그레이스케일 이미지
  • RGB 광원 맵: 색상 정보까지 포함하는 확장된 조건
  • 텍스트 프롬프트: 자연어로 변환을 지시 (향후 연구 방향)

실제로 구현할 때는 조건 정보를 잠재 벡터와 채널 방향으로 연결(concatenation)하여 드리프트 네트워크에 제공합니다:

1
z_conditioned = concatenate([z_t, process(c)])

이렇게 하면 사용자가:

  • “이 위치에 광원을 두고 그림자 생성”
  • “이 배경 조명에 맞게 전경 객체 재조명”
  • “이 객체만 밝게, 나머지는 어둡게”

같은 세밀한 제어가 가능해집니다.

2.4. 추론 과정: 한 번의 점프로 목적지 도달하기

학습이 완료되면, 추론은 놀라울 정도로 단순합니다:

  1. 소스 이미지를 인코더로 잠재 벡터 $z_0$로 변환
  2. 학습된 드리프트 함수 $v_\theta$를 사용하여 목표 잠재 벡터 예측 \(\hat{z}_1 = z_0 + v_\theta(z_0, 0)\)
  3. 예측된 잠재 벡터를 디코더로 다시 이미지로 변환 \(\hat{x}_1 = D(\hat{z}_1)\)

이 전체 과정이 단 한 번의 신경망 함수 평가(1 NFE)로 이루어집니다!

필요하다면 여러 단계(2-4 NFE)로 나누어 더 정확한 결과를 얻을 수도 있지만, 대부분의 경우 1 NFE만으로도 충분한 품질을 얻을 수 있습니다.

이것이 LBM의 마법 같은 속도의 비결이며, 실시간 애플리케이션을 위한 게임 체인저가 되는 이유입니다.


3. LBM의 응용 분야와 성능 분석 🔍

3.1. 객체 제거 (Object Removal)

객체 제거는 이미지에서 마스크로 지정된 영역의 객체를 자연스럽게 제거하는 작업입니다.

객체 제거 결과

LBM은 단 한 번의 추론 단계로 50번의 추론이 필요한 기존 모델들보다 우수한 성능을 보여줍니다. 특히 객체뿐만 아니라 그림자까지 효과적으로 제거하는 능력이 두드러집니다.

정량적 평가에서 LBM은 FID, Local FID, fMSE, PSNR, SSIM 등 모든 메트릭에서 기존 방법들을 능가했습니다. 이는 단일 추론 단계로도 시각적으로 자연스럽고 일관된 결과를 생성할 수 있는 LBM의 능력을 입증합니다.

3.2. 깊이 및 표면 노멀 추정

단일 RGB 이미지에서 깊이 맵이나 표면 노멀 맵을 생성하는 작업은 3D 복원, AR/VR, 로보틱스 등 다양한 분야에 활용됩니다.

노멀 맵 추정 결과

LBM은 표면 노멀 추정 작업에서도 최고의 평균 순위를 기록했으며, 특히 Sintel과 NYUv2 데이터셋에서 뛰어난 성능을 보였습니다. 깊이 추정 작업에서도 유사한 성능 우위를 보였습니다.

이는 LBM이 단순한 이미지 편집뿐만 아니라 3D 구조 이해가 필요한 복잡한 작업에서도 효과적임을 보여줍니다.

3.3. 이미지 재조명 (Image Relighting)

이미지 재조명은 전경 객체의 조명을 배경 이미지의 조명 조건에 맞게 자연스럽게 조정하는 작업입니다.

이미지 재조명 결과

이미지 재조명 결과

LBM은 모든 메트릭에서 기존 이미지 조화 모델보다 우수한 성능을 보였습니다. 특히 전경 객체의 디테일을 유지하면서도 자연스러운 조명 효과를 생성하는 능력이 뛰어납니다.

합성 데이터와 실제 데이터의 균형잡힌 조합이 성능에 중요한 영향을 미치는 것으로 확인되었습니다. 약 70%의 합성 데이터 비율에서 최적의 성능이 달성되었으며, 이는 다양한 조명 조건 학습과 현실감 사이의 균형을 반영합니다.

3.4. 제어 가능한 조명 및 그림자 생성

LBM의 조건부 프레임워크를 활용하면 광원 위치, 색상, 강도 등을 제어할 수 있습니다.

제어 가능한 조명

2D 광원 맵을 활용하여 그림자 생성과 조명 제어를 구현했습니다. 그림자 생성에는 가우시안 혼합 모델로 광원 정보를 회색조 이미지로 표현하고, 조명 제어에는 RGB 광원 맵으로 확장하여 색상 정보까지 포함했습니다.

이를 통해 다양한 조명 환경을 시뮬레이션하고, 사용자가 원하는 조명 조건에 맞는 이미지를 생성할 수 있습니다.


4. 기술적 고찰 및 성능 최적화 연구 🧪

4.1. 노이즈 매개변수와 추론 단계 수의 영향

LBM 연구팀은 노이즈 매개변수(σ)와 신경망 함수 평가(NFE) 횟수에 따른 성능 변화를 체계적으로 분석했습니다.

노이즈 매개변수 σ = 0일 경우 Flow Matching과 동일해지며, 출력이 결정적이 됩니다. 반면 σ가 0.005~0.05 범위일 때 최적의 성능을 보이며, 약간의 확률적 다양성을 제공합니다. σ가 0.2 이상으로 너무 클 경우 과도한 노이즈로 인한 성능 저하가 발생합니다.

추론 단계 수(NFE)에 따른 성능 향상 패턴도 분석되었습니다. 이산 타임스텝 분포를 사용할 경우 NFE가 타임스텝 수와 일치할 때 최적 성능을 보이고, 그 이상에서는 오히려 성능이 저하됩니다. 반면 균등 타임스텝 분포에서는 NFE가 증가할수록 성능이 지속적으로 향상되지만, 처리 시간도 비례하여 증가합니다.

4.2. 픽셀 손실 함수의 영향

LBM은 잠재 공간 손실 외에도 픽셀 공간에서의 손실 함수를 추가하여 성능을 향상시킵니다. 픽셀 손실 가중치 λ = 10일 때 최적의 균형을 달성했으며, 이는 도메인 전환 속도 향상, 출력 이미지의 선명도 개선, 타겟 도메인의 스타일적 특성을 더 잘 반영하는 이점을 제공합니다.

이러한 연구 결과는 LBM의 성능을 최적화하는 데 중요한 지침을 제공하며, 다양한 응용 시나리오에 맞게 모델을 조정할 수 있는 기반을 마련합니다.


5. 현재 한계점 및 발전 방향 🔮

LBM은 혁신적인 결과를 보여주지만, 몇 가지 한계점과 향후 연구 방향이 남아있습니다:

5.1. 현재 한계점

  • 필요한 데이터 쌍: LBM 학습을 위해서는 소스-타겟 이미지 쌍이 필요하며, 이는 일부 응용 분야에서 구하기 어려울 수 있음
  • 복잡한 조명 효과: 매우 복잡한 반사, 굴절, 인과관계가 있는 그림자는 완벽하게 처리하지 못하는 경우 발생
  • 미세한 텍스처 보존: 극도로 세밀한 텍스처 정보는 잠재 공간 압축 과정에서 일부 손실될 수 있음
  • 합성 데이터 의존성: 일부 작업은 현실적인 합성 데이터가 충분히 제공되어야 최상의 성능 발휘

5.2. 향후 연구 방향

  • 멀티 스케일 잠재 표현: 다양한 해상도의 잠재 표현을 결합하여 디테일 보존 강화
  • 텍스트 조건부 LBM: 자연어 명령을 통해 이미지 변환을 제어하는 프레임워크 개발
  • 비지도 학습 LBM: 쌍을 이루지 않는 데이터에서도 학습 가능한 방법론 연구
  • 3D-aware LBM: 3D 구조를 인식하고 이를 활용한 더 정확한 이미지 변환 개발
  • 메모리 최적화: 더 높은 해상도에서 작동할 수 있도록 메모리 효율성 개선

6. LBM의 실제 응용 사례 및 산업적 영향 🏭

6.1. 콘텐츠 제작 산업

  • 영화/VFX: 실시간 객체 제거, 장면 조명 조정, 불필요한 요소 삭제
  • 게임 개발: 실시간 환경 조명 변화, 동적 그림자 시스템
  • AR/VR: 가상 객체와 실제 환경 간 조명 일관성 유지

6.2. 이커머스 및 제품 시각화

  • 가상 제품 배치: 제품을 다양한 환경에 자연스럽게 배치하는 시뮬레이션
  • 개인화된 제품 미리보기: 사용자 환경에 맞춘 제품 시각화
  • 인테리어 디자인: 다양한 조명 조건에서의 인테리어 시뮬레이션

6.3. 모바일 애플리케이션

  • 실시간 카메라 필터: 복잡한 조명 효과를 갖춘 고급 카메라 필터
  • 저사양 기기에서의 이미지 편집: 단일 추론으로 고품질 이미지 처리 가능
  • 배터리 효율적 AI: 반복 계산을 줄여 배터리 소모 최소화

6.4. 의료 및 과학 분야

  • 의료 영상 향상: 조명 조건이 일관되지 않은 의료 영상 표준화
  • 현미경 이미지 처리: 다양한 조명 조건에서 촬영된 현미경 이미지 통합
  • 3D 구조 추정: 단일 이미지에서 조직이나 세포의 3D 구조 추정

직접 사용해보기 📂

🔗 논문: https://arxiv.org/abs/2503.07535
🔗 GitHub: https://github.com/gojasper/LBM
🔗 Page: https://gojasper.github.io/latent-bridge-matching/
🔗 Demo: https://huggingface.co/spaces/jasperai/LBM_relighting

LBM은 오픈소스로 제공되며, 누구나 다운로드하여 사용할 수 있습니다!


7. 결론: AI 이미지 변환의 새로운 패러다임 🌠

Latent Bridge Matching은 이미지-이미지 변환 분야에 새로운 패러다임을 제시합니다. 단일 추론 단계만으로 고품질 결과를 생성할 수 있는 능력은 실시간 애플리케이션에 획기적인 가능성을 열어줍니다.

LBM이 보여주는 성능과 효율성은 학문적 의미를 넘어 다양한 산업 분야에 직접적인 영향을 미칠 것으로 예상됩니다. 특히 실시간 응답이 중요한 AR/VR, 모바일 애플리케이션, 실시간 콘텐츠 제작 등의 분야에서 혁신적인 변화를 이끌 것입니다.

더불어 LBM이 제시하는 잠재 공간에서의 확률적 모델링 접근법은 향후 다양한 생성 모델 연구에 영감을 줄 것입니다. 이는 단순히 계산 효율성만을 개선하는 것이 아니라, 생성 AI의 근본적인 작동 방식에 대한 새로운 관점을 제공합니다.

LBM이 앞으로 더 발전하고 다양한 분야에 적용되면서, 우리는 더 자연스럽고, 더 빠르며, 더 접근성 높은 이미지 변환 기술의 시대를 맞이하게 될 것입니다.

This post is licensed under CC BY 4.0 by the author.