연구 노트/Vision AI

[연구 노트] DRIM: Depth Restoration with Interference Mitigation in Multiple LiDAR Depth Cameras

선동 2025. 11. 24. 22:46
 

DRIM: Depth Restoration With Interference Mitigation in Multiple LiDAR Depth Cameras

IEEE Robotics and Automation Letters (RA-L)


https://ieeexplore.ieee.org/abstract/document/11197899

 

DRIM: Depth Restoration With Interference Mitigation in Multiple LiDAR Depth Cameras

LiDAR depth cameras are widely used for accurate depth measurement in various applications. However, when multiple cameras operate simultaneously, mutual interference causes artifacts in the captured depth data, which existing image restoration methods str

ieeexplore.ieee.org


이번 글에서는 제가 참여했던 DRIM 연구를 자유롭게 소개해보려 합니다.

논문 리뷰 형식보다는 제가 개발했던 노이즈 복원 모델의 구조 (MaGIC, HARP)와 설계 의도에 대해 좀 더 자세히 풀어보겠습니다.

개발하면서 겪은 문제나 생각 위주로 적어보려고 해서, 말머리도 [논문 리뷰]가 아닌 [연구 노트]라고 지어보았습니다.

 

DRIM은 서로 다른 RGB-D 카메라가 동시에 작동할 때 발생하는 간섭 (interference) 문제를 해결하기 위한 연구로,

실제 로보틱스/제조 현장에서 발생하는 깊이 센서 오류를 실시간으로 복원하는 것을 목표로 합니다.

1. Introduction

로보틱스·제조·물류 등 실제 산업 환경에서는 정확한 깊이 정보가 매우 중요합니다.
특히 넓은 FoV를 확보하거나 사각지대를 줄이기 위해 여러 대의 RGB-D (LiDAR 기반) 카메라를 동시에 사용하는 경우가 많습니다.

하지만 이때 서로 다른 카메라가 동시에 신호를 쏘며 생기는 간섭 문제가 발생합니다.

 

예를 들어, Realsense L515처럼 스캐닝 기반 LiDAR Depth Camera는 일정한 레이저 경로를 따라 깊이를 측정하는데,
옆 카메라에서 들어온 신호가 섞이면 깊이가 갑자기 튀거나 사라지는 형태의 간섭 아티팩트가 생깁니다.

 

다중 LiDAR depth camera에서 발생하는 아티팩트들

 

구분 설명
Sensor Artifact 단일 카메라에서도 발생하는, 스캔 방식 고유의 invalid depth. 보존해야 함
Interference Artifact 다른 카메라 신호가 섞여 생기는 왜곡된 깊이. 복원해야 함

 

기존 이미지 복원 모델들은 Sensor Artifact와 Interference Artifact를 구분하지 못합니다.
대부분의 모델은 둘 다 '지워야 하는 노이즈'로 잘못 판단해버립니다.

 

그 결과, 정상적으로 존재해야 하는 Sensor Artifact까지 복원하려고 시도하면서 깊이 구조가 무너지고,
정작 복원해야 하는 Interference Artifact는 충분히 제거하지 못하는 문제가 발생합니다.

 

즉, 기존 방식으로는
"어디는 건드리면 안 되고, 어디는 반드시 복원해야 하는지"
이 판단을 모델이 스스로 구분할 수 없다는 점이 핵심적인 한계였습니다.

 

따라서 이 문제를 제대로 해결하기 위해서는
단순한 이미지 복원이 아니라 두 종류의 아티팩트를 명확하게 분리하고,
그에 따라 복원 전략을 다르게 적용하는 새로운 접근
이 필요합니다.

 

2. 최초 다중 LiDAR 간섭 데이터셋 구축

기존에는 다중 LiDAR 간섭 데이터를 학습할 수 있는 공개 데이터셋이 없었습니다.
DRIM에서는 이를 해결하기 위해 데이터셋을 제작했습니다.


https://sites.google.com/view/drim-dataset

 

DRIM Dataset

Dataset Structure

sites.google.com

 

DRIM 데이터셋

데이터셋 구성 방식

  • 640 x 480 크기
  • 4개 카테고리 (Grocery (13 objects), Kitchen (15 objects), Office (18 objects), Toy (17 objects))
  • 5개 pose (45°, 90°, 135°, 180°, 90° cross)
  • GT 구성: Sensor Artifact Mask, Interference Artifact Mask, GT Depth Data

이 데이터셋은 DRIM의 성능 검증뿐 아니라 후속 연구를 위한 기반이 될 수 있습니다.

 

3. DRIM의 핵심 아이디어

DRIM은 이 문제를 다음과 같은 방식으로 해결합니다.

 

① 아티팩트를 분리한다

  • 센서 아티팩트: 원래 존재해야 함
  • 간섭 아티팩트: 제거해야 함

이 둘을 명확히 분리하는 3-class mask (background / sensor / interference)를 예측하도록 설계했습니다.
이를 통해 복원해야 할 영역 / 유지해야 할 영역을 모델이 명확히 인지합니다.

 

② 분리된 마스크를 통해 깊이 복원을 'guide'한다: MaGIC (Mask-Guided Interference Correction)

예측된 마스크는 단순한 분류 결과가 아니라
Depth Decoder에 직접 주입되어 복원을 가이드합니다.

즉, "이 영역은 간섭이니 복원하고, 이 영역은 센서 아티팩트니까 복원하지 않는다."를 모델이 스스로 판단하도록 만드는 구조입니다.

 

③ 고해상도 디테일 보존을 위한 보조 경로: HARP (High-resolution Attention Refinement Path)

Depth encoder는 다운샘플링 과정에서 fine detail을 잃을 수 있기 때문에
원본 해상도를 유지한 얕은 경로(HARP)를 두어 미세 구조를 보완합니다.

이 경로에는 CBAM이 적용되어 필요한 부분만 강화하여 복원 품질을 높입니다.

 

아래는 DRIM 전체 구조입니다.

DRIM 모델 구조

 

3.1. HARP (High-resolution Attention Refinement Path)

DRIM을 설계하면서 제가 가장 먼저 설정했던 목표는 "실제 현장에서 바로 쓸 수 있어야 한다."였습니다.

여러 대의 depth 카메라가 동시에 작동하는 로보틱스/제조 환경에서는,
간섭을 복원하는 모델 자체도 실시간으로 작동해야 한다고 생각했습니다.

 

따라서 DRIM이 충족해야 하는 조건은 두 가지였습니다.

① 실시간 처리

② 고해상도 정보 유지
두 가지를 모두 만족하는 모델이어야 했습니다.

 

하지만 문제는, 이 두 조건이 상충 관계라는 점이었습니다.

고해상도 정보를 유지하려면 연산량이 크게 증가하게 됩니다.

 

HARP(High-resolution Attention Refinement Path)는
바로 이 상충되는 두 목표를 동시에 해결하기 위한 모듈입니다.

 

HARP의 설계 핵심 아이디어는 다음과 같습니다.


① 고해상도 정보를 encoder에서 원본 해상도로 유지

일반적인 encoder는 H/4 → H/8 → H/16 → H/32

이렇게 해상도를 점점 줄여가며 특징을 추출합니다.

 

하지만 DRIM이 다루는 간섭 아티팩트는:

  • 매우 얇은 선 형태
  • 좁은 영역에서 국소적으로 발생
  • 1~2픽셀 단위로 의미가 바뀌는 fine artifact

이런 특성을 갖기 때문에,
encoder의 downsample 과정에서 형태 자체가 사라져 버리는 문제가 있었습니다.

 

그래서 HARP는 downsample을 하지 않고 입력 해상도를 그대로 유지한 채,

shallow residual block + CBAM(Convolutional Block Attention Modules)만 통과시켰습니다.

즉, 고해상도 정보를 잃지 않도록 했습니다.


② "shallow" 하게 설계 → 실시간 속도를 유지

이때, 고해상도 경로를 깊게 만들면 실시간 속도를 달성할 수 없습니다.

그래서 의도적으로 layer 수를 최소화하되 유의미한 정보를 포착할 수 있도록 얕게 설계하였습니다.

 

이런 얕은 구조 덕분에
고해상도 정보를 유지하는 HARP를 추가했는데도 실시간 성능을 유지할 수 있었습니다.


③ CBAM: 필요한 부분만 강조

고해상도 feature에는 정보가 많습니다.
그중 실제로 중요한 것은 간섭의 미세한 구조입니다.

 

이 요소를 구분해서 강조하려면 attention이 필요하지만,
full self-attention을 사용하면 연산량이 너무 커져서 실시간으로 동작하지 않았습니다.

 

그래서 선택한 것이 CBAM(Channel + Spatial Attention)이었습니다.

 

CBAM은:

  • 가볍고
  • high-res에서 의미 있는 edge/line을 잘 잡아내며
  • sensor/interference segmentation에도 도움을 줌

따라서 HARP의 목적에 가장 적합한 attention 방식이었습니다.


④ Mask Decoder & Depth Decoder 두 곳에 모두 연결

DRIM의 핵심은 "segmentation → restoration" 구조이기 때문에
두 decoder 모두 high-resolution 정보를 필요로 합니다.


그래서 HARP feature는 다음 두 경로에 모두 전달됩니다.

  • Mask Decoder
    → sensor/interference 경계를 훨씬 정확하게 예측
  • Depth Decoder
    → 간섭 라인의 미세한 형태를 잃지 않고 복원

두 decoder에 모두 high-resolution feature를 넣음으로써
복원의 품질을 높였습니다.

 

3.2. MaGIC (Mask-Guided Interference Correction)

HARP가 "고해상도 + 실시간"이라는 상충 조건을 해결하기 위한 모듈이었다면,
MaGIC은 DRIM이 '무엇을 복원해야 하는지' 모델이 판단하도록 만든 핵심 설계입니다.

 

DRIM의 문제는 단순한 노이즈 제거가 아니라,
두 종류의 서로 다른 아티팩트를 구분한 뒤, 각각을 '다르게 처리해야 하는 문제'입니다.

 

이 관점 때문에 MaGIC 구조가 필수적이었고,
단순한 mask prediction이 아니라 mask를 depth 복원 전체를 이끄는 가이드로 활용하는 구조가 탄생했습니다.

 

MaGIC의 설계 의도는 다음과 같습니다.


① DRIM은 3-class segmentation

다중 카메라 간섭 환경에서는 다음 아티팩트가 반드시 구분되어야 합니다.

 

구분 의미 처리
Sensor Artifact 단일 카메라에서도 자연스럽게 발생하는 invalid-depth 유지
Interference Artifact 다중 카메라 간섭으로 발생한 비정상 깊이 값 복원
Background(정상 영역) 깊이 값 정상 유지

 

기존 restoration 모델들은 이 둘을 같은 노이즈로 취급해 버리기 때문에
DRIM은 복원해야 할 영역과 유지할 영역을 구분하도록 했습니다.

 

그래서 MaGIC의 첫 단계는 segmentation이 되었고,
segmentation은 3-class probability map 형태로 출력하도록 설계했습니다.


② Segmentation mask를 multi-scale에서 depth decoder에 직접 주입

MaGIC은 mask decoder의 출력(3-channel probability map)을
각 depth decoder stage에서 사용하는 multi-scale feature와 channel-wise concat 합니다.

 

즉, depth decoder는 segmentation 정보를 통해 더 많은 정보를 복원에 활용할 수 있습니다.


Concat 방식을 선택한 이유: mask 형태를 그대로 유지하면서 restoration을 제어할 수 있다

설계 당시 attention, residual block 등을 모두 실험했습니다.
하지만 DRIM의 mask는 다음 특성이 있습니다:

  • Interference는 얇고 선형 패턴
  • Sensor artifact도 국소적인 형태
  • Restoration에 shape이 그대로 반영되어야 함

mask 구조가 의미하는 바를 그대로 복원 단계로 전달하려면
정보가 희석되지 않는 방식이 필요했습니다.

 

Concat은 큰 연산 없이 mask shape을 그대로 유지하면서 restoration을 강하게 유도하기 때문에 concat을 선택했습니다.

즉, concat은 3-class mask를 “정확히, 손실 없이” restoration 경로로 전달하는 가장 직접적이고 효과적인 방식이었습니다.


이 구조 때문에 DRIM은
기존 restoration 모델과 달리 sensor artifact는 그대로 유지하고, interference artifact만 선택적으로 복원할 수 있었습니다.

 

4. Experiment

4.1. Main results

Quantitative Comparison

 

Qualitative comparison

 

  • RMSE 0.0199m, MAE 0.0027m
  • 간섭 영역 RMSE 0.0774m, 간섭 영역 MAE 0.0183m
  •  33 FPS (0.0299 s/frame)로 실시간 처리

기존의 복원 모델들과 비교를 하였을 때, 가장 빠른 속도로 가장 잘 복원하였습니다.

4.2. Challenging Scenarios

아래와 같이 더 많은 센서를 사용하는 환경이나, 다른 센서를 사용할 때에도 잘 작동하였습니다.


실제로 피지컬 AI, 제조/로보틱스 환경에서는 작업 공간의 제약을 줄이고 시야(FoV)를 넓히기 위해 여러 대의 depth 센서를 동시에 사용해야 하는 경우가 많습니다.

또한 일부 환경에서는 의도하지 않았음에도 불구하고 근접한 센서들 사이에서 간섭(interference) 이 자연스럽게 발생합니다.

 

기존에는 이러한 문제를 해결하기 위해 하드웨어 기반의 동기화 방식이 주로 사용되어 왔습니다.

하지만 하드웨어 방식은 케이블 연결, 프레임 손실, 설치 제약 등의 문제가 있어 실제 산업 환경에서 항상 적용하기 어렵습니다.

 

이러한 상황에서 소프트웨어 방식으로 간섭을 실시간으로 복원할 수 있다는 점은 매우 큰 의미가 있습니다.

이는 실제 현장에서 바로 활용될 수 있는 실용적 가치가 크다는 것을 의미합니다.

 

또한, 이 문제를 AI 방식으로 해결하기 위해 필요한 데이터셋이 기존에는 존재하지 않았기 때문에,

DRIM에서는 다중 LiDAR 간섭 환경을 체계적으로 수집/정의한 최초의 depth interference 데이터셋을 구축하고 공개했습니다.

 

이는 단순히 하나의 모델을 제안한 수준을 넘어, 이후 연구자와 산업에서 이 문제를 더 깊게 다룰 수 있도록 기반을 마련했다는 점에서 중요한 기여라고 생각합니다.

 

이러한 점에서 DRIM은
"실제 산업 현장의 문제를 SW·AI 방식으로 해결하기 위한 새로운 접근"이며,
"데이터셋–모델 구현까지 전체 pipeline을 제안한 연구"라는 점에서 의미 있는 성과라고 생각합니다.


Dataset

https://sites.google.com/view/drim-dataset

 

DRIM Dataset

Dataset Structure

sites.google.com

Code

https://github.com/AIRLABkhu/DRIM_code

 

GitHub - AIRLABkhu/DRIM_code

Contribute to AIRLABkhu/DRIM_code development by creating an account on GitHub.

github.com