제목 : 확산 모델 기반 필기 이미지 생성에 관한 연구
디지털 기술이 일상을 대체하는 현재에도 필기 이미지는 교육, 의료, 금융, 예술 분야에서 중요한 역할을 수행하고 있다.
하지만 사고나 질병과 같은 후천적 원인으로 인해 필기에 어려움을 겪는 사람들이 증가하고 있다. 이러한 상황에 처한 사람들은 타인의 도움에 의존해야 하며, 개인의 독립성과 프라이버시, 자존감에 부정적인 영향을 받게 된다.
개인의 고유한 필체 특성을 학습하여 서명 이미지를 생성하거나 임의의 텍스트를 개인 필체로 변환하는 기술은 신체적 제약을 극복하는 보조 도구로서 실질적인 도움을 제공할 수 있다.
본 논문에서는 서명과 문자라는 두 요소의 생성에 대해 각각 특화된 확산 모델을 제안한다.
서명 이미지 생성을 위한 조건부 확산 모델에서는 타임스텝과 클래스 정보를 하나의 통합 임베딩으로 처리하여 네트워크 전반에 일관되게 전달하는 방식을 채택했다.
또한 서명의 희소한 전경 구조에서 전역적 일관성을 확보하기 위해 저해상도 구간에서만 자기 어텐션을 선택적으로 적용하여 계산 효율성과 표현력의 균형을 달성했으며, EMA 네트워크를 통해 학습 과정의 매개변수 변동을 완화하여 생성 안정성을 향상시켰다.
문자 이미지 생성을 위한 잠재 확산 모델에서는 VAE를 통한 지각적 압축을 수행하여 잠재 공간에서 효율적인 확산 과정을 수행한다.
콘텐트와 스타일 정보를 효과적으로 분리하고 통합하기 위해, 콘텐트 인코더가 추출한 문자의 구조적 정보는 채널 어텐션을 통해 U-Net의 인코더 부분에만 주입하고, 스타일 인코더가 다중 참조 이미지로부터 추출한 스타일 정보는 교차 어텐션을 통해 주입하는 방법으로 문자 이미지를 생성한다.
실험 결과, 제안된 서명 이미지 생성 모델은 CEDAR 데이터셋에서 유사도 분류 정확도 93.0%, 클래스 분류 정확도 93.4%를 달성하였으며, BHSig260-B 데이터셋에서는 유사도 분류 정확도 98.9%, 클래스 분류 정확도 99.4%를 기록하여 고품질의 서명 이미지를 생성할 수 있음을 확인하였다.
제안된 문자 이미지 생성 모델은 손글씨 폰트 이미지를 대상으로 학습 및 생성하였을 때 FID 19.58, SSIM 0.9655를 기록하여 실용적 활용이 가능한 수준의 문자 이미지를 생성할 수 있었다.
본 연구는 확산 모델을 필기 이미지 생성에 적용하여 각 구성 요소의 설계 원칙을 실험적으로 검증했으며, 서명과 문자라는 상이한 필기 도메인에서 공통적으로 적용 가능한 설계 가이드라인과 도메인별 특화 전략을 실험적 검증을 통해 제시한다.