본문 바로가기
테크요약

멀티모달 AI의 정확도, 손실 지형 평탄화로 설명됐다

UNIST 윤성환 인공지능대학원 교수팀이 멀티모달 인공지능(AI)의 정확도를 ‘손실 지형’ 관점에서 규명했다. 여러 모달리티를 함께 학습하면 손실 지형이 더 평탄해져 강건성이 높아진다는 내용이다.

멀티모달 AI의 정확도, 손실 지형 평탄화로 설명됐다 — 모노라 편집부 codex hero
사진 · 모노라 편집부 (AI 생성)

UNIST는 윤성환 인공지능대학원 교수팀이 멀티모달 인공지능(AI)이 한 종류 데이터만 학습한 AI보다 더 정확한 이유를 ‘손실 지형’ 평탄화 관점에서 밝혔다고 28일 전했다. 멀티모달 학습은 이미지, 음성, 텍스트처럼 서로 다른 ‘모달리티’ 데이터를 함께 활용하는 방식이다.

연구팀에 따르면 음성이나 이미지 등 여러 모달리티 데이터를 동시에 학습하면 ‘손실 지형’이 더 평탄해진다. 이 과정에서 학습 중 접하지 못한 상황에 대응하는 능력인 ‘강건성’이 향상된다.

‘손실 지형’은 AI 모델의 학습 오차가 모델 파라미터에 따라 어떻게 달라지는지를 지형처럼 나타낸 개념이다. 손실지형이 날카로우면 성능 변동이 커질 수 있고, 넓고 평탄하면 데이터나 잡음에 대해 상대적으로 안정적인 성능을 유지한다.

연구팀은 이 현상을 ‘합성곱 스무딩 효과’로 설명했다. 윤성환 교수는 “멀티모달 학습 손실함수가 단일 모달리티 손실 함수에 다른 모달리티 데이터 분포를 합성곱한 형태로 표현될 수 있음을 이론적으로 밝힌 것”이라고 설명했다.

연구팀은 멀티모달 손실 지형의 최대 곡률이 단일 모달리티보다 커지지 않고, 주파수 관점에서도 불규칙한 고주파 성분이 감소한다는 점도 증명했다. 이어 분포적 멀티모달 학습(DML) 방법을 제안했으며, 윤성환 교수는 “향후 데이터를 보다 효율적으로 활용하면서도, 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 중요한 기반 기술이 될 것”이라고 말했다.

관련 기사

참고한 출처

태그