논문 번역 및 요약)LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

논문 원문 : LLaMA-Mesh : Unifying 3D Mesh Generation with Language Models
프로젝트 페이지 : Nvidia Research : LLaMA-Mesh

Abstract

이 논문은 대규모 언어모델(LLM)의 능력을 확장시켜서, 하나의 통합된 모델 안에서 텍스트 입력으로 3D 메시를 생성(text-to-3D Mesh)하는 방법을 탐구한다.
- 이 연구는 다음과 같은 장점을 제공할 수 있다.
- (1) LLM 안에 임베딩된(=학습된) 공간적 지식(spatial knowledge)을 활용할 수 있게 된다.
- (2) 대화방식을 통한 3차원 (객체) 생성과 3차원 메시에 대한 이해를 가능하게 한다.
이 작업에서 가장 어려웠던 점은 3차원 메시 데이터를 LLM이 처리할 수 있는 개별 토큰이 되도록 효과적으로 토큰화(tokenization)하는 방법이었다.
- 이 문제의 해결을 위하여, 해당 논문에서는 LLaMA-Mesh를 제안한다.
- LLaMA-Mesh는 3D 메시의 정점(Vertext, 이하 vertext) 좌표와 삼각형 면(Face, 이하 face) 정의를 평문(plain text)으로 표현함으로써, LLM의 단어목록(vocabulary)을 확장하지 않고 LLM에 바로 통합시킬 수 있다.
또한, 사전훈련된(pretrained) LLM이 다음의 작업이 가능하도록 (추가학습할 수 있는) 데이터셋을 구성하였다.
- 참고) 질문-응답 쌍으로 구성되어 있어서, 정답이 있는 ( → 지도, Supervised) 데이터셋이며, 사전훈련된 모델을 해결하려는 태스크에 맞춰 파인 튜닝(→미세 조정, fine-tuning)을 위한 데이터셋이라는 의미에서, 보통 SFT(Supervised fine-tuning) 데이터셋이라고 얘기한다.
- (1) 텍스트 프롬프트로부터 바로 3D 메시를 생성할 수 있게 한다.
- (2) 필요할 경우, 텍스트와 3D 메시가 함께 결합된(interleaved) 결과를 출력할 수 있다.
- (3) 3D 메시를 이해하고 해석할 수 있다.
이 논문은 LLM이 텍스트 기반의 입력 포맷으로부터 3D 메시 생성을 위해 필요한 복잡한 공간 정보를 획득할 수 있도록 파인 튜닝함으로써, 3D 메시와 텍스트라는 방식(=모달리티, modalities)이 효과적으로 통합될 수 있음을 설명한 첫 시도이다.
LLaMA-Mesh는 (LLM의) 강력한 텍스트 생성 능력을 유지하면서, (파인 튜닝 대신) 처음부터 학습된 모델들과 동등한 수준의 메시 생성 수준을 달성하였다.

1. Introduction

대규모 언어모델(LLM)은 인간이 사용하는 자연어를 이해하고 생성하는 뛰어난 능력을 보였고, 이를 바탕으로 대화용 에이전트, 코드 생성, 시각 정보 추론 등의 응용에서도 성공적으로 활용되고 있다.
하지만, 이러한 생성 능력이 주로 텍스트에 한정됨으로써, 다양한 태스크의 응용에는 한계가 있다는 의견도 제기된다.
이 논문은 LLM을 새로운 모달리티로 확장하는 시도를 한다.
- 3D 메시 생성(3D mesh generation)을 LLM으로 다룰 수 있다면 컴퓨터 그래픽스, 로보틱스와 같은 공학분야와 가상/증강 현실과 같은 분야에 새로운 가능성이 열릴 것이다.
- LLM이 글로 된 묘사로부터 3D 메시를 생성하게 한다는 것은 언어적 이해능력과 3차원 객체 생성을 통합함으로써, LLM의 활용 범위를 확장함을 의미한다.
- 또한 이런 방식은 3차원 콘텐츠 생성을 언어 기반의 지시로 가능하게 하는 직관적이고 효과적인 워크플로우를 제시할 수 있을 것이다.
그러나 새로운 입/출력 방식(모달리티)을 LLM으로 통합하는 것은 쉽지 않은 일이다.
- 특히, 새로운 모달리티를 처리하여 LLM에 입력하기 위한 토큰화 과정이 어렵다. (tokenization process for processing the new modality)
그동안 3차원 메시와 텍스트 생성을 단일한 프레임워크 안에서 통합하려는 시도는 없었다.
몇몇 연구들은 이미지와 텍스트 생성을 통합하기 위한 연구를 진행하였는데, 이 중 가장 일반적인 방식은 새로운 토크나이저를 학습시키는 방법이었다.
- 예) VQ-VAE (Vector-quantized Variational Auto-encoder) : 새로운 모달리티를 개별적인(discrete) 토큰으로 인코딩(=부호화)하여서 훈련 때 사용
- 그러나 이런 접근 방식은 단어 목록(vocabulary)을 확장시킬 필요가 있는데, 조정을 위한 학습 비용(adaptation's learning cost)의 증가를 의미하게 된다.
- 추가적으로 이 방법은 오토-인코딩 과정에서 정보 손실(information loss)이 발생할 수 있다.
이런 한계를 극복하기 위해, 이 논문은 LLaMA-Mesh를 제안한다.
- 3D 메시를 평문(plain text)로 표현함으로써, LLM이 3D 메시를 생성할 수 있게 해주는 새로운 프레임워크
- 3차원 모델을 표현하는 텍스트 기반의 표준으로서 널리 사용되는 OBJ 파일 형식을 사용하였다. obj 파일은 점의 좌표(vertext coordinates)와 면의 정의(face definition)로 구성된다.

수치 표현을 일련의 텍스트 표현으로 다룸으로써, LLaMA-Mesh는 3D 메시를 LLM이 직접 다룰 수 있는 형식으로 바꾼다.
- 이는 토크나이저나 단어집합의 수정의 필요성이 없기 때문에, 추가적인 훈련 오버헤드를 최소화할 수 있다.
이 논문은 또한 미세조정을 위한 SFT(supervised fine-tuning) 데이터셋을 구성하였다.
- 여기에는 (1) 텍스트-3D 메시 쌍과 (2) 텍스트와 3D메시가 결합(interleaved)된 대화가 포함되엇다.
추가 훈련에 사용한 사전훈련 모델은 LLaMA-3.1-8B-Instruct 이다.
LLaMA-Mesh를 통해, 이 논문은 LLM이 텍스트 형식으로 변환된 3D메시의 수치정보를 학습함으로써, 복잡한 공간 정보를 얻을 수 있음을 보인다.
- 파인튜닝 수행 후에 LLaMA-Mesh는
- (1) 텍스트 프롬프트로부터 3D 메시를 생성할 수 있고,
- (2) 대화 환경에서 텍스트와 3D 메시가 결합되거나 번갈아가면서 니오는 결과를 출력할 수 있고,
- (3) 메시에 대하여 자연어로 서술 할 수 있다.
LLaMA-Mesh는 LLM이 3차원 콘텐츠를 자연어로 생성하는 능력을 3D 메시와 텍스트가 통합된 단일 모델 안에서 가능하게 한 첫번째 성공 사례다.
- LLM이 가진 강력한 텍스트 생성 능력은 유지시키면서, 처음부터 학습된 3D 메시 생성 모델과 비견되는 성능을 달성하였다.

2. Related Work

2.1. Enabling LLMs to be Multi-Modal

대규모 언어모델(LLM)을 확장하여, (비전과 언어처럼) 여러 모달리티를 함께 처리하고 동시에 생성하는 통합모델에 관한 연구는 활발하게 이뤄지고 있다.
- 시각 정보 입력을 이해하여 여러 모달리티로써 상호작용하는 LLM 모델 연구
- 새로운 시각 토크나이저(visual tokenizer)를 사용하여, 이미지와 텍스트 생성의 통합 연구
  - 이 논문은 이러한 연구방식과 달리, 토큰화 방식의 수정을 피하고 3차원 정보에 초점을 맞추기 위하여, 단순히 텍스트 형태의 OBJ 파일포맷으로 출력하는 방식을 사용한다.
이 논문과 매우 밀접한 연구로서 미리 정의된 객체들로 구성된 레이아웃을 생성하여서 3차원 장면을 LLM이 생성하게 하는 연구들이 있다.
- Holodek : Language Guided Generation of 3D Embodied AI environments
- The Scene Language : Representing Scenes with Programs, Words and Embeddings
- 그러나 이 연구들은 LLM이 3D 메시를 직접 생성할 수는 없다.
LLaMA-Mesh는 LLM이 3차원 객체 생성 도구를 사용하게 하는 대신 텍스트로서 3D 메시를 직접 생성하는 첫번째 연구다.

2.2. 3D Object Generation

사전 훈련된 대규모(large-scale) 텍스트-투-이미지(text-to-image) 디퓨전 모델로부터 score-distillation을 사용해 3차원 객체를 생성한 연구들에 DreamFusion, Magic3D, ProlificDreamer 등이 있다.
LRM, CRM, InstantMesh 등을 포함한 피드포워드(Feed-forward) 방식은 테스트 때의 최적화(test-time optimization) 없이 3차원 객체를 생성한다.
그러나 이러한 방식들은 일반적으로 3차원 객체를 수치값으로 다루고, 마칭 큐브(marching cube) 등을 사용해서 메시를 추출하기 때문에, 개별 토큰으로 분리하기 쉬운 표현으로 나타내기 어렵다.

2.3. Auto-Regressive Mesh Generation

반면에 PolyGen, MeshGPT, MeshXL 같은 방식은 3차원 객체를 토큰화된 좌표의 개별 시퀀스로 모델링하고, 자기 회귀 방식의 트랜스포머(auto-regressive transformer)를 사용하여 실제 사람이 만든것 같은 모양(=위상, topology)의 객체를 생성한다.
MeshAnything, PivotMesh, EdgeRunner는 포인트 클라우드(point cloud)를 객체 생성을 조절하기 위한 입력 조건으로 받아 들인다.
이러한 연구들이 비록 auto-regressive transformers 모델이 생성한 개별토큰으로 메시를 다루지만, 이들은 데이터를 사용해 처음부터(from scratch) 학습시켰거나, 언어적인 능력(language capabilities)이 부족하다.

3. Method

3.1. 3D Representation

LLM이 직접 3D 메시를 생성하도록 하려면, (3차원 메시라는) 새로운 모달리티를 LLM이 효과적으로 처리할 수 있도록 토큰화하는 것이 중요한 문제다.
사전훈련된 LLM은 obj 파일 포맷으로 3차원 객체를 생성할 수 있었다.
- obj 파일 포맷은 단순하면서도 널리 쓰이는 평문 형식의 객체 서술 방식이다.
- 이 때, (특별한 추가 적응 등이 필요하지 않는) 제로샷(zero-shot) 방식이 가능하였다.

비록 생성된 모양이 단순하고, 즉시 사용가능한 형태는 아니었지만(=렌더링이 필요하지만), obj 파일 포맷의 3차원 정보가 LLM 안에 내재되어 있음을 설명할 수 있다.
추가적으로, obj 파일이 평문 형태로 3차원 기하정보를 담고 있기 때문에, 토크나이저나 단어집합을 수정할 필요 없이 LLM과 통합하기에 이상적인 형식이라고 생각할 수 있다.
obj 파일은 정점 좌표(vertex coordinates)와 면에 대한 정의(face definition)의 리스트로 구성된다.
- Verticies (v)
  - 알파벳 v 로 시작하는 각 줄은 3차원 공간에서의 정점 좌표를 x, y, z 순으로 정의한다.
  - 예) v 0.123 0.234 0.345
- Faces (f)
  - 알파벳 f 로 시작하는 각 줄은 폴리곤(polygon)을 형성하는 정점의 인덱스를 나열하여, 면(face)을 정의한다.
  - 3차원 그래픽스에서 폴리곤(polygon)은 삼각형(triangle) 또는 사각형(quadrilateral)의 형태다.
  - 예) f 1 2 3
이처럼 수치값을 (일반적인 문자열로 나타내어진) 평문(plain text)로 다룸으로써, 3D 메시를 LLM이 자연스럽게 다룰 수 있는 연속적인 텍스트 형태로 변환할 수 있다.
참고) 인터넷에 있는 obj 파일 포맷은 조금씩 다를 수 있기 때문에, 이 논문에서는 가장 널리 사용되며 직관적으로 이해되는 형태를 적용하였다고 한다.
3D 메시의 좌표는 일반적으로 부동 소수점(floating-point) 수치로써 저장된다.
그런데 부동소수점 수치를 각 정점의 좌표를 표현하는데 사용한다면,
- 토큰 시퀀스의 길이가 길어질 수 있고
- 대부분의 LLM의 컨텍스트(context) 길이 제한을 초과할 수 있으며
- 연산비용을 증가시키게 된다.
이 문제의 해결을 위하여, 정점의 좌표를 각 축마다 고정된 64개의 구간(bin)으로 (변환하는) 양자화를 시행하였다.
- 메시를 [0, 64]의 범위로 스케일링하고, 가장 가까운 정수값으로 좌표를 양자화한다.
- 다음은 이러한 양자화 과정에 대한 그림으로서, 약간씩 좌표의 정밀도(precision)가 감소하게 된다.
- 그러나 이 과정은 눈에 띌 정도로 토큰의 수를 줄여준다. 이 과정에서 기하학적인 정확도(geometric fidelity)를 희생하지 않으면서도 긴 시퀀스 또한 LLM이 다룰 수 있게 된다.

3.2. Pretrained Models

LLaMA와 LLaMA 기반의 변형모델들과 같은 사전훈련된 LLM(pretrained LLM)은 다음의 이유에서 텍스트로부터 3D 메시 생성을 위한 도구로서 사용할 수 있다.
- (a) 임의의 시퀀스를 모델링하기에 강력한 도구이다.
- (b) 사전 훈련 과정에서 (3D 메시가 표현된 토큰 시퀀스와) 유사한 데이터를 학습했을 가능성이 있다.
이 논문에서는 LLaMA 3.1-8B-Instruct 모델을 베이스 모델로 사용하였다.
- LLaMA-3.1-8B Instruct 모델을 선택한 이유는 성능과 연산 효율성과의 균형이 뛰어난 모델이기 때문이다.
- 이 모델은 지시에 따르도록 (추가학습에 의해) 조정되어서(instrutction-tuned), 입력되는 프롬프트를 따르고 일관성있는(coherent) 응답을 생성할 수 있다.
  - 이런 성격은 입력되는 텍스트 프롬프트를 해석하고 그에 따른 3D 메시를 생성하려는 LLaMA-Mesh응용에 유리할 수 있었다.
놀랍게도 파인튜닝 없이도 완벽하지는 않지만 간단한 형태의 OBJ 파일을 생성할 수 있었다.
- 이는 위의 Figure 6 과 같은 경우는 깃허브에서 접근가능한 예제들이기 때문이라고 생각한다.
그러나 이러한 강점에도 불구하고, 실제로는 파인튜닝이 없이는 메시 생성 작업에서 사전훈련된 LLaMA 모델의 성능은 좋지 않았다.
- 이처럼 (이 논문에서 사용하려는) 평문으로 된 메시 표현을 포함한 특수한 데이터셋에서는 모델을 파인튜닝하는 것이 필요함을 알 수 있다.
엄선된 텍스트-(대응되는)메시 쌍 데이터셋에서 LLaMA를 파인튜닝함으로써
- 모델은 OBJ파일의 패턴과 문법(semantics)을 학습할 수 있었고
- 이를 통해, 추가학습된 모델은 글로된 서술(textual description)로부터 유효한 3D 메시를 바로 생성하는 것이 가능해졌다.

3.3. 3D-task Finetuing

LLM이 3D (메시)생성 능력을 갖추게 하려면, 우선 파인튜닝을 위한 정답 데이터셋(SFT 데이터셋)을 구성해야 한다.
이 논문에서는 일반적인 객체에 대한 통합적인 3D 데이터셋인 Objaverse로부터 3D 메시 데이터셋을 사용하였다.
- 참고) Objaverse : A Universe of Annotated 3D Objects
이로부터 대화방식의 데이터셋(chat dataset)의 구성을 위해서
- (1) 규칙 기반의 접근방식(rule-based approach)과
- (2) LLM 기반의 데이터 증강(=확장)(LLM-based augmentation)을 사용하였다.
규칙 기반의 데이터셋 구성방식에서는
- 아래와 같이 단순한 형태의 몇몇 패턴을 설계하였다.
- 메시 이해를 위한 패턴 : "(user) {obj} What is this? (assistant) {caption}"
- 메시 생성을 위한 패턴 : "(user) Create a 3D model of {caption}. (assistant) {obj}"
각 3차원 객체에 대해서, 무작위로 어떤 패턴을 사용할지를 선택하고, {obj}나 {caption}과 같은 플레이스 홀더 부분을 메시에 대한 정의나 캡션으로 대체했다.
어쩌면 이런 대화방식이 직관적으로 보일만큼 간단해보이지만,
- 이렇게 구성된 데이터셋은 LLM에게 텍스트와 3차원 표현 사이의 대응에 관한 기본적인 지식을 제공해 줄 수 있었다.
더 복잡한 대화가 가능하도록, 복잡한 텍스트-3D 대화 데이터셋을 구성했다.
- 텍스트와 3차원 메시 정보가 번갈아가는 형태(interleaved format)로 샘플 대화를 구성하고, 문맥 학습(ICL, In-context learning)을 사용한 프롬프트를 통해
- 사전훈련된 LLM이 텍스트 서술에 기반하여 각 3차원 객체마다 대화를 생성하게 하였다.
규칙기반 방식과 LLM 데이터 증강 방식을 결합하여 사용하였다.

추가로 LLM의 언어적 능력을 보존하기 위하여, 일반적인 대화 데이터셋인 UltraChat을 사용하였다.
결과적으로 최종 데이터셋은 메시 이해, 메시 생성과 일반적인 대화 데이터로 구성되며, 구성 비율은 다음과 같다.

4. Experiments

4.1. Implementation Details

데이터셋 준비

Objaverse 데이터셋 중에서 감당할 수 있는 수준의 연산 복잡도를 유지하기 위해, 면의 수가 최대 500개 이하인 메시들을 선택하였다.
- 이 결과 최종 3,100(31k)개의 메시가 데이터셋에 포함되었다.
선택된 메시 데이터들은 OBJ파일 형식으로 변환하였다.
- 앞서 설명된 것과 같이, 기하학적인 세부사항을 크게 희생하는 일 없이 토큰 시퀀스의 길이를 줄일 수 있도록, 각 정점의 좌표는 64개의 정수값(bins)으로 양자화 하였다.
각 메시에 필요한 캡션은 Cap3D으로 생성하였다.
- Cap3D : Scalable 3D Captioning with Pretrained Models
과적합을 피하기 위해서, 각 메시를 { 0º, 90º , 180º , 270º } 중 하나로 회전시켰고, 최종적으로 12,5000(125k)개의 메시가 되었다.
이전 연구에 해당하는 PivotMesh에 마찬가지로, 정점은 z-y-x 순의 좌표를 오름차순으로 정리하였다.
각 면의 인덱스도 오름차순으로 정리하였다.
LLM의 컨텍스트 길이제한은 8k 토큰으로 설정하였다.

모델 훈련

모델은 32개의 A100 GPU에서 21,000(21k) 에포크(iteration)만큼 훈련되었다.
(lora를 사용하지 않고) 전체 파라미터에 대한 파인튜닝(full parameter finetuing)을 수행하였다.
옵티마이저는 AdamW를 사용하였고, 이 때 학습률은 1e-5 이며, 최초 30 스텝의 웜업(warm-up) 단계 이후에는 코사인 스케줄링(cosine scheduling)으로 학습하였다. 배치 크기는 128이었다.
이러한 설정 하에서 총 학습시간은 대략 3일 정도였다.
아래의 손실함수 변화에 관한 학습 그래프를 보게되면, 새로운 입력 방식(모달리티)에 대해서 모델이 빠르게 수렴함을 알 수 있다.
- 이는 모델이 새로운 지식에 대해 빠르게 적응(adaptation)함을 의미한다.
한편, 훈련 과정에서 손실함수가 갑자기 크게 변화하거나(loss spiking) 불안정한 학습 상황은 관찰되지 않았다.

4.2. Results

4.2.1. Mesh Generation Results

위의 그림은 LLaMA-Mesh에 의해 생성된 고품질 메시들이다.
- 이전의 자기-회귀(auto-regressive) 메시 생성 방법의 결과와 비슷하게, LLaMA-Mesh는 사람이 직접 만든것과 같은 모양(artist-like topology)을 생성할 수 있었다.
- 이는 LLaMA-Mesh가 훈련 동안 메시의 모양(=위상, topology)을 학습했기 때문이다.
생성된 메시의 다양성을 평가하기 위해서, 동일한 텍스트 프롬프트를 여러번 입력하고, 출력되는 결과 메시의 변화를 관찰하였다.
- 다음 그림은 모델이 프롬프트를 만족하여 고유한 메시를 생성할 때 다양성을 보일 수있음을 보여준다.
- 이는 LLaMA-Mesh가 다양하면서도 창의적인 결과를 출력할 수 있는 능력이 있음을 강조한다.
- 또한 이런 다양성은 다양한 디자인 옵션과 변화를 필요로 하는 응용에 필수적이다.

4.2.2. Language and Conversational Abilities

정성적 결과

메시 생성을 위한 파인튜닝 후에, LLaMA-Mesh가 언어를 이해하는 능력을 여전히 가졌는지 여부를 평가하였다.
아래 그림과 같이 LLaMA-Mesh는 일관성있고 문맥적으로 적절한 대화에 참여하여 응답할 수 있으며, 복잡한 지시사항을 이해할 수 있었고, 명확한 질문을 하며 상세한 응답을 내놓았다.
이처럼 파인튜닝 후에도 LLM의 언어적 유창함은 그대로 유지되었다고 볼 수 있었다.

정량적 결과

아래의 표는 언어 능력을 정량적으로 평가한 결과다.
- LLaMA-Mesh의 성능을 다양한 크기의 베이스 모델의 성능과 비교하였다.
- LLaMA 3.1(8B), LLaMA 3.2(3B), LLaMA 3.2(1B)

사용된 평가 메트릭은 MMLU(5-shot), PIQA(0-shot), HellaSwag(0-shot), GSM8K(8-shot) 등이다.
- 이들은 언어모델의 일반적 지식, 상식 추론, 수학적인 문제 풀이 능력 등을 평가하기 위해 구성되어 있다.
LLaMA-Mesh는 3D 메시 생성을 위해서 OBJ 파일을 만들도록 파인튜닝 되었지만, 베이스라인 모델들과 비교될 만큼의 언어적 이해능력과 추론 능력을 가지고 있다.
- 이러한 결과들은 LLaMA-Mesh가 LLM의 기능을 3차원 콘텐츠 생성으로 확장하면서도 여전히 원래의 언어적 능력을 보존할 수 있음을 보여준다고 볼 수 있다.

4.3. Comparison with Existing Methods

정성적 비교

3차원 생성 능력을 평가하기 위해서, 3D 메시 생성 분야의 최신 성능 모델과 비교하였다.
- MeshXL : 자기 회귀적인 텍스트-투-메시 생성 접근법
- Unique3D : 멀티 뷰 이미지 디퓨전에 기반한 3D 생성 접근법
- 참고) Unique3D는 dense mesh를 형성하기 때문에, 생성된 위상(모양)을 시각화하지는 않았다. 또한 Unique3D가 원래는 이미지로부터 3D 생성(image-to-3D)을 목표로 설계되었기 때문에, 텍스트로부터 모델에 입력할 이미지 생성을 위해서 SDXL을 사용하였다.

위의 비교 그림으로부터 LLaMA-Mesh가 동일한 텍스트 프롬프트가 주어졌을 때, 기존의 3D 생성모델과 비교할만한 성능의 메시를 만들어냄을 알 수 있다. 특히 상세한 세부사항을 반영하고, 복잡한 기하학 형태를 효과적으로 반영하였다.
Unique3D와 MeshXL이 메시 생성을 위한 목적만을 위해 학습된 모델인 반면, LLaMA-Mesh는 언어 이해 능력을 일관성 있게 유지하면서도 동일한 성능을 단일 모델 안에서 달성할 수 있었다.

훈련 효율성 및 모델 크기

아래의 표는 여러 모델 간에 훈련 시간, 요구되는 연산자원, 모델 크기를 비교하였다.

MeshXL은 메시 데이터에 대하여 거대한 트랜스포머(transformer) 모델을 훈련시켰기 때문에 상당한 연산 자원이 필요로 했다.
이에 비해, 사전훈련된 LLM을 활용하여 파인튜닝을 진행하는 경우, 훈련에 필요한 비용을 효과적으로 감소시킬 수 있었다.

5. Discussion

5.1. Limitations

LLaMA-Mesh가 3D 메시를 생성할 수 있다는 LLM의 잠재력을 보여줬지만, 지속해서 해결해나가야할 몇 가지 한계점이 있다.
한정된 수의 정수값(bins)으로 정점의 좌표를 양자화할 때, 기하학적인 세부사항에서 손실이 생길 수 있다. 이로 인해 생성된 메시의 정확성(fidelity)에 영향을 미칠 수 있다.
LLM의 컨텍스트 길이의 제한은 매우 복잡하거나 큰 규모의 3차원 구조를 생성하는 능력을 제한할 수 있다.
- 이 논문에서는 이를 고려하여 메시의 상세함 단계를 줄여서 최대 500개의 면을 가진 메시들까지만 생성하였다.
(LLaMA-Mesh의 언어능력이 크게는 유지되지만) 파인튜닝 후에 언어적 능력 측면에서 약간의 성능저하가 일어났다.
- 이에 대해 이 논문의 추측으로는 텍스트 지시 데이터셋으로 오직 UltraChat에만 의존했기 때문으로 생각한다.
- 따라서 다양하며, 고품질 텍스트 지식 데이터셋을 통합해 사용한다면 LLaMA-Mesh의 언어 능력을 유지할 수 있을 것으로 생각된다.
3D 메시 훈련 데이터에 있어서도 Objaverse의 3D 데이터셋만 사용했기 때문에, 더 많은 데이터셋을 사용한다면 생성 결과를 더 풍부하게 만들 수 있을 것이다.
더불어 이 논문에서는 연산 자원상의 한계를 고려하여 8B모델만을 사용했지만, 더 많은 매개변수를 사용하는 큰 모델을 쓴다면 성능 향상을 기대할 수 있을 것이다.

'A.I. > 이론' 카테고리의 다른 글

논문 번역 및 요약) Depth Pro : Sharp Monocular Metric Depth in Less Than a Second (0)	2024.10.18
LLM)논문꼼꼼히읽기 - A Survey of Large Language Models (1)	2024.07.05
논문 번역 및 요약) LLM을 활용한 문학 번역 - (Perhaps) Beyond Human Translation (0)	2024.05.27
논문리뷰) 어두운 영상의 밝기 조정 : Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement (1)	2022.11.03
논문 리뷰)시선 예측 연구의 고전 - Eye Tracking for Everyone (1)	2022.08.20

콤퓨타 사이언티스트

논문 번역 및 요약)LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

Abstract

1. Introduction

2. Related Work

2.1. Enabling LLMs to be Multi-Modal

2.2. 3D Object Generation

2.3. Auto-Regressive Mesh Generation

3. Method

3.1. 3D Representation

3.2. Pretrained Models

3.3. 3D-task Finetuing

4. Experiments

4.1. Implementation Details

4.2. Results

4.2.1. Mesh Generation Results

4.2.2. Language and Conversational Abilities

4.3. Comparison with Existing Methods

5. Discussion

5.1. Limitations

'A.I. > 이론' 카테고리의 다른 글

댓글

티스토리툴바

논문 번역 및 요약)LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

Abstract

1. Introduction

2. Related Work

2.1. Enabling LLMs to be Multi-Modal

2.2. 3D Object Generation

2.3. Auto-Regressive Mesh Generation

3. Method

3.1. 3D Representation

3.2. Pretrained Models

3.3. 3D-task Finetuing

4. Experiments

4.1. Implementation Details

4.2. Results

4.2.1. Mesh Generation Results

4.2.2. Language and Conversational Abilities

4.3. Comparison with Existing Methods

5. Discussion

5.1. Limitations

'A.I. > 이론' 카테고리의 다른 글

관련글

댓글

티스토리툴바