A.I./이론8 논문 번역 및 요약)LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models 논문 원문 : LLaMA-Mesh : Unifying 3D Mesh Generation with Language Models프로젝트 페이지 : Nvidia Research : LLaMA-MeshAbstract이 논문은 대규모 언어모델(LLM)의 능력을 확장시켜서, 하나의 통합된 모델 안에서 텍스트 입력으로 3D 메시를 생성(text-to-3D Mesh)하는 방법을 탐구한다.이 연구는 다음과 같은 장점을 제공할 수 있다.(1) LLM 안에 임베딩된(=학습된) 공간적 지식(spatial knowledge)을 활용할 수 있게 된다.(2) 대화방식을 통한 3차원 (객체) 생성과 3차원 메시에 대한 이해를 가능하게 한다.이 작업에서 가장 어려웠던 점은 3차원 메시 데이터를 LLM이 처리할 수 있는 개별 토큰이 되.. 2024. 11. 28. 논문 번역 및 요약) Depth Pro : Sharp Monocular Metric Depth in Less Than a Second 원문 링크 : Depth Pro : Sharp Monocular Metric Depth in Less Than a SecondAbstract이 논문은 제로샷 단안 카메라 깊이 예측(zero-shot metric monocular depth estimation)에 대한 파운데이션 모델을 소개한다.참고) 각각의 의미는 다음과 같다.zero-shot : 이전에 학습된 적 없는 처음 보는 이미지에 대해서도 깊이 예측을 수행한다.metric : 예측된 깊이 맵은 실제 물리 거리를 반영하고 있다.monocular : 단안, 즉 단일 카메라 센서로 촬영된 이미지에 대한 깊이 예측을 한다.Depth Pro 모델이 합성하는 고해상도 깊이 맵(high-resolution depth maps)은 어떤 모델보다 뛰어난 선명.. 2024. 10. 18. LLM)논문꼼꼼히읽기 - A Survey of Large Language Models 논문 주소 : A Survey of Large Language ModelsA Survey of Large Language ModelsAbstract1950년에 튜링 테스트(Turing Test)가 제안된 이후, 기계가 인간의 언어기능을 이해하는 기술을 연구해 왔다.참고) 기계의 지능이 인간의 지능과 비슷한지 또 구분할 수 있는 지를 판별하고자 하는 테스트원래는 이미테이션 게임(Imitation game)으로 불렀고 기계 즉, 컴퓨터가 인간처럼 대화할 수 있다면, 인간처럼 사고할 수 있다는 생각이 깔려 있다.지난 20여년간 인간의 언어를 이해하고 생성하는 연구의 주된 방향은 언어 모델링(Language Modeling)이었다.통계적 언어모델(statistical language model)에서 신경망 기.. 2024. 7. 5. 논문 번역 및 요약) LLM을 활용한 문학 번역 - (Perhaps) Beyond Human Translation 원문 링크) 2024.05.20.(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literacy Texts Abstract최근 기계번역(machine translation)의 성능 향상은 여러 분야에 걸쳐 번역의 품질을 크게 향상시킴하지만 문학 작품(literary texts) 번역은 여전히 매우 어려운 분야다.언어 자체의 복잡성, 묘사적 표현, 문화적인 뉘앙스이 논문에서는 대규모 언어모델(LLM)에 기반한 새로운 멀티 에이전트 프레임워크를 도입한다.그리고 이를 이용하여 전통적인 출판 과정(publication process)을 모사한 가상의 회사 TransAgents를 실행.. 2024. 5. 27. 이전 1 2 다음