본문 바로가기

Paper

[Paper] ChatGPT is not all you need. A State of the Art Review of large Generative AI models

 ChatGPT로 대변되는 거대생성 모델(large generative models)이 쏟아져 나오는 시대가 되었다. 다른 모델들은 몰라도 ChatGPT는 사용해 보았을 거라고 짐작해 본다. 아직 사용해 보신 당신이라면.. 한번은 꼭 사용해 봐야 한다. ChatGPT를 느끼는 당신의 생각은 생각보다 훨씬 중요하다. 경험해 보지 않으면 모른다. 안써봤다면 지금 당장 시작해 보길 권한다. 

 생성형 AI(Generative AI)는 기존의 전문가 시스템(expert systems)이 if-else rule database로 수행하는 데이터 분석 및 분류하는 것과는 다르게 양질의 컨텐츠를 생산해 낼 수 있는 모델을 의미한다. 현대의 생성형 AI(modern generative Artifical intelligence)는 크게 두가지 모델을 포함하고 있다. 

 Discriminator or transformer model은 말뭉치와 dataset으로 훈련된 상태에서 현재의 입력정보를 장재 고차원 공간(a latent high-dimensional space)에 매핑하는 역할을 진행하고, 생성 모델(generative model)은 결과의 어느 정도의  불확실성을 반영하는 stochastic behavior(= a variable process where the outcome involves some randomness and has some uncertainty)를 필요에 따라, 지도/비지도 학습 방법으로 생성하는 역할을 담당한다. 모델에 의해서 생성되는 양질의 데이터의 관점에서 보면 생성형 모델(generative AI model)은 단순히 예측값을 도출하거나, 그룹으로 분류하는 단순한 discrimination behavior와는 전혀 다르다고 할 수 있다. 

 이 논문의 주요 내용은 여러가지 생성형 모델을 각자의 역할에 따라서 분류하고 현재의 수준을 설명하는 것이다. 아래의 두개의 Figure1, 3가 이 논문이 말하고자 하는 바를 가장 축약적으로 그리고 명확하게 설명해 주는 부분이라고 볼 수 있다. 

 생성형 모델은 아래와 같이 Text-to-image, Text-to-3D, Image-to-text, Text-to-Video, Text-to-Audio, Text-to-Text, Text-to-Code, Text-to-Science로 분류하여 구분하고 있고, 이 모델을 공급하는 기업으로 분류해 보았을 때는 Open-AI, Google-Research, Deep-Mind, Meta-AI가 대표적이다. 이러한 생성형 모델들은 천문학적인 규모의 데이터와 컴퓨터 연산량(Computational power), 그리고 이를 개발하기 위한 전문 인력을 포함하기 때문에 보통 거대한 IT 기업과 유수의 대학과이 연계하여 연구가 이루어지고 서비스되는 것이 일반적이다. Open-AI의 경우는 Microsoft가 엄청난 금액을 투자하여 연구하고 있는 기업이며, Google Research와 강화학습의 새로운 장을 열었다고 평가하는 Deep-mind또한 Google의 자회사 이다. 마지막으로 Meta-AI는 Facebook으로 시작하여 현재는 개명한 Meta의 인공지능 연구원으로 알려져 있다. 

 

 자세한 모델에 대한 내용은 직접 논문을 보면서 확인해 보는 것이 좋을 것 같다. 다만, 현재 나에게 조금 더 관심이 가는 몇가지 모델에 대해서 가볍게 리뷰해 보고자 한다. 

 

 1) ChatGPT

 : 백문이 불여일견이라고 이 Text-to-Text model은 한번은 꼭 체험해 보는 것이 좋다. 이 모델의 문맥 이해 능력과 대화를 이어나가는 내용을 기억하는 능력이 탁월하다. 우리가 흔히 어떤 정보를 얻고자 할 때 흔히 Googling하는 것과 같이 대화형 Prompt를 통해서 원하는 정보에 쉽게 다가갈 수 있도록 도와준다. 또한 googling의 경우는 원하는 검색어로 부터 계속 자신이 원하는 항목을 찾아나가는 과정이 필요하지만, ChatGPT는 이런한 과정없이 필요한 내용에 대해서 직접적으로 정보를 얻는 것이 가능하며, 대화형으로 질문을 할 수 있어 매우 편리한 편이다. 우리가 Iron man에서 보는 Xavis의 경우도 이 모델이 좀 더 발전한다면 가능하다는 판단이 들 정도로 이 모델은 훌륭한 편이다.  다만, 데이터가 많이 존재하는 정보에 대해서는 보통 제대로된 답변이 가능하지만, 흔하지 않은 정보나 최근의 정보에 대해서는 부정확한 답변을 많이 도출하는 편이다. 

장점: 매우 범용적, 일에 대한 기획이나 정보를 얻고자 할 때 step-by-step으로 정보를 얻어나갈 수 있다. 
         흔히 쓰이는 코드 생성까지 가능할 정도
단점: 잘못된 정보를 매우 개연성있게(이상하게 느껴지지 않도록 자연스럽게) 제시하기 때문에 내용의 확인에 대해
         꼭 확인해 보아야 함.

  자 아래 예시를 통해서 이 모델이 어떻게 잘못된 정보를 줄 수 있으며, 문맥 이해 능력이 뛰어난지 확인해 볼 수 있다. YOLOv5에 대해서 질문해 가는 과정에서 이 모델은 잘못된 정보에 대해서 강한 확신을 보여주는 것을 확인할 수 있으며, 또한 흥미롭게도 길게 진행되는 이야기의 내용을 모두 기억하고 이에 대한 유연한 반응을 보여주는 것은 매우 흥미로운 부분이다. 

 

2) Copilot

 이 모델은 Text-to-Code 모델로, 흔히 우리가 생각하는 코드 자동완성 기능의 확장판이라고 보면된다. OpenAI에서 서비스하는 모델로 Github을 통해서 사용 가능가능하고 30일 무료를 제공하지만 그 이상 사용한다면 유료로 사용해야 하는 정책을 가지고 있다. 써보면 알겠지만, 흔히 쓰는 함수의 경우는 통으로 자동완성을 통해서 작성해 주고, 주석 및 부분 부분의 코드 작성에 있어서 반복적인 작업을 줄여 줄 수 있다. 다만, 복잡한 코드의 경우는 처음부터 끝까지 제공한다기 보다 현재 작성하는 부분을 예측을 통해서 쉽게 작성할 수 있도록 도와 주는 수준이다. 이 것도 한번 사용해 보기를 권장하는 바이다. 

장점: 단순하고 반복적인 코드 작업을 줄여준다. googling 시간을 줄여줄 수 있음
단점: 코드를 처음부터 기획하고 작성해 주는 것이 아닌 line-by-line으로 도와주는 보조수단, 
         즉 처음부터 어떻게 짜야할지 감을 잡지 못한다면 googling이 더 편할 수도 있다는 이야기다.

 

 이 외에도 Meta-AI의 LLaMA(Large Language Model Meta AI) 대규모 언어 모델은 작고 강력한 모델로, 경쟁 모델과 비슷한 수준의 성능을 내면서도 컴퓨팅 성능을 더 적게 소비해 환경에 미치는 영향이 작고, 처음부터 오픈소스로 만들어져 있어서 매우 흥미로운 모델이기도 하다. 가디언은 LLaMA가 세계에서 가장 널리 사용되는 생성형 AI가 될 가능성이 높다고 예측하고 있다. 또한 meta-AI에서는 이미지 세그멘테이션을 위한  SAM(Segment Anything Model)을 발표했으며 이는 논문으로도 23.4월에 발표하고 있고, 제시하고 있는 세그멘테이션 결과가 놀라워 이에 대한 내용도 확인해 보면 좋을 듯하다. 

 AI 세상은 빠르게 변화하고 있으며, 이에 대한 탐구가 진정으로 필요한 시점이다. 관심을 가지면 가질수록 당신에게 큰 기회가 주어질 수 있다. Give it a try?