적수가 없을 것 같던 ChatGPT(이하 챗GPT)의 대항마가 떠올랐다. 바로 ‘DeepSeek(이하 딥시크)’다. 딥시크의 등장은 반도체 설계·제조 기업인 엔비디아와 인공지능(이하 AI) 연구개발 기업인 ‘OpenAI’ 등에게 큰 충격을 안겼다. 유준혁(대구대학교 컴퓨터정보공학부) 교수는 “딥시크의 기술을 적용하면 AI 모델의 훈련에 드는 비용이 급격히 낮아질 수 있다”며 “이는 엔비디아의 초고가 장치에 대한 수요 감소를 불러일으킬 수 있다”고 말했다.
딥시크가 전 세계적으로 거대한 파장을 불러올 수 있었던 이유는 ‘저비용 고효율 AI’라는 특징 때문이다. 학습 과정에서 타 AI 모델보다 적은 비용이 소요됐다는 뜻이다. 윤석빈(서강대학교 AI·SW대학원) 특임교수는 “기존 AI 모델이 수천억 원의 개발비를 요구하는 것에 비해 딥시크는 상대적으로 적은 비용으로도 챗GPT에 필적할 만한 성능을 확보했다”며 “딥시크의 등장은 AI 모델의 개발 및 운영에 대한 전반적인 비용을 크게 낮출 수 있을 것”이라고 전했다.
8비트와 32비트를 넘나들다
딥시크나 챗GPT와 같은 생성형 AI는 ‘그래픽 처리 장치(이하 GPU)’를 통해 데이터를 처리한다. GPU에서는 숫자의 배열로 연산이 이뤄지는데 이때 연산 체계를 컴퓨터에 소수로 표현하는 ‘부동(浮動)소수점’이 활용된다. 부동소수점은 소수점이 움직인다는 의미로, 비트(Bit)를 통해 컴퓨터가 수를 표현하는 방식 중 하나다. 비트는 컴퓨터가 정보를 처리하는 최소 단위로, 비트 수가 많아질수록 더 정교한 데이터 처리가 가능하다. 이재성(중앙대학교 AI학과) 교수는 “8비트에서는 ‘0.124’로밖에 표현할 수 없던 것이 32비트에서는 ‘0.123897’과 같이 숫자로 표현할 수 있는 범위를 넓혀 정교한 표현을 가능케 한다”며 “부동소수점 표현에 사용되는 비트의 숫자가 많으면 컴퓨터 내부에서 숫자 표현의 정확도가 높아진다”고 설명했다.
딥시크는 기존 AI 모델이 주로 사용하던 32비트 부동소수점 방식을 사용하는 동시에 8비트 부동소수점 방식을 활용해 연산량을 획기적으로 줄였다. 모든 구간 중에서 특히나 데이터의 정확도가 중요한 구간은 32비트, 이외의 구간은 8비트 부동소수점 방식을 선택적으로 이용해 수를 나타냈다는 의미다. 최병호(고려대학교 Human-Inspired AI Research) 교수는 “8비트 부동소수점 방식만을 활용하면 데이터의 질이 현격히 떨어질 우려가 있다”며 “딥시크는 수많은 테스트를 통해 얻어낸 자료를 바탕으로 32비트 부동소수점 방식과 8비트 부동소수점 방식을 활용하는 구간을 구분했다”고 첨언했다.
빠른 연산 속도라는 장점에도 불구하고 정밀도 하락이라는 단점 또한 존재한다. 이러한 단점을 보완하기 위해 ‘정규화’가 사용됐다. 정규화는 데이터의 범위를 조정해 AI 모델이 더 효율적으로 학습할 수 있도록 돕는 과정이다. 사용자가 딥시크에 명령을 입력하면 딥시크는 이를 데이터로 수용한다. 이때 특정 데이터의 값이 다른 데이터의 값에 비해 유독 높거나 낮다면 모델이 학습하는 과정에서 오류를 범할 수 있기 때문에 정규화가 필요하다. 이를 위해 데이터의 값을 일정한 범위로 조정해야 한다. 어떤 데이터는 1부터 100까지의 범위를 갖고 다른 데이터는 0부터 1까지의 값을 가진다면 정규화를 통해 모든 데이터를 0부터 1 사이로 변환하는 것이다. 윤 특임교수는 “정규화를 통해 AI 모델은 서로 다른 규모의 데이터를 동일한 기준에서 해석하고 학습 효율성을 높일 수 있다”고 부연했다.
속도와 문맥을 동시에, 다중 토큰 예측
텍스트를 이해하고 생성하기 위한 AI 모델인 대규모 언어 모델(이하 LLM)은 ‘토큰*’이라는 단위를 사용해 언어를 이해한다. 사용자가 질문에 대한 답변을 LLM에게 요구하면 LLM은 사용자가 입력한 문장을 토큰 단위로 나눈 후 현재 토큰을 기준으로 다음 토큰을 예측한다. 이것이 바로 ‘단일 토큰 예측 방식’이다. 윤 특임교수는 “단일 토큰 예측 방식은 다음 토큰을 순차적으로 예측하는 전통적인 접근법”이라고 말했다.
그러나 딥시크는 단일 토큰 예측 방식에서 벗어나 ‘다중 토큰 예측 방식’을 채택했다. 다중 토큰 예측 방식은 여러 토큰을 동시에 예측함으로써 속도와 정확도를 향상시키는 방식이다. 단일 토큰 예측 방식이 현재 토큰을 기준으로 다음 1개의 토큰을 생성한다면 다중 토큰 예측 방식은 현재 토큰 이후 N개의 토큰을 동시에 예측한다. 최대선(숭실대학교 AI안전성연구센터) 센터장은 “딥시크는 다중 토큰 예측 방식을 통해 연산 속도를 높이고 긴 문맥을 더 효과적으로 반영할 수 있게 됐다”며 “생성된 문장의 품질과 일관성이 향상됐다”고 전했다.
다중 토큰 예측 방식의 과정은 먼저 사용자가 특정 질문을 입력하는 것으로부터 시작된다. 사용자의 질문을 입력받은 딥시크는 질문에 적합한 문장을 구성하기 위해 토큰을 예측한다. 이때 단어 간의 상관관계를 파악하는 ‘트랜스포머’가 활용된다. 트랜스포머는 각 단어 간 관계를 분석해 중요한 부분에 집중할 수 있다. 예를 들어 ‘나는 사과를 먹었다. 그것은 정말 맛있었다’라는 문장이 있으면 트랜스포머는 ‘그것’이 사과를 뜻한다는 것을 알아챌 수 있다. 트랜스포머를 통해 이후에 나올 가장 적절한 토큰이 선정되고, 이렇게 선정된 토큰이 모여 자연스러운 문장이 생성된다. 최 센터장은 “다중 토큰 예측 방식은 전체 문맥을 고려해 연산을 수행한다”며 “트랜스포머를 활용해 동시에 여러 토큰을 생성한다”고 설명했다.
보상을 통해 성장하는 AI
기존 LLM은 개발사가 사전에 정답을 알려주고 이를 기반으로 추론 능력을 얻는 방식인 ‘지도학습’을 활용했다. 예를 들어 개와 고양이의 사진들을 보여주고 이 사진은 개, 저 사진은 고양이라고 가르치는 방식이다. 유 교수는 “지도학습은 사람이 모델에게 수많은 정답 데이터를 제공하면 AI 모델이 외우는 방식”이라고 말했다.
그러나 딥시크는 사람이 선별한 데이터를 학습하는 것과 달리 스스로 데이터를 찾아 배우는 강화학습을 이용했다. 바둑 AI 프로그램인 알파고는 바둑을 두는 방법을 학습하기 위해 먼저 대량의 과거 바둑 기보를 통해 인간 바둑 기사를 모방학습했다. 이후 자기 자신을 상대로 수차례 바둑을 두면서 경기력을 개선시켜 나갔다. 이 과정이 바로 강화학습이다. 유 교수는 “강화학습은 AI 모델이 스스로 생각하는 법을 배우기 때문에 사람의 개입 없이 스스로 학습할 수 있다는 장점을 갖는다”고 밝혔다.
다만 지도학습 과정을 거치지 않으면 강화학습에서 시행착오를 거칠 확률이 높아질 수 있다. 이를 방지하기 위해 연구진은 딥시크가 강화학습 과정에서 옳은 추론을 했을 때 보상을 주는 방식을 활용했다. 이때 ‘보상을 주는 방식’은 딥시크가 추론한 결과에 대한 피드백을 제공한다는 의미다. 딥시크가 활용한 보상 시스템에는 정확도 보상과 형식 보상이 있다. 정확도 보상은 AI 모델이 예측한 결과가 실제 정답과 얼마나 일치하는지를 평가해 보상을 주는 방법이다. 윤 특임교수는 “정확도 보상에서는 수학 문제의 정답 여부 등 문제 해결의 정확도를 점수화한다”고 논했다.
형식 보상은 AI 모델의 답변이 논리적으로 자연스럽고, 문법적인 오류를 저지르지 않았는지 평가해 보상을 주는 방식이다. 답변이 옳지 않더라도 적절한 형식을 갖추면 보상을 받을 수 있다. 최 센터장은 “정확도 보상은 AI가 정답을 학습하는 데 초점을 맞추고, 형식 보상은 AI가 더 자연스럽고 이해하기 쉬운 출력을 생성하도록 돕는 역할을 한다”고 답했다.
AI 속 전문가
딥시크는 효율적인 데이터의 처리를 위해 ‘Mixture of Experts’, 즉 MoE(이하 전문가 조합)를 사용한다. 전문가 조합은 AI 모델을 ‘전문가’라 불리는 별도의 하위 네트워크로 나눠 작업을 공동으로 수행하는 형식이다. 사용자가 입력한 내용을 여러 전문가가 분담해 처리한다는 뜻이다. 전문가 조합은 ▲데이터 입력 ▲라우팅 네트워크 ▲전문가 네트워크 ▲결과 출력 등을 기반으로 데이터가 처리된다. 먼저 데이터 입력은 전문가 조합이 처리할 데이터가 입력되는 과정으로, 이미지 분석이나 음성 인식 등 다양한 분야에서 사용된다.
라우팅 네트워크는 입력된 데이터를 가장 적합한 전문가 네트워크로 전달하는 역할을 한다. 이미지 데이터는 시각 전문가 네트워크, 텍스트 데이터는 언어 전문가 네트워크로 전달하는 것이 일례다. 이때 선택되지 않은 전문가 네트워크는 데이터 처리에 참여하지 않아 연산량을 대폭 줄일 수 있다. 윤 특임교수는 “라우팅 네트워크는 불필요한 연산을 줄이고 최적화된 결과를 생성할 수 있다”고 말했다.
전문가 네트워크에는 여러 개의 전문가가 존재하며, 이전 단계에서 라우팅 네트워크를 통해 선택된 전문가가 활성화돼 작업을 수행한다. 이후 여러 전문가가 출력값을 조합해 최종적으로 결과가 나오게 된다. 예를 들어 번역 모델에서는 여러 전문가가 번역한 결과를 합쳐 최상의 문장을 생성할 수 있다.
딥시크가 해결해야 할 과제
전문가들은 딥시크가 AI 산업의 발전에 크게 기여했다고 평가한다. 윤 특임교수는 “딥시크는 AI의 효율적 활용을 이끄는 중요한 기술을 제공했다”며 “앞으로 산업 전반에서 맞춤형 AI 서비스를 제공하는 모델로 더욱 발전할 것”이라고 전망했다.
그러나 딥시크는 보안 문제라는 최대의 결점을 지니고 있다. 딥시크가 『개인정보 보호법』을 준수하지 않은 것으로 드러나 지난 15일부터 우리나라에서 딥시크의 국내 서비스가 잠정 중단되기도 했다. 미국, 일본, 호주 등 해외에서도 일부 기관에서 딥시크 사용 제한이 걸리는 등 대부분의 국가는 딥시크에 대해 부정적인 입장을 고수하고 있다. 최 센터장은 “딥시크는 기술적으로 의미 있는 진보를 이뤘지만 기술적 성과가 반드시 안정적인 서비스로 이어지는 것은 아니다”라고 전했다.
*토큰 : 어휘 항목이 의미상으로 구분되는 최소 분류 단위
박석희 기자