|
9일 업스테이지와 플리토는 업무협력을 통해 일본어, 태국어 등 다국어 언어 데이터를 구축, 저자원 언어도 고품질 LLM을 개발할 수 있도록 기반 다지기에 나선다고 밝혔다.
구체적으로 양사는 한국어 언어모델 평가 플랫폼 'Open-Ko LLM 리더보드' 벤치마크 데이터셋을 구축하고, 다국어 LLM 리더보드를 운영할 계획이다. 또 저자원 언어 데이터 구축 및 저자원 언어 활용 LLM을 현지화하고, 기업용 LLM 구축에 따른 데이터 공급 파트너십 강화에도 나선다.
업스테이지는 이를 통해 고품질의 저자원 언어 데이터를 확보, 자사의 사전학습 LLM 솔라의 지원 언어를 더욱 확장해 동남아시아 등 다양한 지역별 언어에 특화된 맞춤형 모델을 개발하겠다는 전략이다. 솔라는 현재 한국어, 영어를 지원하며, 연내 일본어와 태국어까지 지원 언어를 확대할 예정이다.
김성훈 업스테이지 대표는 "언어모델로 촉발된 생성형 AI 열풍이 전 세계를 뒤흔들고 있는 상황에서 양질의 언어 데이터 확보는 필수적인 과제"라며 "업스테이지는 이번 플리토와의 협력을 통해 전 세계 더 많은 사람들이 생성형 AI 혁신을 경험할 수 있도록 데이터 고도화에 나설 것"이라고 밝혔다.
이정수 플리토 대표는 "저자원 언어 학습분야는 초거대언어모델 성능의 핵심 요소로 부상했다"며 "양사 협력을 통해 고품질 데이터와 고도화된 기술 간의 접목이 국내 생성형 AI 생태계에 얼마나 긍정적인 기여를 할 수 있는지 보이자고 한다"고 말했다.