[AI News] 세계 1위 오픈LLM 모델과 한글 데이터와 만남!...업스테이지, 한국어 생성AI 모델 개발 위한 생태계 구축 ‘1T 클럽’ 발족

News/AI 뉴스

[AI News] 세계 1위 오픈LLM 모델과 한글 데이터와 만남!...업스테이지, 한국어 생성AI 모델 개발 위한 생태계 구축 ‘1T 클럽’ 발족

머준 2023. 8. 18. 09:29

https://www.aitimes.kr/news/articleView.html?idxno=28722

세계 1위 오픈LLM 모델과 한글 데이터와 만남!...업스테이지, 한국어 생성AI 모델 개발 위한 생태계

이달 초 국내 AI 스타트업 업스테이지가 개발한 모델이 세계 최대 머신러닝 플랫폼 허깅페이스(HuggingFace)에서 운영하는 ‘오픈 LLM 리더보드’ 평가 점수에서 72.3점을 획득, 챗GPT의 기반인 GPT-3.5

www.aitimes.kr

[ 인사이트 ]

■ 업스테이지가 개발한 모델이 세계 최대 머신러닝 플랫폼 허깅페이스(HuggingFace)에서 운영하는 ‘오픈 LLM 리더보드’ 평가 점수에서 72.3점을 획득, 챗GPT의 기반인 GPT-3.5 성능을 뛰어넘고 1위를 차지하며, 세계 최고 오픈LLM 모델 구축으로 글로벌 AI 업계의 주목을 받고 있는 업스테이지가 ‘대한민국 LLM 독립선언’에 나선다.

■ 외국어 중심으로 학습된 빅테크의 LLM들은 한국어 실력은 물론 정서나 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗 LLM 발전에 걸림돌이 되고 있다.

■ 또한 한국어 데이터 학습량의 경우 GPT-3 기준으로 약 1억개로 비중은 0.01697%, 전체 언어 중 28위에 불과하다.

■ ‘1T 클럽’ 혜택

참여하는 파트너사에게 데이터 제공량에 비례해 API 사용료를 할인
: API 사용료 할인의 경우, 파트너사는 기여 토큰수에 비례해 업스테이지가 자체 제작하는 최고 성능의 LLM의 API를 할인된 가격에 사용, 다양한 애플리케이션에 활용할 수 있다

LLM의 API 사업으로 창출될 수익을 공유
: 업스테이지가 LLM의 API 사업으로 수익을 창출할 경우, 그 중 일부를 파트너사들과 공유하는 방안으로 운영

■ 업스테이지의 데이터의 보안과 개인정보보호

제공하는 데이터를 모델의 한글 프리트레이닝(pre-training) 학습 용도로만 사용,
일반적인 지식과 글 요약, 정리 등의 능력만 가지게 되고,
원문 추출은 불가능하도록 운용할 계획
탈옥방지(Jailbreak Check) 기술을 통해 원문 유출을 원천적으로 차단할 계획