친칠라 AI
Chinchilla AI친칠라 AI는 2022년 3월에 발표된 [1]딥마인드의 연구팀이 개발한 대형 언어 모델 계열입니다."친칠라"라는 이름은 이전 모델 패밀리 "고퍼"보다 더 발전했기 때문입니다.두 모델 제품군 모두 큰 언어 [2]모델의 스케일링 법칙을 조사하기 위해 훈련되었습니다.
그것은 GPT-3보다 성능이 뛰어나다고 주장했습니다.
추론과 미세 조정을 위해 훨씬 적은 컴퓨터 전력이 필요하기 때문에 다운스트림 활용을 상당히 단순화합니다.이전에 사용된 언어 모델의 교육을 기반으로 모델 크기를 두 배로 늘리면 교육 토큰의 수도 두 배가 되어야 한다고 판단했습니다.이 가설은 딥마인드가 친칠라 AI를 훈련시키는 데 사용되었습니다.비용 면에서 고퍼와 유사하게 친칠라 AI는 70B 매개변수와 [3]4배의 데이터를 가지고 있습니다.
친칠라 AI는 MMLU 벤치마크(Measuring Multitask Language Understanding)에서 평균 67.5%의 정확도를 보이며 고퍼의 성능보다 7% 더 높습니다.친칠라 AI는 2023년 [4]1월 12일 현재 여전히 테스트 단계에 있습니다.
Chinchilla AI는 제한된 컴퓨팅 리소스로 대규모 자동 회귀 언어 모델을 위한 효과적인 교육 패러다임을 개발하는 데 기여합니다.Chinchilla 팀은 모델 크기가 두 배로 증가할 때마다 교육 토큰의 수가 두 배가 될 것을 권장합니다. 즉, 더 크고 고품질의 교육 데이터 세트를 사용하면 다운스트림 [5][6]작업에서 더 나은 결과를 얻을 수 있습니다.
건축
고퍼 패밀리와 친칠라 패밀리는 모두 트랜스포머 모델의 패밀리입니다.
특히, 그것들은 크기가 다르고 약간의 수정이 있는 GPT-2와 본질적으로 같습니다.Gopher 제품군은 LayerNorm 대신 RMSNorm을 사용합니다. 절대 위치 인코딩이 아닌 상대 위치 인코딩입니다.Chinchilla 패밀리는 Gopper 패밀리와 동일하지만 Adam Optimizer 대신 Adam W와 함께 훈련했습니다.
Gopher 제품군은 4,400만 매개 변수에서 2,800억 매개 변수로 크기가 증가하는 6가지 모델을 포함합니다.그들은 기본적으로 가장 큰 것을 "고퍼"라고 부릅니다.비슷한 명명 규칙이 친칠라과에도 적용됩니다.
의 표 1은 전체 고퍼 계열을 보여줍니다.
파라미터수 | 레이어 | 헤드 수 | 키/값 크기 | 내부 치수 | 최대 학습률 | 배치 크기 |
---|---|---|---|---|---|---|
44M | 8 | 16 | 32 | 512 | 6 x 10-4 | 0.25M |
117M | 12 | 12 | 64 | 768 | 6 x 10-4 | 0.25M |
417M | 12 | 12 | 128 | 1,536 | 2 × 10-4 | 0.25M |
1.4B | 24 | 16 | 128 | 2,048 | 2 × 10-4 | 0.25M |
71B | 32 | 32 | 128 | 4,096 | 1.2 x 10-4 | 2M |
고퍼 280B | 80 | 128 | 128 | 16,384 | 4 × 10-5 | 3M → 6M |
의 표 4는 700억 개의 변수를 가진 친칠라와 고퍼 280B를 비교합니다.
파라미터수 | 레이어 | 헤드 수 | 키/값 크기 | 내부 치수 | 최대 학습률 | 배치 크기 |
---|---|---|---|---|---|---|
고퍼 280B | 80 | 128 | 128 | 16,384 | 4 × 10-5 | 3M → 6M |
친칠라 70B | 80 | 64 | 128 | 8,192 | 1 × 10-4 | 1.5M → 3M |
레퍼런스
- ^ a b Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (2022-03-29). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL].
- ^ a b Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (2022-01-21). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446 [cs.CL].
- ^ "What Is Chinchilla AI: Chatbot Language Model Rival By Deepmind To GPT-3 - Dataconomy". January 12, 2023.
- ^ Hendrycks, Dan (2023-03-14), Measuring Massive Multitask Language Understanding, retrieved 2023-03-15
- ^ Chaithali, G. (April 9, 2022). "Check Out This DeepMind's New Language Model, Chinchilla (70B Parameters), Which Significantly Outperforms Gopher (280B) and GPT-3 (175B) on a Large Range of Downstream Evaluation Tasks".
- ^ Wali, Kartik (April 12, 2022). "DeepMind launches GPT-3 rival, Chinchilla". Analytics India Magazine.