hyperrealistinen kuva silikonisuulakkeesta, jossa on lisätty syvyyttä ja elävä violetti sävy

AI-mallin VRAM-vaatimukset eri GPU-kokoonpanoissa

AI-mallin VRAM-vaatimukset eri GPU-kokoonpanoissa

Tämä taulukko tarjoaa yleiskatsauksen likimääräisistä mallikooista (miljardeina parametreina), joita voidaan käyttää eri VRAM-kokoonpanoissa, sekä esimerkkejä tunnetuista malleista. Huomaa, että nämä ovat arvioita ja voivat vaihdella tiettyjen toteutusten, arkkitehtuurien ja optimointien mukaan.

VRAM (GB) FP32 FP16/BF16 INT8 INT4 INT2 Esimerkkimallit
16 3-4B 6-8B 12-16B 24-32B 48-64B GPT-2 (1.5B), BERT-Large (340M)
24 5-6B 10-12B 20-24B 40-48B 80-96B GPT-J (6B), BLOOM-7B1
48 10-12B 20-24B 40-48B 80-96B 160-192B T5-11B, BLOOM-7B1 (FP32)
80 18-20B 36-40B 72-80B 144-160B 288-320B GPT-NeoX-20B, BLOOM-176B2
96 22-24B 44-48B 88-96B 176-192B 352-384B BLOOM-176B2, Jurassic-1 Jumbo (178B)2
128 30-32B 60-64B 120-128B 240-256B 480-512B GPT-3 175B2, PaLM 540B2
160 38-40B 76-80B 152-160B 304-320B 608-640B PaLM 540B2, Megatron-Turing NLG 530B2
192 46-48B 92-96B 184-192B 368-384B 736-768B BLOOM-176B (FP16)
256 62-64B 124-128B 248-256B 496-512B 992-1024B GPT-3 175B (INT8), LLaMA 2 70B (FP32)
320 78-80B 156-160B 312-320B 624-640B 1248-1280B Chinchilla 70B (FP32)
384 94-96B 188-192B 376-384B 752-768B 1504-1536B PaLM 540B (INT8)
512 126-128B 252-256B 504-512B 1008-1024B 2016-2048B GPT-3 175B (FP16), BLOOM-176B (FP32)

Huomautuksia:

  1. Voi ajaa täydellä tarkkuudella (FP32)
  2. Edellyttää kvantisointia tai muita optimointitekniikoita

Muita huomioita:

  • Näissä arvioissa oletetaan, että koko VRAM on mallin käytettävissä, mikä ei useinkaan pidä paikkaansa käytännössä, koska kehys, käyttöjärjestelmä ja muut prosessit käyttävät muistia.
  • Mallin rinnakkaisuus ja muut edistyneet tekniikat voivat mahdollistaa jopa suurempien mallien käyttämisen jakamalla ne useille grafiikkasuorituksille.
  • Päättäminen vaatii yleensä vähemmän muistia kuin harjoittelu, joten suurempia malleja voidaan usein käyttää päätelmien tekemiseen pienemmissä VRAM-kokoonpanoissa.
  • Tarkat koot voivat vaihdella malliarkkitehtuurin, toteutustietojen ja käytettävien erityisten optimointien mukaan.

Keskeiset ostokset:

  1. 16-24 Gt VRAM: Sopii useimpiin kuluttajatason tekoälytehtäviin ja pienempiin tutkimusmalleihin.
  2. 48–96 Gt VRAM: Mahdollistaa työskentelyn keskisuurten ja suurten mallien kanssa, joita käytetään usein ammatti- ja tutkimusympäristöissä.
  3. 128-256 Gt VRAM: Mahdollistaa joidenkin suurimpien julkisesti saatavilla olevien mallien käytön erilaisilla optimoinnilla.
  4. 320-512 Gt VRAM: Tarjoaa kapasiteetin suurimmille nykyisille malleille ja tulevalle kehitykselle, joka usein saavutetaan usean grafiikkasuorittimen asetuksilla.

Tämä taulukko osoittaa kvantisoinnin ja muiden optimointitekniikoiden merkittävän vaikutuksen mahdollistaessaan suurempien mallien käytön rajoitetulla VRAM-muistilla. Tekoälyn edistyessä voimme odottaa mallien pakkaamisen ja muistitehokkaiden arkkitehtuurien uusien innovaatioiden työntävän näitä rajoja entisestään.

Ja odota... Se ei lopu muuntajiin...

Takaisin blogiin