Token

Token · Tekoäly

Lyhyesti

Tekstin pienin yksikkö jonka tekoäly käsittelee kerrallaan, esimerkiksi sana tai sanan osa.

Token on pienin yksikkö jonka tekoäly käsittelee kerrallaan — se voi olla sana, sanan osa tai erikoismerkki. Englannissa yksi sana on tyypillisesti 1-2 tokenia, suomessa usein enemmän koska sanat ovat pidempiä. Vibekoodauksessa tokeneita kannattaa ymmärtää kahdesta syystä: konteksti-ikkuna mitataan tokeneissa (esim. 128K tokenia = noin 100K sanaa) ja monissa palveluissa laskutetaan tokenien mukaan. Kun työskentelet ison koodikannan kanssa, tokeniraja voi tulla vastaan — silloin kannattaa antaa tekoälylle vain relevantit tiedostot koko projektin sijaan.

Esimerkkejä

"Hello world" = noin 2 tokenia, "Hei maailma" = noin 3 tokenia

Claude 3.5 Sonnetin konteksti-ikkuna on 200K tokenia

Pitkä kooditiedosto voi kuluttaa tuhansia tokeneita kontekstista

Suomen kielen pitkät sanat kuluttavat enemmän tokeneita kuin englanti