Prompt caching

Prompt caching · Tekoäly

Lyhyesti

Malli- tai palvelutason välimuisti toistuviin promptikutsuihin.

Prompt caching tarkoittaa, että usein toistuvat syotteet tai niiden osat kaytetaan valimuistista, jolloin vastausaika lyhenee ja kustannus pienenee. Erityisen hyodyllista se on, kun samaa runkopyyntoa kaytetaan eri syotearvoilla. Sisaltotuotannossa ja automatisoiduissa pipelineissa caching voi olla merkittava optimointi.

Esimerkkejä

Sama system prompt kaytetaan tuhansissa pyynnoissa

Sivupohjan vakiokysymykset cachetetaan

Kustannus laskee, kun toistuva osa ei lasketa aina uudelleen