安くなってきた中古ゲーミングノートPCを使いローカル生成AIのPowerInferをCUDAでオフロード爆速化?GPUメモリを超えたモデルを動作。モデルサイズが大きいと遅くなるが快適に使うには量子化Q4がキー

PowerInferを試してみました。少ないGPUメモリを有効活用して大きなモデルのLLMを高速化します。モデルデータが大きすぎると一気に遅くなりますがGPU使っています。やはりサイズを小さくする量子化が効果的。PowerInfer対応モデルに日本語使えるものが無いのが残念ですが
10
Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224

折角NVIDAとCUDAを使える様になったので、高速LLM本命のPowerInferを使う 果たして6GBでまともに動くのだろうか インストールはCUDAを入れてから git clone github.com/SJTU-IPADS/Pow… cd PowerInfer pip install -r requirements.txt 続く pic.twitter.com/lclddmOTFj

2024-03-26 02:27:05
拡大
Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224

安かったので2台目のNVIDIA CUDAマシンを買った。実験用。マウスのGTune WubiでUbuntu22.04とCUDAを入れた。 セキュアブートをOFFにするにはWindowsを起動してから回復オプションでBIOSに入らないと設定出来ない仕組み。セキュアブートをOFFにすればLinux使える pic.twitter.com/1balWla0YR

2024-03-24 07:12:25
拡大
Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224

PythonヘルパーをPowerInferに入れたらcmake cmake -S . -B build -DLLAMA_CUBLAS=ON cmake --build build --config Release で実行する。初回はだいぶ待たされる でOut of memory どうやらメモリを使い切って振り切れる仕様らしい pic.twitter.com/OYI90p7SnS

2024-03-26 02:30:01
拡大
Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224

PowerInferの読むとメモリが少ない場合はオプションをつける必要。 そういえばモデルは16GBで16bit。GPUメモリよりとても大きい /build/bin/main -m ../llama-7b-relu.powerinfer.gguf -p "### Please write sourcecode [Hello World] in python. ### RESPONSE:" -n 128 -t 8 --vram-budget 5 遅い pic.twitter.com/YKFsdjS9AL

2024-03-26 02:34:50
拡大
拡大
Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224

PowerInferがちゃんと動いたのは確認できたが遅い 殆どCPUである。メモリ全然足りてないし Q4にモデルを量子化する ./build/bin/quantize ../llama-7b-relu.powerinfer.gguf ../llama-7b-relu.powerinfer-Q4.gguf Q4_0 モデル容量が激減した。15.1GB→4.3GB これならいけるだろう。 pic.twitter.com/w54Y5LSdj5

2024-03-26 02:39:09
拡大
Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224

PowerInferにモデルをQ4量子化して再び推論 ./build/bin/main -m ../llama-7b-relu.powerinfer-Q4.gguf -p "### Please write sourcecode [Hello World] in Java swing. ### RESPONSE:" -n 128 -t 8 --vram-budget 5 --disable-gpu-index 爆速化した。 total VRAM used: 1964.43 MB pic.twitter.com/avShx7TprA

2024-03-26 02:41:55
拡大