3月26日

安くなってきた中古ゲーミングノートPCを使いローカル生成AIのPowerInferをCUDAでオフロード爆速化？GPUメモリを超えたモデルを動作。モデルサイズが大きいと遅くなるが快適に使うには量子化Q4がキー

PowerInferを試してみました。少ないGPUメモリを有効活用して大きなモデルのLLMを高速化します。モデルデータが大きすぎると一気に遅くなりますがGPU使っています。やはりサイズを小さくする量子化が効果的。PowerInfer対応モデルに日本語使えるものが無いのが残念ですが

生成AI ログ Linux レビュー実況ネタ大規模言語モデル CUDA PowerInfer テクノロジー

kapper1224
2711
16
1
15

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224

折角NVIDAとCUDAを使える様になったので、高速LLM本命のPowerInferを使う果たして6GBでまともに動くのだろうかインストールはCUDAを入れてから git clone github.com/SJTU-IPADS/Pow… cd PowerInfer pip install -r requirements.txt 続く pic.twitter.com/lclddmOTFj

2024-03-26 02:27:05

拡大

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224

安かったので2台目のNVIDIA CUDAマシンを買った。実験用。マウスのGTune WubiでUbuntu22.04とCUDAを入れた。セキュアブートをOFFにするにはWindowsを起動してから回復オプションでBIOSに入らないと設定出来ない仕組み。セキュアブートをOFFにすればLinux使える pic.twitter.com/1balWla0YR

2024-03-24 07:12:25

拡大

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224

スクリーンショット pic.twitter.com/7uSmLRSwIS

2024-03-24 11:51:51

拡大

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224

PythonヘルパーをPowerInferに入れたらcmake cmake -S . -B build -DLLAMA_CUBLAS=ON cmake --build build --config Release で実行する。初回はだいぶ待たされるでOut of memory どうやらメモリを使い切って振り切れる仕様らしい pic.twitter.com/OYI90p7SnS

2024-03-26 02:30:01

拡大

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224

PowerInferの読むとメモリが少ない場合はオプションをつける必要。そういえばモデルは16GBで16bit。GPUメモリよりとても大きい /build/bin/main -m ../llama-7b-relu.powerinfer.gguf -p "### Please write sourcecode [Hello World] in python. ### RESPONSE:" -n 128 -t 8 --vram-budget 5 遅い pic.twitter.com/YKFsdjS9AL

2024-03-26 02:34:50

拡大

拡大

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224

PowerInferがちゃんと動いたのは確認できたが遅い殆どCPUである。メモリ全然足りてないし Q4にモデルを量子化する ./build/bin/quantize ../llama-7b-relu.powerinfer.gguf ../llama-7b-relu.powerinfer-Q4.gguf Q4_0 モデル容量が激減した。15.1GB→4.3GB これならいけるだろう。 pic.twitter.com/w54Y5LSdj5

2024-03-26 02:39:09

拡大

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224

PowerInferにモデルをQ4量子化して再び推論 ./build/bin/main -m ../llama-7b-relu.powerinfer-Q4.gguf -p "### Please write sourcecode [Hello World] in Java swing. ### RESPONSE:" -n 128 -t 8 --vram-budget 5 --disable-gpu-index 爆速化した。 total VRAM used: 1964.43 MB pic.twitter.com/avShx7TprA

2024-03-26 02:41:55

拡大

いま話題のタグ