安くなってきた中古ゲーミングノートPCを使いローカル生成AIのllama.cppをCUDAでモバイルしてみた。CPUより当然速くて快適だがバッテリー持ちが悪いのが課題。
- kapper1224
- 7564
- 6
- 1
- 11
安かったので2台目のNVIDIA CUDAマシンを買った。実験用。マウスのGTune WubiでUbuntu22.04とCUDAを入れた。 セキュアブートをOFFにするにはWindowsを起動してから回復オプションでBIOSに入らないと設定出来ない仕組み。セキュアブートをOFFにすればLinux使える pic.twitter.com/1balWla0YR
2024-03-24 07:12:25スクリーンショット pic.twitter.com/7uSmLRSwIS
2024-03-24 11:51:51早速CUDAを入れてllama.cppをCUDAで動かす こちらを参考。CUDAはコピペでOK wget developer.download.nvidia.com/compute/cuda/r… sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt update sudo apt install cuda-11-8 zhuanlan.zhihu.com/p/655365629 pic.twitter.com/yaC1bCOPQm
2024-03-24 07:27:33再起動するとCUDAが使えるのでllama.cppを入れる cmakeとbuild-essentialとgitを事前に入れておく git clone github.com/ggerganov/llam… cd llama.cpp mkdir build cd build cmake .. -DLLAMA_CUBLAS=ON cmake --build . --config Release
2024-03-24 07:30:20いつものようにコマンドラインでllama.cpp+CUDA ./bin/main -m ../../phi-2-super.Q4_K_M.gguf -p " Please write [ Hello World! ] in Java swing. ### RESPONSE: " 普通にJava Swingでプログラムを書いてくれた あまり速いとは言えないのは古い機種のせい。CPUよりかは速い。 pic.twitter.com/q28O6n032H
2024-03-24 07:40:01llama.cppにJavaとSwingでApache POIを使った鬼畜なエクセル計算プログラムを書かせる。俺なら考えたくないw pic.twitter.com/xlTTaklxMo
2024-03-24 08:09:42llama.cppとCUDAで-ngl 9999をつけたらクッソ速くなった llama_print_timings: eval time = 1679.81 ms / 123 runs ( 13.66 ms per token, 73.22 tokens per second) llama_print_timings: total time = 1805.59 ms / 143 tokens pic.twitter.com/2FshIrCns2
2024-03-25 19:16:17