CPUだけでも使えるフリーの量子化省メモリローカルLLMのllama.cppを入れて賢いデータセットでJava,PythonプログラムをAIに書かせてみた。オフラインでも使える。ジャンクノートPCでおけ。LLM禁止職場に最適。大変素晴らしい。メモリは8〜16GB程度必要。NetBSDでもビルド出来た

CPUでも量子化したデータセットを使えるLLMのllama.cpp。とても高性能。特にARM Macbookでお薦め。日本語可。量子化でメモリ削減したが、CPU負荷はかかるので処理は遅め。賢いデータセットを使えるので便利
17
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

LLMのllama.cppをCPUでローカルAI推論させて、「What is the NetBSD?」を回答させてみた。 結構良く出来ている。凄いね。 pic.twitter.com/aEljwj1qje

2023-11-19 18:56:27
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppのインストールはこちらを参考に。先駆者に感謝。ただ一つだけ注意があってbinファイルはCPUでは使えなくてGGUFファイルを読み込めるので気をつけること。 Llama.cpp で Llama 2 を試す note.com/npaka/n/n0ad63…

2023-11-19 21:18:56
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppのインストールは簡単 git clone github.com/ggerganov/llam… cd llama.cpp make python3 -m pip install -r requirements.txt

2023-11-19 21:27:10
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppの必要なライブラリを入れたらモデルをダウンロード Swap含めメモリが9GBあるという前提で Nanbeige-16B-Base-32K-GGUF をダウンロードしてllama.cpp/modelsに保存 huggingface.co/TheBloke/Nanbe…

2023-11-19 21:37:23
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppで推論する時は ./main -m models/nanbeige-16b-chat-32k.Q4_K_M.gguf -p "### Instruction: NetBSDが対応しているアーキテクチャを教えて下さ い### RESPONSE:"

2023-11-19 21:49:32
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppでPythonのHello Worldを書かせてみた。 簡単なコードをちゃんと返してくる pic.twitter.com/0ch9hrOpTY

2023-11-20 06:14:17
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppでJava SwingでHello World GUIがセットだとやや面倒くさいがちゃんとソースコードを書いてくれる pic.twitter.com/jKZpWTo5M2

2023-11-20 06:22:21
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppにCPUでローカルAI推論。今度は日本語で「NetBSDについて説明して下さい」。スピードは激遅だけどちゃんと日本語で返してきた。面白い pic.twitter.com/T41nBtqfus

2023-11-19 19:01:02
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

ここのGGUFファイルをllama.cppで使えるらしいけど、CPUでも量子化された小さくしたモデルが使えるんで賢い。ただしCPU負荷は大きいので遅いが・・・ 遅さを我慢すればGPUじゃないと出来ないLLMがCPUだけでも出来てしまうという事が凄いllama.cpp huggingface.co/TheBloke pic.twitter.com/yU5K7a6JjV

2023-11-19 19:22:19
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

ひょっとして4ビット量子化したモデルをCPUでも16Bとか動かせてしまうのか?llama.cpp ネカフェでモデルをダウンロードしまくり。ワラワラ

2023-11-19 19:23:49
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppで16Bを8bit量子化したモデルがあまりに重たいので4bit量子化したモデルでもう一度質問。 質問の意図がずれている回答。レベルが落ちたな。 もう一度やってみようか pic.twitter.com/vWqxFcDlhP

2023-11-19 19:37:12
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

llama.cppで繰り返し質問してみる。やっぱり16Bは賢いな。ちゃんと日本語で返してくる。 これメモリあれば70Bとかいけるんかな?うちのジャンクPCでも・・・ pic.twitter.com/MM6XUGGTKH

2023-11-19 19:47:35
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

ここのllama.cppの日本語モデルいいね。 どうせなら13B〜34Bクラスも欲しいけど・・・ さらにアレとかコレとか学習させてガジェットハック日本語モデル作りたいぜ(ぉぃ huggingface.co/mmnga pic.twitter.com/diN6Sgap7r

2023-12-03 11:44:37
拡大
Kapper@Linuxガジェヲタ&異世界小説家&電子工作大好き @kapper1224

そういえば本家llama.cppもcmake使っているからNetBSDで簡単にビルド出来た。 ローカルLLMも完璧 git clone github.com/ggerganov/llam… cd llama.cpp mkdir build cd build cmake .. cmake --build . --config Release pic.twitter.com/QzOB4k4NE4

2024-02-03 22:50:14
拡大