ChatGPT の何が恐ろしいかって、英語に比べて日本語が経済的に不利なこと。 英語は単語数で課金される一方、日本語だと文字数で課金されるので、同じ情報量で倍くらいコストがかかる。 もしこのままのビジネスモデルで支配されたら、日本語は淘汰されるんじゃないか? pic.twitter.com/e01DPSkyIe
2023-01-24 23:10:32Q. えっ、GPT ではトークナイズするときに形態素解析してないの? A. してません。詳しくは ChatGPT に聞いてみてください。 beta.openai.com/tokenizer
2023-01-25 12:24:17@amachino API連携させて、 日本語→英語変換(deep L)→ chatgpt → 英語解答 → 日本語変換 みたいなふうにしたらトータル安くなりますかね?笑
2023-01-25 06:14:37日本語 も 文法的に スペースを 入れれば 同じ ように 処理 できるの では? twitter.com/amachino/statu…
2023-01-25 12:37:33「ぁー」と「そうなのか」の気持ち。 もし課金運用しなくてはいけないケースでは、API通す事前事後に翻訳するとかになるのかな? twitter.com/amachino/statu…
2023-01-25 14:21:59確かに英語はスペースでsplitすれば楽だけど、日本語とかどこで区切ればいいか判定するの難しいし単語より文字数になるだろうな twitter.com/amachino/statu…
2023-01-25 14:26:28短いプロンプトでAIに質問を投げる専門職『ショートプロンプター』が1社に一人いる未来 twitter.com/amachino/statu…
2023-01-25 12:21:30日本語はTwitterで有利だったから…
※現在は英語の制限は280字に変更されているはず
その理論で言ったらバイト数で140という制限のツイッターでは日本語が有利なんだよね。 twitter.com/amachino/statu…
2023-01-25 12:52:02英語で書けばいいのかな
自動翻訳を使って、日本語で入力したものを自動で英語に変えてからChatGPTに放り込むツールがあると良さそうですね。 twitter.com/amachino/statu…
2023-01-25 06:55:57これは大事なポイント。自分もGPT3使うときは英語で運用してから、別途翻訳するか英文ですますことが多い。SNS投稿はChatGPTの日本語とか使うけども。 twitter.com/amachino/statu…
2023-01-25 12:14:06漢字には英単語くらいの情報が詰まっているので漢字を多様して対策しましょう。 魚=fish twitter.com/amachino/statu…
2023-01-25 09:47:22これは他のモデルも大抵一緒で言語モデルの研究としても一見不利に見えるんだけど、 言語により1文字(1トークン)の情報量が全然違うという話もあって、一般に漢字圏は密度が高いと言われるので一概には不利とは言えないという話とは思う まぁ英中に比べ研究者が少ない、資金が少ないという問題は… twitter.com/amachino/statu…
2023-01-25 10:31:58うーん、意味レベルでトークンは分けて欲しいですね… 言語の淘汰が経済だけで決まって欲しくない感 twitter.com/amachino/statu…
2023-01-25 12:07:14言語間の情報量の差なんてNLPの典型的な問題例だと思うんですけど、それに対処するのをさぼっているか知識がないということなんですかね。結局彼らは文字列を触っているだけで言語を扱っているわけではないということじゃないかしら。 twitter.com/amachino/statu…
2023-01-25 03:54:58日本語は文字数課金ですか。 個人的な主観なのですが、中国語は名詞を除きだ1文字が1単語が多いのが影響しているかも知れないなぁ。 残念だけど日本人より中国人の方を向いているのかも知れない。 twitter.com/amachino/statu…
2023-01-25 12:41:08