ChatGPTは英語だと単語数で課金されるが日本語だと文字数で課金されるので経済的に不利なのではないかという話

30
Akinori Machino @amachino

ChatGPT の何が恐ろしいかって、英語に比べて日本語が経済的に不利なこと。 英語は単語数で課金される一方、日本語だと文字数で課金されるので、同じ情報量で倍くらいコストがかかる。 もしこのままのビジネスモデルで支配されたら、日本語は淘汰されるんじゃないか? pic.twitter.com/e01DPSkyIe

2023-01-24 23:10:32
拡大
拡大
拡大
Akinori Machino @amachino

Q. えっ、GPT ではトークナイズするときに形態素解析してないの? A. してません。詳しくは ChatGPT に聞いてみてください。 beta.openai.com/tokenizer

2023-01-25 12:24:17
リンク beta.openai.com OpenAI API An API for accessing new AI models developed by OpenAI 51 users 8220
リンク Wikipedia 形態素解析 形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先 198 users 5
MASA-chaussettes @Marthur5884

@amachino 情報を詰め込む方法をchatgptに聞かなきゃ

2023-01-25 09:30:21
けんたろー@あどあふぃりえいと @110banHakken

@amachino API連携させて、 日本語→英語変換(deep L)→ chatgpt → 英語解答 → 日本語変換 みたいなふうにしたらトータル安くなりますかね?笑

2023-01-25 06:14:37
博士(雲) @abhphy

日本語 も 文法的に スペースを 入れれば 同じ ように 処理 できるの では? twitter.com/amachino/statu…

2023-01-25 12:37:33
muu @muumuunimuu

「ぁー」と「そうなのか」の気持ち。 もし課金運用しなくてはいけないケースでは、API通す事前事後に翻訳するとかになるのかな? twitter.com/amachino/statu…

2023-01-25 14:21:59
latextex @hanyingcl

確かに英語はスペースでsplitすれば楽だけど、日本語とかどこで区切ればいいか判定するの難しいし単語より文字数になるだろうな twitter.com/amachino/statu…

2023-01-25 14:26:28
0x3dc9 @0x3dc9

短いプロンプトでAIに質問を投げる専門職『ショートプロンプター』が1社に一人いる未来 twitter.com/amachino/statu…

2023-01-25 12:21:30

日本語はTwitterで有利だったから…

※現在は英語の制限は280字に変更されているはず

尻P(野尻抱介) @nojiri_h

Twitterの文字数・情報量比で得していたツケがまわってきた。 twitter.com/amachino/statu…

2023-01-25 12:21:16
白いルイス @whiteknight6569

その理論で言ったらバイト数で140という制限のツイッターでは日本語が有利なんだよね。 twitter.com/amachino/statu…

2023-01-25 12:52:02
めんどうゆっくり @menndouyukkuri

まあ文字数なら英語が圧倒的不利になるんだけどな。 twitter.com/amachino/statu…

2023-01-25 11:41:30

英語で書けばいいのかな

じゅくのせんせー @jukunosense

やっぱり基本は英語で、必要なときのみ日本語を使うのが最強😼 twitter.com/amachino/statu…

2023-01-25 08:59:01
やのせん@VR/メタバース教育 @yanosen_jp

自動翻訳を使って、日本語で入力したものを自動で英語に変えてからChatGPTに放り込むツールがあると良さそうですね。 twitter.com/amachino/statu…

2023-01-25 06:55:57
深津 貴之 / THE GUILD @fladdict

これは大事なポイント。自分もGPT3使うときは英語で運用してから、別途翻訳するか英文ですますことが多い。SNS投稿はChatGPTの日本語とか使うけども。 twitter.com/amachino/statu…

2023-01-25 12:14:06
ジョンお姉さんⅢ @D7yc2uRgH2UV7Fe

漢字には英単語くらいの情報が詰まっているので漢字を多様して対策しましょう。 魚=fish twitter.com/amachino/statu…

2023-01-25 09:47:22
🐾 @h2rlet

これは他のモデルも大抵一緒で言語モデルの研究としても一見不利に見えるんだけど、 言語により1文字(1トークン)の情報量が全然違うという話もあって、一般に漢字圏は密度が高いと言われるので一概には不利とは言えないという話とは思う まぁ英中に比べ研究者が少ない、資金が少ないという問題は… twitter.com/amachino/statu…

2023-01-25 10:31:58
t長谷川 @t_hasegawa_DS

うーん、意味レベルでトークンは分けて欲しいですね… 言語の淘汰が経済だけで決まって欲しくない感 twitter.com/amachino/statu…

2023-01-25 12:07:14
Odashi @odashi_t

言語間の情報量の差なんてNLPの典型的な問題例だと思うんですけど、それに対処するのをさぼっているか知識がないということなんですかね。結局彼らは文字列を触っているだけで言語を扱っているわけではないということじゃないかしら。 twitter.com/amachino/statu…

2023-01-25 03:54:58
Reiki Hattori@💉(P,P,M,M2)接種済 @srvhat09

日本語は文字数課金ですか。 個人的な主観なのですが、中国語は名詞を除きだ1文字が1単語が多いのが影響しているかも知れないなぁ。 残念だけど日本人より中国人の方を向いているのかも知れない。 twitter.com/amachino/statu…

2023-01-25 12:41:08