【実践データ分析】<自然言語処理(ノック91-100)>まとめ

Dataikuを活用した自然言語処理(LLM) 【含まれる要素】 ・文書/アンケートの取込み ・テキストデータの前処理 - 欠損データの処理 続きを読む
3
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理🆕> ノック91:街作りに関するアンケート結果の取込&欠損値処理 ・NLPの機能を活用したアンケート分析 ・ChatGPT等も利用して世の中でホットな分析を進めます →ラスト10本は、注目度の高い技術盛り沢山なので、是非参考にして下さい🙌 #dataiku #機械学習 #AI pic.twitter.com/2Ia78s0qGn

2023-10-13 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック92:不要な文字除外 ・"AA"という特定文字の除外 ・正規表現を利用した"()""()"の除外 →PrepareレシピでStringの各種処理はノーコードでdone →正規表現など、汎用的な技術が使えるのが良い所です👍 #dataiku #機械学習 #AI pic.twitter.com/kMcwYPGWUu

2023-10-14 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック93:文字数のカウントとヒストグラム表示 ・アンケートの長短把握のために文字数をカウント ・長さの全体像をヒストグラムで確認 →Prepareレシピで全て完了しました...! →Chartもすぐに作成done(10-15文字辺りにピークあり) #dataiku #機械学習 #AI pic.twitter.com/R6DDA06AMb

2023-10-15 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック94:形態素解析 [大注目]GA前の新機能活用(日本初公開?) ・形態素解析による語句分割 ・新機能のPrompt studioにてGPT処理を実施 ・outputで分割語句をデータセットで取得 →各エンジンがついにフローに組み込まれます🙌 #dataiku #機械学習 #AI #ChatGPT pic.twitter.com/5MKRcW0Wbg

2023-10-16 08:02:17
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック95:形態素解析で名詞・動詞を抽出 ・前回形態素解析をChatGPTに任せました ・jsonでアウトプットした形態素と語句を分かりやすくデータセットに表示 →Prepareレシピのリコメンドに従っていたら綺麗なデータセットになりました👏 #dataiku #機械学習 #AI pic.twitter.com/UmZ5EqK1dt

2023-10-17 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック96:口コミからの頻出名詞の確認 ・同一語句のグループ化とカウント ・ChatGPTで言語処理した後に集計などのデータ処理をシームレスにできる重要性・便利さを実感・・・ →Groupレシピで一発で頻出単語を抽出できました🙂 #dataiku #機械学習 #AI #ChatGPT pic.twitter.com/RdVTBcIwq6

2023-10-18 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック97:不要ワードの除去 ・頻出名詞は前回確認できましたが、不要そうなワードを削除 →Prepareレシピで削除すれば、確からしいワードだけ抽出も可能です。本ノックは良い事なのですが、超シンプルに終えてしまいました・・・ #dataiku #機械学習 #AI #ChatGPT pic.twitter.com/C0cYMmVvCy

2023-10-19 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック98:顧客満足度と頻出単語の関係 ・単語を含む口コミの顧客満足度平均を算出 ・3件以上に含まれる単語の中で、顧客満足度の高いものを抽出 →Groupレシピ&フィルタですぐに抽出。子育て/安心などの重要性が見て取れました! #dataiku #機械学習 #AI pic.twitter.com/F8LRt8HZYr

2023-10-20 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック99:アンケートの特徴表現 ・"ノック100にて類似アンケートを探す"ための前処理 ・同一の文章に単語が含まれるかをリスト化(駅前/若者は一緒に登場など) →Dataikuで文章の類似度を評価する便利プラグインがあるので割愛します🙌 #dataiku #機械学習 #AI

2023-10-21 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理> ノック100:類似アンケート探索① ・文章間の類似度の計算 ・word2vecの活用/文章翻訳 ・コサイン距離での相関計算 →色々試したので、Tweet分けます🧑‍🏭 →今回は「word2vecのpre-trainedモデルの組込み」と、「英語翻訳」を実施します🆕 #dataiku #機械学習 #AI pic.twitter.com/ooQshJyoiP

2023-10-22 07:45:00
Fumihiko Kimura @Fumihiko__K

【実践データ分析②】 <自然言語処理🔚> ノック100:類似アンケート探索② ・比較する文章の準備 ・文章間の類似度計算 →前日のTweetとセットです🧑‍🏭 →英語の方が精度が高そうでしたので、文章間の比較は英語で実施 →翻訳前の日本語を残せて無問題&似た文章を抽出できてそう👏 #dataiku #機械学習 #AI pic.twitter.com/sUgOC8McT9

2023-10-23 07:45:00