第78回R勉強会@東京まとめ

4

初心者セッション

初心者セッション1 – R基礎〜データ読み込み –

カミケ @KKami1115

csvとxlsxとtxt(タブ区切り)とtxt(セミコロン区切り)がごっちゃになってるヤツ #TokyoR

2019-05-25 14:40:11
data_sciesotist @data_sciesotist

「プロジェクト」とは、分析で使用するデータ、プログラム、アウトプットのグラフ、レポートなどを1つのフォルダでまとめて管理するための仕組み、Gitによるバージョン管理もできて便利。 #tokyor

2019-05-25 14:44:42
カミケ @KKami1115

RStudioのproject,今まで何を保存してるか確認してなかったけどそんなやってくれるのか #TokyoR

2019-05-25 14:46:04
data_sciesotist @data_sciesotist

「パッケージ」とは、Rの拡張機能のことで、有志が作成し公開している。様々な分析手法を追加することができる。多くのパッケージはCRANというサイトに登録されており、Rからinstall.packages()関数でダウンロード、インストールできる。使用するにはlibrary() 関数で読み込む。 #tokyor

2019-05-25 14:47:15
data_sciesotist @data_sciesotist

「Factor型」とは、カテゴリデータのためのデータ型。「男性・女性」や「購入・非購入」など単なる文字列ではなくカテゴリとして扱いたいデータをFactor型にする。文字列をFactor型に変換するにはfactor(), as.factor()関数、Factor型を文字列に変換するにはas.character()関数などを使う。 #tokyor

2019-05-25 14:51:30
atusy @Atsushi776

data.table はとっつきにくいけど、ガチ勢なら読み込みだけじゃなくて整形や集計も高速になるらしい。Rプログラミング本格入門の著者のレンクンさんも、速度重視なら data.table オススメしてたはず。 #TokyoR

2019-05-25 14:52:38
Tom Kelly ケリー・トム @tomkXY

Introductory topics at #TokyoR. @y__mattu is covering the basics for new members (in Japanese). Good introduction to @RStudio “Projects” feature: a great way to manage different sessions and quick set up #Rstats packages, #RShiny Apps, for and #git repos. pic.twitter.com/36U4Wea2W2

2019-05-25 14:52:59
拡大
data_sciesotist @data_sciesotist

Rには標準でCSVファイルなどを読み込むread.csv()関数などがあるが、巨大なデータを読み込む際の性能、列の型判定において不便な面がある。そこで、より便利なデータ読み込みを行うためのパッケージとしてreadrパッケージなどがある。install.packages("readr") でインストールする。 #tokyor

2019-05-25 14:55:11
カミケ @KKami1115

読む方ならreadxlなんですが書く方がopenxlsxにしか無いのが,現場を分かってないという感じがする(上から目線) #TokyoR

2019-05-25 14:57:09
カミケ @KKami1115

Windows(というかMicrosoft)がどうやってCP932にたどり着いたのかを調べると涙が止まらない #TokyoR

2019-05-25 14:59:24
atusy @Atsushi776

フツーは readr パッケージ含む tidyverse パッケージ郡が速度・利便性のバランスで最強。 ただ、maditr パッケージは data.table をパイプフレンドリーにしてくれるらしいので、いつかベンチマークしたい。 #TokyoR

2019-05-25 15:00:48
コダchan @kodachan_

全てUTF8になってくれないかな... #TokyoR

2019-05-25 15:00:50
Tom Kelly ケリー・トム @tomkXY

@y__mattu I recommend data.table::fread “fast read” as well. It’s not just fast—it’s convenient. Many file formats detected automatically and imported into #Rstats. The #tidyverse readr functions are great for xls. Check if imported as data frame, data table, or #tibble. #TokyoR pic.twitter.com/IhhEb0X2rE

2019-05-25 15:03:14
拡大
Kien Y. Knot🤔 @0_u0

readrぱっけぇじ、パスが日本語だと「オッラーン?」つってくることがある(JTC特有) #TokyoR

2019-05-25 15:03:41

初心者セッション3 - Plot & Visualization -

Kien Y. Knot🤔 @0_u0

今日のテーマは「いい感じ」だったか…… #TokyoR

2019-05-25 15:07:25
data_sciesotist @data_sciesotist

データの概要を確認するには ・str(): structureの意。基本統計量や度数などが集計される ・summary(): 与えるデータによって動作が変わるが、基本的にデータを"要約"してくれる ・fivenum(): 「5数要約」をする。最小値、第1四分位数、第2四分位数(中央値)、第3四分位数、最大値を出力する #tokyor

2019-05-25 15:09:18
1 ・・ 13 次へ