.@dritoshiさんの,NGS解析始めた人がコンピューティングでつまづきがち

NGS解析始めた人がNGSの文脈で検索しても,コンピューティングのことはあまり出てこないため,コンピューティングでつまづいていることがあるという話. 実はCCで学べる教材がある,という希望が持てる話題.
9
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

NGSデータ解析のチュートリアルを受けてコピペでツールを動かせるようにはなったが、いまいち自分でできるようになった気がしない、という相談が何度も受ける。

2014-04-07 23:53:33
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

だいたいの場合は、コンピュータの仕組みを知らないか、Linux/Unix を知らないか、あるいはその両方だ。

2014-04-07 23:54:35
UO @druoh

@dritoshi データ解析というアルゴリズムというか考え方の問題ではないのですか?

2014-04-08 00:24:11
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

@druoh それもありますが、今回はそれは取り上げません。その前で躓いている人も多いです。

2014-04-08 00:24:48
UO @druoh

@dritoshi そんなもんですか・・・。

2014-04-08 00:25:21
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

@druoh 統計ツールと同じで、まず使ってみて次に原理が気になる、という順番なのでしょう。やり方自体はネットに情報が溢れているけど、そもそも環境構築ができなくて相談にくる人も多いです。

2014-04-08 00:29:16
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

あとはネットワークのことを知らないパターンもある。

2014-04-08 00:01:39
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

そんな人には、まずは「Linux標準教科書」を通読することを進める。シェル、コマンドの使いかた、ファイルシステム、パス、パイプ、プロセス、ユーザとアクセス権限、シェルスクリプト、TCPなどを理解してもらう。

2014-04-08 00:04:54
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

あとは、あまり初心者向けではないが「Linuxサーバ構築標準教科書8章」か「Linuxセキュリティ標準教科書6章」でSSHと鍵を、必要ならば「Linuxサーバ構築標準教科書1章」でRAIDについて学んでもらう

2014-04-08 00:15:56
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

次は「高信頼システム構築標準教科書」4章で rsync, NFS を、7章でシステム監視を学ぶ。ここまでだいたい Linux や Unix を使い熟している感がでてくる。OS X になってもぐぐれば自力で同じレベルの熟練度になれるはず。

2014-04-08 00:18:47
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

あとは、ジョブスケジューラさえ学べば、NIGのスパコンとかで解析できるようになるはず。

2014-04-08 00:20:19
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

ここまですべてクリエイティブコモンズ (CC BY NC ND) なので無料で勉強できる。必要なのはやる気と時間だけ。

2014-04-08 00:22:47
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

足りない点とては、メモリやCPU、ハードディスクが何しているか理解して、科学計算とどのように関わるか、を知っておく必要があるが、このあたりは良い文章が思い付かない。

2014-04-08 00:22:53
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

今なら「高信頼システム構築標準教科書」10章の仮想化も読んでおくと良いかも。

2014-04-08 00:25:25
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

ここまでくれば、巷に溢れているNGS解析解説サイトのコマンドをコピペすれば、なんとか解析ができるようになるでしょう。

2014-04-08 00:31:41
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

コンピューティングがわからないのか、データ(ベース)がわからないのか、計算(アルゴリズム、統計)がわからないのか、シーケンス技術がわからないのかを分けて考えると良いと思います。NGSという文脈で検索すると、解説の豊富さは、計算>シーケンス技術>データ>>コンピューティンの順

2014-04-08 00:36:37
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

なので、コンピューティングで躓いていても、気付かなかったり、どうしていいかわからなくなりがち。これら全部の知識をまるっとまとめて、ウェットの人はバイオインフォマティクスと呼ばれているっぽい。

2014-04-08 00:38:18
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

新学期なので、こういう話を繰り返しているし、どっかにまとめて書こうか、と思いつつ、そんな時間ない。

2014-04-08 00:39:58
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

このあたりのごくごく基本的な知識を、沖縄以北から北海道以南までに、こぐ僅かだけ生息する希少種であるバイオインフォマティクス研究者に、教育させるのはお互いにとって不幸。

2014-04-08 00:43:20
ゲノムのほうの愛ちゃん🌙 🐧 @dritoshi

昨日書き忘れた事。GNU screen を学ぶこと、を入れ忘れた。サーバにログインして計算している間に、接続を切っても計算したままにできるので、必須です。

2014-04-08 17:27:13