反射データの圧縮のお話?

会話を遡ってみたら,さっぱりついていけなかった記念まとめ.
5
きゅうもるの中の人 @cuemolnohito

CBFのbyte_offsetという単純なADPCMライクなアルゴリズムで回折像データが一律~1/4程度になっているのに驚いた.(PILATUSの非圧縮データが32bitと仮定しての話だが)

2012-09-12 21:22:37
きゅうもるの中の人 @cuemolnohito

これにbzip2をかけると半分になるので,1/8くらいにはスペースを削減できる.(CCDだと16bitなので~1/4くらいにはなるのでは?)

2012-09-12 21:23:05
ひ○たく @kun32xu

@cuemolnohito バイトのオフセットという概念自体はIP検出器や一部のCCDには採用されてますが、やはり共通化されることに意義がありますよねぇ。カラクリを理解して値読むのにえらい苦労した経験がw

2012-09-12 21:58:37
きゅうもるの中の人 @cuemolnohito

@kun32xu 確かに.ほとんどのデータがノイズなので何かもっとうまいことやれば,サイズを減らせるような気がするんですが,あんま需要がないんですかね...(とったデータを管理する側としてはサイズが減ってくれると有難いんですが...)

2012-09-12 22:11:38
ひ○たく @kun32xu

@cuemolnohito XDSやadxvなどは圧縮後のイメージ処理や表示に対応してますけど流行ってないですよね。うちも一年保証とはいえデータバックアップに苦労してますw

2012-09-12 22:16:07
きゅうもるの中の人 @cuemolnohito

@yam_cpp @kun32xu 単純に思いつくのは,ノイズレベルの統計を取って,それにうまいこと全ビットを割り当てるようなテーブルを作って圧縮することでしょうか...#思いは付くがコーディングしてみる暇がないorz

2012-09-12 22:17:45
ひ○たく @kun32xu

@cuemolnohito @yam_cpp か、考えたこともなければ何も思いつきませんw

2012-09-12 22:22:53
とりさん @biochem_fan

@kun32xu @cuemolnohito @yam_cpp 去年James Holton氏が回折画像の「不」可逆的圧縮を実験してましたね。R因子は悪化しないとのこと http://t.co/nAvBdH2m と ccp4bb のスレッドhttp://t.co/w3tDgiIz

2012-09-12 22:46:56
きゅうもるの中の人 @cuemolnohito

@biochem_fan @kun32xu @yam_cpp おお,やはりこういうことをやってる人はいるんですね.(オーディオも可逆圧縮である程度は小さくなるので回折像でも工夫すれば出来るのでは...)

2012-09-12 22:59:11
きゅうもるの中の人 @cuemolnohito

PILATUSの威力を思い知らされている.(コンスタントに1.75Åまでしか出なかった結晶が一挙に1.5Åに...)

2012-09-12 23:02:00
とりさん @biochem_fan

@cuemolnohito @kun32xu @yam_cpp あとは、最近の検出器のデータレートに追随できるだけの速度も必要そうです。

2012-09-12 23:06:23
ひ○たく @kun32xu

@biochem_fan @cuemolnohito @yam_cpp 速度は今後ますます重視されそうですね。検出器にインテリジェンスがあればシグナルのあるとこだけ情報を残すなどもできますけどねぇ、、、閾をどうするかって話がめんどそうw

2012-09-12 23:26:46
とりさん @biochem_fan

@kun32xu @cuemolnohito @yam_cpp XFEL はデータ量的にもレート的にも大変そうですね。空フレームは捨ててもよさそうですが、今のソフトウェアでは、判定にも時間がかかるし、誤判定も多そうです。

2012-09-12 23:37:37
とりさん @biochem_fan

指数付けの DPS アルゴリズムって、XFEL には向いてない気がするなぁ。1フレームだけで、しかも点が少ないとなると…… と思って、久しぶりに CrystFEL 見に行ったら、バージョンが 0.4.1 になってて、ReAx という新しいのが入ってた。

2012-09-12 23:43:15
ひ○たく @kun32xu

@biochem_fan @cuemolnohito @yam_cpp こないだ来てたサクラユーザーが2TBのHDDをいっぱいにして帰りましたね、、、クズを捨てるテクはとても重要だと思います。

2012-09-12 23:54:31
とりさん @biochem_fan

@kun32xu Changelog を見ただけなので、まだ正体不明です。分かったら連絡いたします。初期バージョンではスポットリストを自分で作ってから、MOSFLM の DPS アルゴリズムに丸投げして指数付けしていました。

2012-09-12 23:59:46
きゅうもるの中の人 @cuemolnohito

@biochem_fan @kun32xu @yam_cpp 昔インテグレートしてテキストファイルだけ持って帰ればええやん,的な話もありましたが,さすがに再処理するケースは結構あるし(実験の生データを取っておくという点からも)イメージファイルは残したいですよね

2012-09-13 00:01:33
ひ○たく @kun32xu

@yam_cpp 実験はこちらのMPCCDを使って数日間散乱データを取りつづけてました。10Hzでデータ撮っててくずもまとめて持って帰るとそうなりますよ、という話ですね。MPCCDのデータ保管形式もまだ洗練されてなくてくずを即座に切り出す、捨てるがむずいってことだそうな。

2012-09-13 00:02:52
K. Yam @yam_cpp

@cuemolnohito @biochem_fan @kun32xu いつ実現するのか分かりませんが,回折イメージからもっと多くの情報を引き出せるようになった時のためにも,イメージは残しておきたいですね.

2012-09-13 00:02:58
ひ○たく @kun32xu

@yam_cpp @cuemolnohito @biochem_fan 今、気づいてない情報があるって考えるわけか。なるほど。いずれにせよやはり生データはおいときたいですよね。

2012-09-13 00:05:29
K. Yam @yam_cpp

@kun32xu @cuemolnohito @biochem_fan 個人的には,将来精密化は生データに対して行われるようになって,さらにはBragg反射以外の情報も取り出して使えるようになる…ような未来が来ないかなあと思っています.

2012-09-13 00:08:47
とりさん @biochem_fan

@cuemolnohito @kun32xu @yam_cpp やはり画像は取っておいたほうがいいですよね。ただ、スポット外の背景にしか見えない部分について、Holton氏の実験のように不可逆圧縮してもいいのかどうかが悩ましいところです(ccp4bbでも賛否両論でした)。

2012-09-13 00:09:02
とりさん @biochem_fan

@yam_cpp @kun32xu @cuemolnohito XFEL だと、Bragg spot の間を oversampling して位相をつけようという話もありますよね。

2012-09-13 00:10:13
K. Yam @yam_cpp

@biochem_fan @kun32xu @cuemolnohito ありますね!speckleが見えるようになると,今まで以上に情報量が増えますねえ.

2012-09-13 00:11:51
きゅうもるの中の人 @cuemolnohito

@biochem_fan @kun32xu @yam_cpp さすがに不可逆はいやですねぇ..実際I/sig~1付近の反射を入れた方が電子密度が良くなることもありますし.(特にPILATUSだとその影響が大きいような気がします.)

2012-09-13 00:16:00