岩手医大教授でヒトゲノム計画の生き字引の清水厚志先生のヒトゲノム完全解読論文(6報のうち、中心的な1報)の紹介

T2T(ヒトゲノムの、染色体の末端から末端まで完全に解読する)計画の論文について、ヒトゲノム計画の一員であり、今も日本人集団ゲノム解読にかかわっている岩手医大の清水先生による解説。https://togetter.com/li/1869290の続編です。ご本人から承諾をいただいています。
11

最初にまとめ論文のあらまし(https://togetter.com/li/1869290 と重複しています)

厚志 @atsushi_ngs

ここから本番。まずは論文のポイント。 ・2003年のHGP完了宣言から約20年後の2022年4月にThe Telomere-to-Telomere (T2T) consortiumにより、 3,054,815,472 文字からなるヒト完全配列の論文が発表された。 ・用いた細胞は胞状奇胎由来培養細胞であるCHM13hTERT 15/n #HGP_T2T

2022-04-07 18:19:31
厚志 @atsushi_ngs

・雄核発生による胞状奇胎は父方由来のXXの核型であるためY染色体は含まれていない(最新データベースではHG002のY染色体配列が追加された) ・GRCh38から238 Mbp (約8%) の配列が追加された。 ・セグメント重複のためGRCh38と比べて263遺伝子少ない 16/n #HGP_T2T

2022-04-07 18:20:41
厚志 @atsushi_ngs

・Gene は63,494 個 ・Protein coding gene は19,969 個 ・ヒトゲノムの反復配列は53.94% ・ヒトゲノムのSegmental Duplicationは6.61% ・セントロメアの構造解読した ・rDNAの構造解読した ・セグメント重複の構造解読した 17/n #HGP_T2T

2022-04-07 18:22:06
厚志 @atsushi_ngs

論文の構成 序文  HGPとGRCh38の問題点とT2Tが解決し構築した完全配列の位置づけ 細胞株とシークエンシング  胞状奇胎(CHM)を対象とした理由 ゲノムアセンブリ  戦略説明 rDNAアセンブリ  今回大幅改訂したrDNAの解析手法 アセンブリ手法と結果検証  具体的な手法説明 18/n #HGP_T2T

2022-04-07 18:23:48
厚志 @atsushi_ngs

完全配列  完成したT2T-CHM13の概要 アロセントリック染色体  13, 14, 15, 21, 22番染色体の短腕配列の説明 解析方法とリソース  付随研究の紹介とT2T-CHM13の有用性紹介のための例として顔面肩甲上腕型筋ジストロフィーを紹介 ヒト参照ゲノムの将来  今後の課題 19/n #HGP_T2T

2022-04-07 18:24:41
厚志 @atsushi_ngs

序文ではHGPの配列とGRCh38の課題を述べて、先日紹介したPacBio HiFiとOxford Nanoporeとか複数の手法で完全なヒトゲノム配列を決めたと紹介。 20/n #HGP_T2T

2022-04-07 18:29:39
厚志 @atsushi_ngs

次に使った細胞株。胞状奇胎の利点と今回のCHM13の特徴。遺伝的背景はヨーロピアン、アジアとアメリカンも少し。当然ネアンデルタール由来もあり。大きな欠失とかもなくてこれをつかっても問題ないよと。 21/n #HGP_T2T

2022-04-07 18:32:50
厚志 @atsushi_ngs

使ったシークエンサーはIlluminaとPacBioとONT。これにHi-CとBioNanoを利用して完全配列をつくった。 22/n #HGP_T2T

2022-04-07 18:35:01
厚志 @atsushi_ngs

シークエンサーの紹介はどこにでもあるので簡単にIlluminaは短めだけどめっちゃたくさんの配列読める。 PacBioは今回はそこそこ長くてなかなか良い精度、ONTはめっちゃ長く読める。これをまぜて長い配列つくる。 23/n #HGP_T2T

2022-04-07 18:36:31
厚志 @atsushi_ngs

HiCはもともとはクロマチン構造を解読するための手法だけどならんでるがめっちゃ遠い場所を見つけられる。BioNanoはシークエンサーではなく昔のFiber-FISHのようにある配列をペイントしてならびを直で見る機械。セグメント重複とか得意。 24/n #HGP_T2T

2022-04-07 18:39:39
厚志 @atsushi_ngs

これらのデータをアセンブルしてから結局最後はマニュアルでキュレーションした。ここまでが完全配列をつくるところ。今日はここまで。 25/n #HGP_T2T

2022-04-07 18:42:08

ここから本論文の解説。ONTというのはOxford Nanopore Technologiesの略で、最近とみに注目を集める長鎖シーケンサー技術。

厚志 @atsushi_ngs

完全解読で追加されたのはクローニング困難領域、セグメント重複、テロメア、セントロメア。 クローニング困難領域はNGSの登場、特にPacBioとONTで完全に解決した。 テロメアもTTAGGGの繰り返しで、すでに長さの多様性の論文も多数出ているからか本論文ではほぼ触れず。 26/n #HGP_T2T

2022-04-08 17:23:14

付随論文との分担についての解説とリボゾーマルRNAの配列解読の説明

厚志 @atsushi_ngs

完全解読で追加されたのはクローニング困難領域、セグメント重複、テロメア、セントロメア。 クローニング困難領域はNGSの登場、特にPacBioとONTで完全に解決した。 テロメアもTTAGGGの繰り返しで、すでに長さの多様性の論文も多数出ているからか本論文ではほぼ触れず。 26/n #HGP_T2T

2022-04-08 17:23:14
厚志 @atsushi_ngs

残るのはセグメント重複とセントロメアだけど、前者は世界トップのEichlerが派生論文の責任著者、セントロメアはT2Tの共同設立者のMigaが派生論文の責任著者。本論文はもう一人の共同設立者のPhillippyが責任著者。なので本論文ではセグメント重複のうちrDNAを切り出して紹介。 27/n #HGP_T2T

2022-04-08 17:24:10
厚志 @atsushi_ngs

rDNAは先に述べた通りリボソームRNA(rRNA)をコードしておりヒトゲノムではAcrocentric 染色体である13, 14, 15, 21, 22番染色体の短腕に超高度に重複して局在してる。全部で219個、9.9Mbpくらい。 28/n #HGP_T2T

2022-04-08 17:24:30
厚志 @atsushi_ngs

本論文ではまずrDNA領域の特別な配列決定手法について技術を紹介。補足資料(Supplementary Materials)の図S12にその詳細。14番および22番のrDNAはシンプルなのでONTで確定。13番、15番、21番染色体の複雑なモザイク構造だった。特に15番が困難だった。 29/n #HGP_T2T

2022-04-08 17:25:03

アセンブリ(ゲノム配列の解読中に得られる各DNA断片の配列を並べて一連のものにする作業)の検証など。こういった解読作業では誤りを避けるために繰り返し同一の箇所を解読する。その繰り返しの量を「厚み」と表現する。

厚志 @atsushi_ngs

ここで一旦T2T-CHM13アセンブリの検証の話。HiFi、ONT、Illumina、10x、Hi-Cなどの一次データをCHM13v0.9にマップし、手動キュレーションにより、4つの大きなエラーと993の小さなエラーを修正してCHM13v1.0を作成。44の大きなヘテロ接合型と3,901の小さなバリアントを特定。 30/n #HGP_T2T

2022-04-08 17:25:41
厚志 @atsushi_ngs

さらにテロメアをpolishingし、前述のrDNA配列を追加して、ヒトゲノムの完全なtelomere-to-telomereアセンブリのT2T-CHM13v1.1が完成。 31/n #HGP_T2T

2022-04-08 17:26:07
厚志 @atsushi_ngs

次にT2T-CHM13v1.1に元データを配置してデータの厚みの均一性を確認しておかしな部分がないか確認。HiFiがカバレッジ 34.70 、 ONTがカバレッジ 116.16 。rDNA以外は3SD以内。数カ所大きな増減があるが、アセンブリエラーではなく、サンプル調製、配列決定、コールバイアスと推定。 32/n #HGP_T2T

2022-04-08 17:26:45

完成した配列の精度と、そこから判明したヒトゲノムの遺伝子数などの議論

厚志 @atsushi_ngs

T2T-CHM13のコンセンサス精度は、10Mbpあたり約1エラーと推定。ただし、HiFiのカバー率が低い領域はエラーの可能性が残るので、特定された低カバレッジ、低信頼性、既知のヘテロ接合部位はカタログ化して公開済。総数でアセンブリの全長の0.3%。これは今後の課題。 33/n #HGP_T2T

2022-04-08 17:27:04