ゲノムやトランスクリプトームの配列セットの網羅性・完全性を評価するためのツールとして、BUSCOというツールが普及しています。英語のような発音で「バスコ」と呼ぶ人がそれなりに多くいますが、開発者やその周囲の人たちは「ブスコ」と呼んでいることをお伝えしておきます。
buscoはスペイン語で「探す」、という意味の単語です。生物種間を越えて広く共有されている多数のオーソログを探索しその含有率を数値化することで、調べたい配列セットの網羅性を把握しよう、という手法です。オーソログ推定の手法を議論する研究会 Quest for Orthologs (QfO)のQuestの単語をスペイン語(busco)にし、これをツール名にしていたような記憶もありますが、実際にその会の具体的な名称から由来していたか、これはちょっと自信がありません。
具体例として、つい最近当ラボで話題になった情報を。理研時代に取得したジンベエザメ(沖縄美ら海水族館で長年飼育中のジンタという個体)のゲノムアセンブリについて、NCBIデータベース登録後にNCBI側でBUSCOをかけた結果のスコアが意外に低い、というもの。
ゲノム配列が不完全だったせいか・・・、あるいは、NCBIのページから転載したこの円グラフに添えてあるように、BUSCOのバージョンが最新ではないv4だからか、それとも・・・? いずれにしても、自分たちでも満足はしておらず、当ラボポスドクの川口也和子さんが、この種のゲノムアセンブリを改善する努力をまさに今もおこなっています。
完成度の評価は、得た配列情報を使ってどういった解析を行うかという判断において非常に重要です。にもかかわらず、BUSCOの動作や出力されるスコアの傾向などを気に留めずに使う研究者が多く、問題に感じていました。その利用における落とし穴や、自分たちで行った考察は、かつてこの記事(Yamaguchi et al..2021)に含めました。その後、BUSCOのバージョンv5.7においてオーソログの検出感度が上昇したようですが、これに先立って、ゲノムアセンブリに対する評価に限って使える、より高速で感度の高いcompleasmという類似のツールが登場していました。長らくBUSCOの一択だったところへcompleasmが参入し、compleasmに追い越されまいとBUSCOが改良された、という風にとらえられるでしょう。切磋琢磨されたものを今後も活用できればと思います。ちなみに、compleasmの開発者はHeng Liさんで、普及したアセンブリプログラムhifiasmの開発者でもあります。
最新バージョンは実装できていませんが、このgVolante(ジーボランチ)ウェブサーバでBUSCOを利用いただけます。利用の際の注意点などを含めたこのFAQのページも、適正な利用を促すために以前慎重に書いたものですので、紹介しておきます。このページには、BUSCO以前に普及していたツールCEGMAについての情報も含まれたままになっています。実は、BUSCOの設計思想を理解しようとしたら、CEGMA時代に書かれたものに目を通すのがよいのではないかと思っています。近いところからですが、下記に、原雄一郎さん(現・北里大未来工学部)による記事2点を紹介しておきます。
原 雄一郎「どのアセンブリを使うか?: 分子系統学的観点に基づくアセンブリの評価」
日本進化学会ニュース 2016. 17(1): 23-29
原 雄一郎「脊椎動物ゲノム・トランスクリプトームアセンブリ完全度を評価する」
バイオサイエンスとインダストリー 毎日学術フォーラム 2016. 74(3): 228-230
評価基準として頼りにするなら、その基準がどんどん変わっていっては困る、と思いませんか?異なるバージョンによるBUSCOのスコアを比較するわけにはやはり行きません(この部分、あとから追記)。そこで、100%にひたすら近づけたいなら、最新ツール・バージョンで、そして、以前のスコアと比較したいなら、使い慣れたバージョンで、とユーザーが賢く使い分けることが大事でしょう。gVolanteウェブサーバを維持できる限り、以前のバージョンを提供できればと思っています。
(下記、2024年6月15日に補足)
BUSCO周辺に関して、さらに参考記事を添えておきます。
山口和晃 、工樂樹洋「ゲノム情報に支えられたより堅固な生命科学へ:軟骨魚のオプシンを題材として」 比較生理生化学 2020 年 37 巻 3 号 p. 170-179
ちなみに、英語では、限られた数の参照遺伝子(多くの種で共通な1-to-1オーソログ群)を用いてゲノム・トランスクリプトーム配列セットの完成度を評価することを、Completeness assessmentという呼ぶことが多いです。
Comentários