生命情報学講座

研究紹介

研究室紹介 生命情報学講座では,DNAやタンパク質などいわゆる情報生体高分子の配列解析を通じて,遺伝子やその産物であるRNAやタンパク質の機能,構造,配列,進化の間の関係を明らかにすることを中心課題として研究を進めています。この分野は最近発展著しいバイオインフォマティクスと呼ばれる学問分野の中でも中心的位置を占めています。
ヒトゲノム配列がほぼ完全に解読され,そのほかにも様々な生物のDNA塩基配列が決定されつつあります。しかし,単なる文字列である塩基配列から,そこに書き込まれた「意味」を読みとることがこれからの大きな課題です。数理モデル,アルゴリズム理論,数理統計,学習理論などの高度な情報処理技術に基づき,生体高分子のもつ物理化学的性質や,進化の賜物としての遺伝情報という生命情報に特有の性質にも幅広く配慮することにより,この課題に取り組むことを本研究室では目指しています。配列比較,ホモロジー検索,真核生物の遺伝子予測,遺伝子発現機構,スプライシング機構,遺伝子間相互作用,タンパク質の構造・機能推定などの話題を中心に独創的なアルゴリズムやソフトウェアの開発を進めています。それとともに,実際のデータへの応用を通じて生命科学分野へ直接的に寄与できることを目指しています。

 

遺伝子発見・遺伝子認識


SPALN

ゲノムに書き込まれた遺伝情報は、大きく二つの種類に分けられます。ひとつはタンパク質や構造RNA を形作るための情報(構造情報)であり、もうひとつは転写、複製、スプライシングなどの機能発現制御を担う情報(制御情報)です。しかし、ゲノム塩基配列の中には一見してそれと分かる目印などなく、また特別な意味を持たないと考えられる領域も大量に存在するため、どこに構造情報や制御情報が書き込まれているかを見出すことが困難です。これは、ときには1 億文字を超える句読点のない長い文の中を「せりふ」、「ト書き」、「その他」の部分に分ける作業に相当します。目印のないゲノム配列の中から遺伝子領域を推定することを「遺伝子発見」あるいは「遺伝子認識」といいます。遺伝子発見には、ゲノム配列のもつ統計的な特徴のみに依存する「先験的」手法と、既知のアミノ酸配列や他の類似ゲノム配列との比較に基づく「経験的」手法の、大きくふたつのアプローチがあります。本研究室では両者の手法の開発に取り組み、それぞれ世界的にトップレベルの性能を誇るソフトウェアを作成しています。

[参考資料]

矢田哲士, "遺伝子発見", 実験医学増刊 26, 84-89, 2008
O. Gotoh, "Direct mapping and alignment of protein sequences onto genomic sequence", Bioinformatics, 24(21):2438-2444, 2008
O. Gotoh, "A space-efficient and accurate method for mapping and aligning cDNA sequences onto genomic sequence", Nucleic Acid Res., 36, 2630-2638, 2008
T. Yada, Y. Totoki, Y. Takaeda, Y. Sakaki, and T. Takagi, "DIGIT: a novel gene finding program by combining gene-finders", Proc. of the 8th Pacific Symposium on Biocomputing (PSB 2003), 375-387, 2003

 

多重ゲノム配列アラインメントに基づく機能情報の抽出


効率的なゲノム配列比較法の例

二つないしはそれ以上のゲノム配列同士を比較する方法の開発にも取り組んでいます。ヒトゲノムなど、3GBにおよぶ長大な配列の比較には従来多大の計算機資源を要します。私達は、これらの困難を乗り越えるための方法を考案し、原核生物から哺乳動物に至るさまざまな大きさのゲノム配列の比較解析を現実的な計算機資源の下で可能とするソフトウェア開発を行っています。具体的に、長い欠失・挿入が存在する場合にもアミノ酸配列やプロモータ領域などゲノム上の非コード領域のアラインメントを高精度に行うアルゴリズム、比較すべきゲノム配列のブロック分割による粗いアラインメントと塩基レベルでの細密なアラインメントを組み合わせることによるゲノム配列間アラインメントの効率化、などは実行速度と精度を損なうことなく大幅な計算機資源の削減を可能にします。これらを用いることにより、先に述べた遺伝子発見のみならず、ゲノムレベルでの生物進化の解明などへの応用が見込まれます。

[参考資料]

後藤修, 市瀬夏洋, "ゲノム配列のマルチプルアラインメント", 実験医学増刊 26, 77-83,2008
R. Nakato and O. Gotoh, "A novel method for reducing computational complexity of whole genome sequence alignment", Proc. of the 6th Asia-Pacific Bioinformatics Conference (APBC 2008), 101-110, 2008
S. Yamada, O. Gotoh, and H. Yamana, "Improvement in accuracy of multiple sequence alignment using novel group-to-group sequence alignment algorithm with piecewise linear gap cost", BMC Bioinformatics, 7:524, 2006



 

遺伝子制御情報の解明


酵母における転写制御ネットワークの例

ゲノム配列上に書き込まれた制御情報とは、具体的には6 〜 20 塩基程度の特定の短い塩基配列(モチーフ)によって担われています。各々のモチーフを、それに対応する制御タンパク質(制御因子)が特異的に認識する(結合する)ことによって下流のプロセスのオン・オフが調整されます。このような制御情報はタンパク質や構造RNAを形作るための情報に比べ一般に曖昧性が高いため、その同定や役割の推定はより困難です。モチーフ発見問題に関して、我々は極めて高速な独自の方法(等確率グレイコード)を開発しており、今後の応用が期待されます。一方、制御情報のモデル化に関しては、複数モチーフ間の相互位置関係など、より高次の構造を考慮した遺伝子発現制御機構の解明を目指しています。

[参考資料]

等確率グレイコードによるモチーフ抽出 (PDF)
対数線形モデルによるプロモーターモデル化 (PDF)
S.J. Park, N. Ichinose, and T. Yada, "Inferring Probabilistic Conditional Independency from Large-scale Combinatorial Regulation of Transcription Factors", in press, 2009
S.J. Park, N. Ichinose and T. Yada, "Probabilistic Graphical Modeling for Large-scale Combinatorial Regulation of Transcription Factors", Proc. of the workshop on Knowledge, Language, and Learning in Bioinformatics (KLLBI), 72-86, 2008
N. Ichinose, T. Yada and O. Gotoh, "Fast Motif-Extraction Tool from a Large Number of DNA Sequences", Proc. of the 2007 Annual Conference of the Japanese Society for Bioinformatics (JSBi 2007), Oral presentation (P071), 2007



 

選択的スプライシングおよび選択的転写開始の解析


ASTI

近年、ヒトをはじめとする様々な生物種のゲノム配列が解読され、各生物の遺伝子総数が見積もられるようになりました。予期に反して、ヒトやマウスの遺伝子総数は下等な真核生物種のものと同じ程度であることが分かりました。そのため、選択的スプライシングや選択的転写開始による遺伝子産物の多様性が注目を集め、これらが生物の形や行動の複雑さなどを決定する一つの因子であると考えられています。我々は、様々な生物種のゲノム配列における選択的スプライシングの網羅的解析とそのための手法開発を進めており、スプライスパターンと遺伝子機能との関連性、ガンや神経疾患などの疾病関連遺伝子に特化したスプライスパターンの同定などの課題にも挑戦しています。

[参考資料]

後藤修, 長崎英樹, "選択的スプライシング・選択的転写開始の解析", 動物遺伝育種研究, 32, 2, 39-46, 2005
H. Nagasaki, M. Arita, T. Nishizawa, M. Suwa, and O. Gotoh, "Automated classification of alternative splicing and transcriptional initiation and construction of a visual database of the classified patterns", Bioinformatics, 22, 1211-1216, 2006
H. Nagasaki, M. Arita, T. Nishizawa, M. Suwa, and O. Gotoh, "Species-specific variation of alternative splicing and transcriptional initiation in six eukaryotes", Gene, 364, 53-62, 2005



 

ゲノム科学、ゲノム情報学の社会的認知の向上


ゲノムづくし本研究室では「ゲノムひろば」などを通して、ゲノム科学、ゲノム情報学の社会的認知の向上にも努めています。左図は「ゲノムづくし」と名付けた出展で用いた展示品の一部です。一番右の4 面体はある生物種のゲノム全体を表しています。面上の微小三角形が一つのモチーフに相当し、その出現頻度によって色分けしています。他の4 面体は制作過程を説明したものです。これらの活動を通じて、ゲノムや遺伝子に関する一般の関心を高めることを目指しています。

[参考資料]

「ゲノムづくし2」の紹介ページ

「ゲノムづくし1」の紹介ページ