2章

DNAからmRNAへの転写:文字列の改変、ファイルの読みだし、書き込み

 生命を維持する上で必要なタンパク質を発現させるために、DNAの一部分をメッセンジャーRNA(mRNA)と呼ばれる形態に書写する必要があります。DNAとRNAには生化学的に様々な相違点が存在しますが、ここでの目的はDNA内に存在しているチミン(Tと記載される)が、RNAではウラシル(Uと記載される)に変換されることだけです。本章ではRosalind RNAページ(https://oreil.ly/9Dddm)にあるACGTというDNAの塩基配列をACGUというmRNAの塩基配列に書写する方法を紹介します。Pythonのstr.replace()の関数を利用することで、以下のように変換できます。

>>> 'GATGGAACTTGACTACGTAAATT'.replace('T', 'U')'GAUGGAACUUGACUACGUAAAUU'

 コマンドラインやファイルからDNA配列を受け取り、結果を表示するプログラムの書き方は第1章ですでに学んだので、それをもう一度やってもあまり勉強にはなりません。このプログラムをもっと面白くするために、バイオインフォマティクスでよく見られるパターンを取り上げます。そのプログラムとは、1つまたは複数の入力ファイルを処理し、その結果を任意の出力用ディレクトリへ格納するプログラムです。例えば、シーケンシングの結果は、品質チェックやフィルタリングが必要なファイルのディレクトリとして格納され、クリーンな配列は解析用の新しいディレクトリに入るというのが一般的です。ここでは、入力ファイルには1行ごとのDNA配列が含まれ、出力ディレクトリの同じ名前のファイルにはmRNA配列が書き込まれます。 ...

Get Pythonではじめるバイオインフォマティクス ―可読性・拡張性・再現性のあるコードを書くために now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.