11章音楽生成

11章の目標
  • 音楽生成を、どのように系列データの予想問題として扱えば、トランスフォーマのような自己回帰モデルを適用できるかを理解する。
  • 訓練セットを作成するために、music21パッケージを使ってMIDIファイルをパーズしてトークン化する方法を理解する。
  • 正弦派位置エンコーディングの使い方を学ぶ。
  • 音符と長さを扱うために、複数の入力と出力を持つ音楽生成トランスフォーマを訓練する。
  • ポリフォニック(多旋律)な音楽の扱い方(グリッドトークン化とイベントベーストークン化)を理解する。
  • MuseGANモデルを訓練して複数トラックの音楽を生成する。
  • MuseGANを使って生成された小節のさまざまな属性を調整する。

音楽の作曲は、旋律、ハーモニー、リズム、音色など、さまざまな音楽的要素が組み合わさった複雑で創造的なプロセスです。これまでは人間に固有な活動だと思われてきましたが、テクノロジーの進歩により、耳に心地よく、長期的な楽曲構造を持つ音楽を生成することが可能になりました。

音楽生成の最も人気のある手法の1つはトランスフォーマです。音楽は系列データの予測問題と考えることができるからです。これらのモデルは、文章の単語のように、音符を一連のトークンとして扱うことで、音楽を生成するように適応しました。トランスフォーマモデルは、これまでの音符に基づいて連続して次の音符を予測するように訓練され、結果として音楽作品を生成します。

MuseGANはまったく違ったアプローチで音楽を生成します。音符1つ1つから音楽を生成するトランスフォーマと違い、MuseGANは、音楽を音程軸と時間軸から成る画像として扱うことで、音楽のトラック全体を一度に生成します。さらにMuseGANは、和音、スタイル、旋律、グルーブのようなさまざまな音楽要素を取り出し、それらを個々に制御できるようにもします。 ...

Get 生成 Deep Learning 第2版 ―絵を描き、物語や音楽を作り、ゲームをプレイする now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.