京都精華大学 2026 "生成音楽論" (長嶋) 第2週
Opening Remarks
シラバスにある「生成音楽論」のサブタイトルは、『音楽生成AIの理解と活用を目指す。音楽とは何かという根源的な考察を多様な視点で進める』です。
シラバス「授業の概要」では、『音楽生成AIについて、その原理や限界について理解するとともに、実際に活用していくための視点を考察する。共通ツールとして音楽生成AI「suno」を使用して、実例や課題を通して具体的に音楽生成(作曲)すると共に、「生成AIそのもの」・「音楽そのもの」についての深い考察を目指す。既に現実のコンテンツ作成の領域で実用レベルに到達している音楽生成AIなので、この科目においては「ボーカル(歌)と歌詞」については敢えて対象から除外して、テキスト(文字)文化およびストーリーテリング文化と切り離した「サウンド」コンテンツとしての音楽に焦点を絞る』と述べています。
全7週のオンライン授業では、実際にsunoで音楽を生成する演習的内容と共に、毎週テーマを設定した「解説」「資料リンク」等に基づいて、興味のある関連情報を調べて考察することで、「音楽とは何か」という根源的な考察も並行するように心掛けて下さい。また、対象から除外した「ボーカル(歌)と歌詞」を含む楽曲の生成については、授業を離れて独自に実験・発展させることも推奨します。まずは実験から
- 伝説のFLASH "Matrix"とは
- まずは音量を上げて、 この動画 (46秒)を眺めて下さい
- 動作は見ての通りです。横方向に16コマ、時間的にループして繰り返します。クリックして「印」を付けた場所で音が鳴ります
- 縦方向に16コマ、音の高さが別々に設定されています。これを「音階」(スケール)と言います(→後述)
- 同時に縦に揃ったコマの音は全て同時に鳴ります。これによりその瞬間、「和音」が形成されます
- 等間隔に繰り返される音は「リズム」のように知覚されることもあります
- 連続したり次々に繋がった音は「メロディー」のように知覚されることもあります
- つまり、このインタラクティブコンテンツは、「音階」・「和音」・「リズム」・「メロディー」などの「音楽知識」(音楽理論)を体験できる、優れた一種のゲームです
- また、 この動画 の45秒あたりから後ろ(約2分間)にも、別の手法(後述)でこのコンテンツを体験している様子があります。こちらも眺めてみて下さい
- 今週のテーマは、この「音楽知識」(音楽理論)です
![]()
- 「FLASH」とは
- FLASHについては、興味があれば Wikipediaの解説 などを調べてみましょう
- 最初はフューチャーウェーブ・ソフトウェアがFutureSplashとして開発提供していたのを、同様のオーサリングツールDirectorを開発提供していたライバル企業Macromediaが会社ごと買収しFutureSplashを抹殺して、統合したShockwaveFlash(ファイル拡張子はswf)として開発提供し、一時はネット上の厖大なコンテンツとして世界的に流行しました。ところが同様のオーサリングツールを出すもののDirectorに敵わないライバル企業AdobeがMacromediaを会社ごと買収しShockwaveFlashを抹殺して、継承統合したAdobeFlashとして提供し、現在ではAdobe Animateとして流れは継承されているものの、FlashPlayerのサポートは2020年に終了しました
- Flashが活躍した時代には、インターネット・ブラウザの全てがFlashをサポートしていました。つまりユーザがFlashのURLをクリックすると、ブラウザ内でFlashコンテンツが「実行」され、ユーザは動画、音楽、ゲームなどが統合されたFlashコンテンツを楽しめました。Flashが時代から消されたのは、そのあまりに大きな自由度がセキュリティ的な問題を解決できなくなったからです
- この動画 の中では、MacのFlashPlayerというアプリにMatrix.swfというFLASHコンテンツ(ファイル拡張子はswf)を投げ込んで実行していますが、現在はもうこのように簡単にはいきません
- ちなみに"Matrix.swf"というFLASHコンテンツ(長嶋が21世紀初頭にネットで多数出回っていたFLASHを数千本収集していた中の1つ。作者その他の情報は全く不明)の実体(バイナリ)は これ であり、MacでもWindowsでも共通で、「再生環境」があれば現在でも走らせて体験できます
- 伝説のFLASH "Matrix"を体験してみたいと思う人も多いと思うので、次項にその方法を紹介します。この方法で実際に"Matrix"を体験してみた人は、今週の課題レポートとしてsuno生成音楽でなく、「"Matrix"で鳴らしてみた」という音楽を体験し録音して、そこから30秒間を切り出したサウンドファイルmp3でもOKとします
![]()
- "Matrix.swf"を体験する方法
- 長嶋は基本的に「Mac使い」なので、Windowsでの再生環境については不明です。AdobeのAnimateの「Players」の中にFlashPlayerがある、という噂を聞いたことがありますが詳細不明です。Windowsの人は Wikipedia の「Adobe Flash Player」のところ、あるいは「ブラウザへのインストール」、あるいは「アドビ以外の実装」の「再生ソフトウェア」にある、「Gnash」・「Swfdec」・「Lightspark」・「Ruffle」などを試してみましょう。この件については、質問に長嶋は対応できません
- あまりいないと思いますが、「Intel Mac」という古式床しいMacの場合には、対応した FlashPlayer のzipを解凍して出来たFlashPlayerアプリケーションにswfを投げ込むだけで"Matrix.swf"を実行できるかもしれません。ただしダウンロードしたFlashPlayerアプリは「未知の開発者」ということで拒絶されるので、「System Preferences」の「Security」メニューから一時的に、「どんな開発者であっても実行を許可する」というように設定する必要があります
- ここからは「Apple Silicon」のMacについて長嶋が実験した解決法です。「Riffle」というエミュレータがあるのですが、これはswfが実行できるものの、ウインドウは開いてもインタラクティブに動作せずサウンドも鳴らないので、"Matrix.swf"に対しては不適です。その様子は この動画 の前半(最初の40秒ほど)にあります
- Flashが走るという「Elmedia Video Player」は、そのままではMatrix.swfを認識しませんが、Intel対応アプリをApple Silicon環境で走らせるための「Rosetta 2」というのがあり、 このページ に従って、ターミナルから「$ softwareupdate --install-rosetta --agree-to-license」と打つと、それだけで「Rosetta 2」をダウンロードしてインストールまで完了します。 そして「Elmedia Video Player」の情報の中の「Rosettaで開く」check boxを入れると、 この動画 の45秒あたりから後ろのように、"Matrix.swf"を体験できるようになりました
![]()
- ヤマハの「テノリオン」という楽器がありました。まさに"Matrix.swf"のような事を、16×16=256個の発光スイッチで実現しているのですが、上のように現在でも中古で10数万円する・・・ということで、残念ながらヒットしませんでした。 興味のある人は「ヤマハのテノリオン」で調べてみましょう
「作曲」と「採譜」
- 作曲(Composition)とは
- (ここでは話をすっきりさせるために「即興演奏(リアルタイム作曲)」については除外します。即興音楽については第6週および第7週に登場します)
- 「音楽要素」(後述)を組み上げる(Composition)というのが従来の作曲です
- 単一楽器のソロ音楽であっても、メロディー、リズム、ハーモニー(同時に2つ以上の音が鳴る)などの要素から音楽は構成されています
- 昔の「作曲家」は、五線紙に複数パートの音を書き込んでいました
- 現代の「作曲家」は、DTM(Desk Top Music)ソフトウェア上で、複数のパートに相当する「トラック」ごとに音を指定して、最終的には全体が一斉に「合奏」される形ですが、個々の音楽要素を組み上げるという意味では昔から変わりません
- 「アルゴリズム作曲」という、演奏時に生成される音楽要素の生成アルゴリズムをプログラムとして記述する手法がありますが、これは第7週で話題としますので今回はパスします
- 音楽生成AIの中には、人間が行ってきた上述の「作曲」をシミュレーションするタイプもあります。この場合、「和声法」・「対位法」・「管弦楽法」などの音楽理論に基づいて、個々の音楽要素(音の高さ、音の強さ、音の長さ)などを配置して、つまり結果的には「楽譜」や「DTMシーケンスデータ」の形を生成するものもあります
- sunoはこれとは異なる新世代の音楽生成AIで、例えば「楽器」とか「和音」などの音楽理論・音楽要素を持たずに、最終成果物である音楽音響を直接、生成します。sunoにプロンプトで具体的な楽器名を指定しても暖かく無視されるのはそのためです。sunoは既存のあらゆる音楽音響を厖大に深層学習していて、LLMの思想「次に何が続くか」という視点から次々と続く妥当な音響をそのまま生成しています
- 採譜(Transcription)とは
- 音楽音響を入力として、個々の音楽要素を分離して取り出すことを「採譜」と言います
- 音楽的に訓練された人間は「耳コピー」と言って、ミックスされている音響を聞きながらそのコード(和音)やメロディーを抽出して譜面に書くことが出来ます
- この「採譜」処理をコンピュータ上で実現するための研究が長らく続けられてきました。興味のある人は、たぶん京都精華大の図書館にもあると思いますので、「長嶋洋一/橋本周司/平賀譲/平田圭二編, コンピュータと音楽の世界 ---基礎からフロンティアまで---, 共立出版, https://www.kyoritsu-pub.co.jp/book/b10006830.html」の詳しい解説を調べてみましょう
![]()
- 音楽生成AIの中には、「採譜」処理で得られた個々の音楽要素を学習しているタイプもありますが、sunoはこれとは別に「音響の推移そのものをLLMで処理」しています
楽典と楽譜
- 楽典(musical grammar)
- 楽典とは、音楽に関する活動のために必要な最低限の知識のことで、「音楽の文法」とも言われます
- 楽典の内容には大きく2つあり、(1)「記譜法」(楽譜の読み書きするためのルール)、(2)記譜法を理解するために必要な、基礎概念と用語の説明、とで構成されます
- 「基礎概念と用語の説明」 - 音程、音階、演奏記号(楽語も含む)、旋法、和音、律動、楽式、和声、対位法、楽器法、音名、拍子 など
- 長嶋が国際会議に参加して、会場のStanford大学の生協で仕入れた「試験前の数分間で見直す楽典」という「下敷き」にあったのは、 このような 内容でした。赤いマルをクリックすると中身が出て来ます
- 楽譜
- 楽譜とは、楽曲を演奏記号や符号などの記号によって書き表したものです。興味のある人は Wikipediaの解説 などを調べてみましょう
- ここでは「五線譜」のみを扱います
- 古典的な意味での「作曲」とは、楽譜を作ることでした。DTM時代の作曲も「楽譜に相当するシーケンスデータ」を作ることなので、原理的には同じです
- 音楽生成AIのうち、sunoなどには「楽典」「楽譜」の概念がありません。音程、音階、演奏記号その他をすっとばして音楽そのものを音響羅列として処理しているためです
- 長嶋の作曲のうち、合唱曲については大学時代を中心に約100曲を作曲しました。その記録は ここ にあります ( ← この写真 で指揮をしているのは20歳の長嶋 )
- 長嶋のライヴComputer Music作品では、コンピュータと一緒に演奏する演奏家のために楽譜(図形楽譜)を書いて渡したりしました。そのうち90年代後半の4作品については以下のように楽譜全体を記録していました
- それ以外の長嶋のライヴComputer Music作品の楽譜については、 2002年の発表 の中で、次のような楽譜の一部を紹介していました(曲の解説と共に参照して下さい) → ★ ★ ★ ★ ★ ★ ★ ★
![]()
- 「図形楽譜」については、第6週に再び話題として紹介する予定です
音楽の構成要素
- 一般的に「音楽の3要素」と言われるもの
- メロディー(旋律):歌える「曲の線」で、最も耳に残りやすい部分です
- ハーモニー(和声):メロディーを支える和音の重なりや進行のことです
- リズム(律動):音の長さや強弱のパターンで、ノリやテンポを生みます
- 音の高さに関する深いテーマ
- 人間が知覚する音の高さ(音高)に関しては、理論的に明快ないろいろなテーマがあります
- ある音のオクターブ上下の音は「同じ」と知覚されるという「音階の螺旋」という性質があります
- ある音からオクターブ上までの間に幾つかの音がある構造を「音階」(スケール)と言います
- 全音階(Diatonic Scale)とは、オクターブをドレミファソラシの7音で構成しますが、「ド〜レの間」は「ミ〜ファの間」の2倍あるなど、等間隔でない不思議な分割となっています。このあたりに興味があれば、長嶋が全部書き下ろした 音律について を眺めてみて下さい。ここでは基本的な音楽用語の解説もしています
- 12等分平均律(いわゆる平均律)とは、オクターブを12等分した音階です。ピアノの鍵盤やギターのフレットのように、オクターブは全て「半音」という間隔で隣接する12音から構成されています
- 5音音階(Pentatonic Scale)とは、ピアノの鍵盤で言えば「黒鍵」という間隔でオクターブを5音で構成するスケールで、実は今回の冒頭に体験した伝説のFLASH"Matrix"では、縦方向に16個並んでいる音の高さは、このペンタトニックで出来ています
- ペンタトニックの最大の優位性は、「そのどれを同時に鳴らしても全て協和している」というところで、これがFLASH"Matrix"をどのように適当にいじっても音楽的に破綻せず楽しみ続けていられる「秘密」です。ピアノの黒鍵だけをどのように適当に弾いても「猫ふんじゃった」のような感じで、不協和感なく楽しめるのも同じ理由です
![]()
(長嶋が作成した某大学入試問題より)
- 音階には他にもいろいろあります。長嶋のComputer Music作品でよく使われているのはWhole Tone Scale(全音音階)というもので、オクターブを等間隔に6分割したものです。 全音音階の最もポピュラーな例としては、アニメ「鉄腕アトム」のテーマソングの冒頭の7音、というのが有名です。ぜひ探して聞いてみて下さい
- sunoが音楽生成において必ず作ろうとする「メロディー」は、その曲で採用されているスケールから選ばれた音で構成されます。なので雰囲気を変えたい場合にはPromptで違うScaleを指示したくなりますが、残念ながらsunoに「音階(Scale)」という概念はありません
調(Key)
- 音楽をメロディーやハーモニーやスケールで考えるために必要なのが、調(Key)の概念です
- 前述のスケールには「起点」があり、12等分平均律の世界では、音の高さを考える基準の「調的中心(Tonal Center)」の概念が重要です
- オクターブをドレミファソラシの7音で構成するDiatonic Scaleの場合、「ド」の位置がKeyです
- 例えばあいみょんの曲に多いのは「Key=G」です。これはG(英語でジー、独語でゲー、日本語でト、と呼ぶ絶対的な高さ)音が「基音(root)」となる「Gコード」(構成音 = G・B・D)のG majorコードを「トニック」と呼ぶ基準点としています。何故あいみょんに「Key=G」が多いかというと、ギターを弾くときによく出てくるコードのG/C/D/Em/Am/Bmなどのコードが「押さえ易い」ためと考えられます
- コード(和音)にも「近親調」という概念(トニックに加えてドミナント、サブドミナント、平行調など)があり、あるKeyで多く登場する和音はグループを構成しています。sunoはそのあたりをコード知識としてでなく音響クラスターの推移としてLLM学習して、「聞いていて自然」・「どこかで聞いたことがある」というような和声的構造を生成します
![]()
- カラオケで「キー」というのがありますが、声域に合わせて歌いやすく調(Key)を全体として上下するもので、上下されても音楽の調的構造は維持されていますが、実際の高さは半音単位で上下します。これを「移調」と言います
- 移調とは違って、音楽の中で「調的中心(Tonal Center)」をごっそり移動してしまうというテクニックがあり、これを「転調」と言います。ポップスでよくある転調は、曲の最後あたりでサビ部分が全体として半音上とか全音(半音の倍)上とか、上がって盛り上がるものです。クラシックとかの場合には、完全4度(半音5個分)とか完全5度(半音7個分)とか、大幅にジャンプする「転調」が基本で、ときにはどこかで転調した先から元の「調的中心(Tonal Center)」に戻るという転調、というテクニックもあります
- 最近(ここ20年ぐらい)のPOPSで多用されている転調は、「短3度上昇」(C→Eb)・「短3度下降」(C→A)・「長3度上昇」(C→E)・「長3度下降」(C→Ab)あたりです。ここでの記号はコードでなくTonal Centerです
- このあたりに興味があれば、長嶋が全部書き下ろした 音楽理論特訓集中講座 を眺めてみて下さい。ここでは基本的な音楽用語の解説もしています
「アレンジ」とは何?
- アレンジ(編曲)と「作曲」との違い
- 古典的な意味では、ある元楽曲のメロディーをそのまま利用して音色(楽器)を変えつつ、メロディー以外のパートのパターンを色々と変えることをアレンジと言います
- これまでの音楽著作権を巡る争い(裁判など)では、主としてメロディーが同じであることに注目しています
- 「コード進行に著作権は無い」という説は昔から有名で、数が極端に限られているコードの連なりについては、いくらパクッても(真似しても)OKです
- 実際には、同じメロディーに対して、全く印象の変わるアレンジ(マイナー/メジャーを逆、レゲエ風、ブルース風、テクノ風、メタル風、ラップ風、ワルツ風、行進曲風・・・)が可能ですが、あくまでメロディーが同じであればアレンジ(編曲)であり、「作曲」ではない、という運用が一般的です
- sunoにおけるアレンジ
- sunoは基本的にメロディーを作りたがります。その理由は、学習に利用した既存の音楽の多くがそれぞれメロディーを持っているからです
- Promptによって、アレンジは色々に変化します。すると生成される楽曲の印象は大きく変わるので、sunoにおいては「Promptが重要」です
- sunoが苦手なのは「ドラムやベースの入らない、楽器ソロ演奏」です。これは、学習に利用した既存の音楽の多くがポップス等の「バンド編成」となっているためです
- ChatGPTが告げた「Sunoが苦手な音楽トップ10」
- 完全な無拍子音楽 → かなりの確率で勝手にビートが入る
- 完全なソロ楽器 → パッド、ピアノ、ドラムなどが勝手に追加される
- 長いクラシック形式 → Sunoはポップ曲構造(3〜4分)に最適化されている
- 複雑なポリフォニー(バッハ風フーガや多声対位法) → AIは「和声+メロディ中心」なので独立した複数声部は弱い
- 正確な楽器指定 : 「oboe + bassoon + contrabassoon」 → 「strings + piano + synth」に置き換えられがち
- 実験音楽(ノイズやグリッチやmusique concrete) → Sunoは「音楽らしい音楽」に寄る
- 現代クラシック → AIが不協和の構造を維持できない
- 完全な無伴奏歌(a cappella や solo vocal) → 背景パッドやビートが入りやすい
- 非西洋音楽 → トレーニングデータが西洋ポップ中心
- 数学的音楽 → AIは統計音楽なので規則的な作曲体系は苦手
音楽のモデルについて
- 今回のテーマでは「作曲」「アレンジ」を取り上げましたので、ここで関連して「音楽のモデル」について紹介します。「sunoの"モデル"」ではなくて、人間が音楽と関わる状況について、モデル化して議論したものです。興味のある人は検討・考察してみて下さい
- ここでは、2013年6月8日『日本時間学会第5回大会』(山口大学)で長嶋が行った講演「音楽における人間の知覚認知と時間」において、長嶋がプレゼンに使用した何枚かの「図」を紹介します
- 以下は「古典的な音楽」(20世紀まで : 正確には「20世紀に録音技術が登場するより前」)の図式です。作曲する人(Composer)はまず、楽譜(Score)を書きます。演奏者[指揮者を含む](Player)はこのScoreを解釈して演奏することでサウンドを鳴らします。聴衆(Listener)はこのサウンドを聞いて/聴いて、その音楽を堪能します。同じ楽譜であっても、演奏者の解釈・表現によって、最終的なサウンドはその場限りにいろいろと変容します
![]()
- 以下は「コンピュータ音楽」と書かれているもののそれに限らず、20世紀の「録音技術」以来、現在まで続く「聞く音楽」の図式です。理解するには後ろから考えるとシンプルです。聴衆(Listener)はサウンドを聞くのですが、生演奏というよりも、録音された媒体(レコード、テープ、CD、MD)やデータそのもの(iPod、ストリーミング聴取)によって「再生」された電子的なサウンドをスピーカ/イアホン/ヘッドホン等で聞きます。その上流には、「録音された媒体」を作り出す人間(Composer)が使うシステム(DTMとかDAWとかMax[←第7週に解説します]とか)がある、という図式です。音楽生成AIが作った音楽の場合、この上流の人間まで不要となってきた時代です
![]()
- 以下は「これまでのコンピュータ音楽」と題して、上の図で「ComposerとSystemまで」を、いわば「クリエータ」としてまとめたものです。作曲家はシステムを自分の手足のように使って作曲するので、最終的にListenerが聞く「サウンド」までを全て一人で作成できます。これは現代でも、ボーカロイドの楽曲を一人で作ったりしているのと同じです。「生成音楽論」的に言えば、この「Composer/Programmer」の部分を全て、現在ではsunoなど音楽生成AIが担当している・・・ということになります。重要なのは「聞き手」の方で、「ただ受動的に聞くだけ」というものである事に注意して下さい
![]()
- 以下は上の図式から「今後のコンピュータ音楽(大衆が能動的に参加)」という方向を示した図です。上流の作曲家は音楽演奏のための「データ」までを提供して、再生システムを聴衆の側に持ってくる・・・という技術的進展の可能性を示しています。これにより、最近では一般的になってきた「倍速視聴」のように、音楽をちょっと早め/遅めに聞く(ピッチや音色はつられて変化しないように補正)、エコーやリバーブなどの空間音響の様子を自分オリジナルに設定できる、などの自由度がリスナーの側に移動します( → Active Listener)。これは最近のカラオケ機器では現実になっていて、テンポやキーの設定だけでなく、各種のスタジアム/ドームの残響に設定できる機能などが充実しています
![]()
- ここからは、この並びの一番上にあった「古典的な音楽(20世紀まで)」の図式に戻って、Composer/Player/Listenerのそれぞれの「中の処理」に注目した図が3つ続きます。以下の図は「Composer(作曲家)」の頭の中の働きを示したもので、「作曲家は決して、思い付いた一つ一つの音をエイヤと楽譜に書き込んでいない」という事実に対応しています。つまり、作曲家の頭の中に「Composer/Player/Listener」の働きは同時に存在していて、Composerが示した「音の候補」をPlayerが試しに鳴らしてみて、それをListenerが評価して、OKとなったら採用される・・・というような一連の情報処理が延々と繰り返されているのが「作曲家の頭の中」なのです
![]()
- 以下は「古典的な音楽(20世紀まで)」の「Player(演奏家/指揮者)」の頭の中の働きを示したものです。入力として「楽譜」がありますが、これを演奏するPlayerだけでなく、それを「解釈」という即興(Improvisation)で変化させるArrangerがいて、それをListenerが評価しつつ採用(演奏)されてサウンドになる・・・というような一連の情報処理が延々と繰り返されているのが「演奏家/指揮者の頭の中」なのです
![]()
- 以下は「古典的な音楽(20世紀まで)」の「Listener(聞き手)」の頭の中の働きを示したものです。入力される音楽に対して、その行き先を「予測」して「期待」するArrangerもいて、Listenerは実際の音楽の進み方とArrangerが「期待」した音楽の両方を「聞き」ます。時には期待通りに進行したこことで嬉しくなったり(予定調和)、時には予測を外れた「意外性」に驚きつつも、その後の展開から「そうだったのか」と納得して嬉しくなったり・・・というような一連の情報処理が延々と繰り返されているのが「聞き手の頭の中」なのです。慣れてくると、難解なジャズや現代音楽の「意外性」も、一種の喜びとして享受できるようになります
![]()
- sunoの場合には、このようなモデルで音楽を生成しているのではありません。過去に学習した膨大な音楽の音響空間から、promptに対応して合致/類似する特徴ベクトルに対応した音響を(LLMのように)一気に曲の頭から最後まで生成してしまうので、「出力されるサウンドを聞く」Listenrなり「サウンドを聞いて反応する」Improviserは存在しません。sunoは自分の生成した音楽を聞いていないので、音響接続に失敗してリズムがコケたりする事もたまにあります(人間なら気付くのですが、sunoは生成結果を聞き直して修正したりしません)
今週の課題
- 今週の課題は、以下の2パターンのいずれか一方です
- パターン(1) : [1]伝説のFLASH"Matrix"を使って「"Matrix"で鳴らしてみた」という音楽を体験し録音して、そこから30秒間を切り出したサウンドファイルmp3、[2]"Matrix"を体験してみた感想や質問(100文字以内の[テキスト])
- パターン(2) : [1]今回のテーマ「音楽理論」を意識/追求したsuno生成曲[mp3]、[2]suno生成条件と100文字以内の感想/質問[テキスト]。この場合、今回のテーマ「音楽理論」を意識・追求するために考察・検討して与えた「suno生成条件」(3つ)を明記して下さい。第1週と同様ですので、第1週教材ページをよく確認して下さい
- 課題のsuno生成曲には「ボーカル(歌)と歌詞が入っていない」という条件があります
- mp3については、sunoで生成された楽曲を第1週テキストの「イントロダクション」に書かれているように「30秒以内」(あまりに短いのは不可。25秒以上)に切り取ったmp3ファイルとして下さい。シラバスでは「課題提出mp3のduration」を1分間(60sec)と書いていましたが、受講者数がかなり多いため「30秒」に改訂します。このトリミングをしないでsuno出力そのままの長い楽曲の場合には「形式不備」として大幅減点になります
- 添付提出mp3ファイル名は適当な名前で結構です。SEIKA PORTALが学籍番号などをファイル冒頭に自動付与するシステムと判明したので、なるべく短めでOKです。例 : 「1.mp3」
- 課題提出は「クラスプロファイル」から行い、「ウェブ提出」でなく「ファイル提出」として行います
- 「ファイル提出」の「添付ファイル」としてmp3ファイル(duration:25秒以上30秒以下)を提出すると共に、「コメント」欄に課題回答をテキスト入力して提出します。第1週教材ページをよく確認して下さい
- 長嶋は「ファイル提出」の「フィードバック」欄には個別回答しません。長嶋が「共有するに値する」と思ったごく少数のmp3と、長嶋が「共有するに値する」と思った「コメント」欄の内容/質問に対する共通なフィードバックは、提出期限以降に、この公開ページの最下段に追記します(←mp3作成者および内容/質問の発言者は全て匿名となります)
- 「クラスプロファイル」の「掲示板」機能については、「学生(同士)の意見交換の機会」(←教務課の説明)として開設します。ただし中身については長嶋は基本的に関与しません。「学生の自主性に任せる運用」(←教務課の説明)です。掲示板(全体で1つのチーム)開設のためには、形式的に誰かをチームリーダーとして登録する必要がある(システム設定上チームリーダーは1つのチームに必ず1人設定しなければなりません)とのことなので、まったく形式的に誰かをリーダーとして毎回設定しますので了解して下さい。ディスカッションは「第◯回授業内容についての意見交換」という形になるようなので、基本的にディスカッション期間は1週間ほどと設定します
提出された課題に対するコメント
- ★ 授業で学んだペンタトニックスケールやリズム、和声を意識して条件を設定した。実際に協和感のある旋律と反復的なグルーヴが生成され、音楽理論との関係を確認できた → いい感じに出来たと思うのですが、あなたが与えたpromptの中で「consonant harmony」というのだけが不明です。consonant harmony「子音調和」というのは言語の発音における音韻的同化の一つということで、ちょっと和声の文脈に添いません。何かspell missがあったのでしょうか
- ★ 生成曲が音楽理論的に正しいのか、私の知識や音感では判断しきれず、音楽理論と聴く力をもっと学ぶ必要があると感じました。また、個人的にMaxに興味があり、第7回目の話がとても楽しみです → 148単語という膨大なpromptには圧倒されました。sunoが「Em - D - C - B7」などという具体的なコード進行のpromptに従うのか知らなかったのですが、聞いたところ妥当に反映されていました。まぁ、この進行はかなりpopularなので、過去に学習した楽曲の付帯情報としてこのコード進行が記述されていた可能性が高いです。理論を理解して鍛えていけば「聞いただけでコードネームが取れる」ようになる(「絶対音感」は不要です)ので頑張って下さい。Maxについては第7週までお待ち下さい(掘り下げたい場合には、精華大には落先生とか平野先生とかMax猛者がいます)
- 音楽理論についてはあまり詳しくないため今回出力したダイアトニックコードが実際に正しく出力されているのかが不安ですが、聞いてみた感じではいきなり調が変わる場面といったもなかったので安定的だと感じました → promptの転調指定が「smoothly modulates from G major to D major」(完全4度下行)という近親調への転調だったので、聞いていても自然(安定的)だったと思います。この最後の行き先を「D# major」とか「A# major」とかにするとどうなるか、試してみましょう
- ★ 生成条件を「Modulation」にすることで、ジャズ特有の理論的で複雑なコード進行を生成できたと思います。今後は、理論から外れた音楽の生成にも挑戦したいです → あなたの与えたpromptが「Jass, Minor, Modulation」だけだったとすれば、30秒の断片だけですがこの生成された音楽は「Jazzっぽい音響断片を繋げた」ような印象があります。「ジャズ特有の理論的で複雑なコード進行」とのことですが、やや不自然なコード進行(音楽全体の構成が見えず)なのに、sunoの得意な「局所的に妥当な進行の音響」に騙されてしまいそうです
- プロンプトの日本語表記は苦手とのことだったので英語で入力しました。音楽理論的にはリズムを感じられるものにしたかったので、三拍子のワルツ風にしました。変拍子も試してみましたが、入力のせいか苦手なのかもしれません → 英語promptは今後も役立つので続けましょう。3拍子ワルツとかは綺麗に出来ますが、sunoに変拍子を生成させるのはかなり苦労します。僕も7beatsとか5beatsのRock/Jazz音楽や、曲の途中で拍子が交互に変わる(8beats→7beats)とかを生成させようとかなり格闘したことがありましたが、なかなか上手くいきません
- 今回音楽理論的な生成条件を加えて生成してみて、lo-fi drumsという指定がなんど試みても反映されなかった。まだ自分の思うままに曲をつくるには人間がつくるのが1番だと考えた → lo-fi drumsの指定が上手くいった人もいました。「Cmajor, Pentatonic scale, lo-fi drums」というpromptはとても「音楽理論的な生成条件」とは言えません。この程度のpromptしか与えられないのに「人間がつくるのが1番」と結論づけられてしまってはちょっとsunoが可哀想です
- オーケストラと指定したのに、全然オーケストラの曲にならなくて驚きました。英語で記入するのと日本語で記入す るのでは精度が変わってしまうのか気になりました → 日本語promptの精度は英語よりも低下します。オーケストラということで「クラシック交響楽団」的なイメージを期待したとしたら、classicとかstring ensembleとかbrass ensembleとか、色々とイメージに近づけるキーワードを探してみましょう
- ★ 前回の失敗を活かして、プロンプトをより細かく設定してみました。結果としてはコードを多用し動きがたくさんみられたのでとても満足しています → あなたの与えた生成条件「kawaii future bass系にすること」・「転調を含む楽曲構成にすること」・「コードを多用し動きをつけること」でこの音楽が出来たことにちょっと驚いています。全体としてはsunoで過去に生成された「kawaii系」の音楽の学習結果が大きく役立っているものと思われます。ここにさらにあなたのユニークさを付加するにはどうするか、というのが次のテーマですね
- ★ コード進行や転調、リズムを意識して条件を入れることで、曲の雰囲気や展開に理論的な意味が生まれると感じた。AI生成でも音楽理論を指定することで、ただ雰囲気だけの曲ではなく、構成を考えた作品に近づけられる点が面白いと思った → 「雰囲気だけの曲ではなく、構成を考えた作品に」というのは鋭い視点です。あなたの与えたprompt:「音楽理論を意識したJ-pop/lo-fi jazz曲。キーはAminorを中心にし、サビではCmajorに明るく展開する。AメロはAm-F-C-G、サビはC-G-Am-Fを中心に、E7→Amのドミナントモーションとii-V-I進行を入れる。4/4拍子、BPM100、シンコペーションのあるドラム、ルート音を支えるベース、分散和音のピアノを使う。短いメロディーモチーフを反復しながら少しずつ変化させ、最後は安定した終止感で終わる」というのは立派なのでマルマル転載しました
- ★ ペンタトニック音階や反復リズムを意識しましたが、明示しなくても音楽的特徴が反映される点が興味深かったです → 「Pentatonic scale inspired ambient music, repetitive minimalist rhythm, clear tonal center and gentle harmonic progression」というprompt指定でこのような美しい楽曲が生成されるのには驚きました。ドラムとかが入ってこなかったのは、おそらくambient musicとかrepetitive minimalistとかgentle harmonic progressionとかのキーワードによって、sunoが過去に学習した音楽からそういうテイストに寄せてきたからかと思われます
- (FLASH "Matrix" を鳴らして作成) 体験してみて、ブロックを増やしたら音が増えますが、ランダムに減らすことで音色が全く変わることを感じ、面白かったです → "Matrix"はペンタトニックスケールから音を鳴らします。つまりそれぞれの音は振動数比が比較的シンプルな分数(整数比)になっているので、同時に2音とかを鳴らした場合には、別々の2音というよりも「合成された音色の1音」のように聞こえてきます。その音色変化に気付いたことは、素晴らしい体験になったと思います
- ★ 前回の真逆のチル系に挑戦。AIの理解度が高い英語での入力を意識し、レトロシンセやBPM等の要素に分解して与えました。狙い通り夜のドライブに合うエモい音源が作れ、英語指示の有効性を実感しました → 「Chillwave, retro synthesizer, smooth ambient pads, slow nostalgic electronic beat, 90 bpm, cosmic midnight drive mood, instrumental」というprompt指定は立派です。このサウンドでは「smooth ambient pads」というのが効いているようで、どうもsunoは「ambient」とか「pads」というキーワードに対して「頑張ってくれる」という個人的印象があります
- AIが次々と続く妥当な音響をそのまま生成しているということを知り、人間が1から作る音楽の良さを改めて実感した。また、sunoには音階の概念がないことに驚いた → sunoは音階の概念を音楽理論的には用いていないのですが、ハーモニーと矛盾しない音でメロディーを生成するという事は、そのメロディーが和声に対応した音階を形成することになり、結果的には音階として妥当なメロディーに落ち着きます。先に「音階の理論」を用いないものの、最終的に聞こえてくる音楽には音階があるわけです
- 今回はメロディー、ハーモニーとリズムを意識して生成しました。Sunoは「楽譜」の概念がなくて音そのものを生成するAIだと知って、人間の作曲との違いが面白いと感じました。自分では思いつかない音の組み合わせが生まれるところも興味深かったです → あなた一人だけ前回に続いて、提出されたmp3ファイルが実体はスマホの縦画面のmovieファイルとなっています。早めに提出するのは立派ですが、誰か友達に聞いて、正しくmp3ファイルで提出できるようにして下さい