音素材の生成 1997年4月 長嶋洋一
■ 音素材の生成 ■ (Sound Synthesis / Sound Generation) 1. はじめに 本章では, コンピュータ音楽の素材として用い られる音を生成する情報処理について概観する. 人間が聴取する音に関しては, コンピュータによ る音響合成システムから出力された電気的信号を 空間音響に変換する音響工学や, 音の知覚から音 楽の認知に至る音響心理学の領域も重要であるが, これは別の機会に譲ることにする. [1][2] コンピュータ音楽における音楽音響学的なアプ ローチの歴史的および技術的な解説と文献紹介に ついては, 中村[3][4]の概説をぜひとも参照され たい. 本章では特に最近のアプローチを中心に, ・アルゴリズムによる音響合成 ・物理モデルによる音響合成 ・統計的信号処理による音響合成 というカテゴリに分類して紹介する. コンピュー タ音楽の研究では音響合成手法が日々刻々と発展 し, 明日にはまったく新しいコンセプトの音響が 誕生するかもしれない. 本章の分類は筆者の独断 による現在の状況紹介であることを予めご理解い ただきたい[5][6]. また, 紙面の関係で具体的な アルゴリズム例や数式表現を省略しているので, 興味のある方は章末の参考文献を参照されたい. 2. 音素材としての音響合成技術の基礎 コンピュータ音楽で用いられる音響信号処理を 技術的に定義すると, 対象は人間の聴覚帯域とさ れる50Hzから15KHz(一部の研究では超低音(15Hz) から超音波(50KHz)まで)の周波数帯域である. デジタル信号処理的に言えば, 量子化方向に16 ビット以上の精度, サンプリング周波数が50KHz程 度のタイムスロットで, 2チャンネルから4チャン ネルの音響信号データを刻々と処理・出力するよ うな演算処理能力が要求される. [7][8][9] 大型計算機の非実時間処理時代には, それぞれ のサンプルポイントの演算データをメモリに記憶 してから, 最終的にD/A変換してアナログ音響のテ ープを作成した. 現在ではコンピュータ専用のDSP システムを搭載して, 実時間の信号処理を行うの が一般的である. 具体的な処理エンジンとしては, ・汎用DSPチップ ・RISCチップを信号処理専用に並列化 ・音響処理専用DSPチップ/音源LSI などがあり, コンピュータ内蔵, あるいは拡張ボ ード(マルチDSP)の形態で各種提供されている. なかでもフランスの研究所IRCAMが開発したDSPシ ステムISPWは, オブジェクト指向のGUIによって マイクロプログラミングの障壁を解消し, 世界中 の研究者が使用する標準機となった. [10][11][12] なお, 上の例は音響の断片である単純な音素材 の生成の場合であり, 音楽の要素である楽音を発 生する楽器としてシステムを考えると, もう少し 技術的要求が厳しくなる. サンプリング周波数を 50KHzとすると, 同時に20種類の音(和音も個々に 演算する必要あり)を得るために必要な1音の処理 時間は1μsecとなり, 1音の生成が50演算サイクル としても1サイクルのクロックタイムは20nsecとな る. これは汎用のDSP乗除算やメモリアクセスの限 度であり, 音源専用LSIでは演算部分を多重化した パイプライン処理も一般的に行われている. また, 数十音のデータを累算しても最終的な16ビット精 度を確保するために, 内部演算処理は24ビットな いし32ビット幅のデータ表現が採用されている. 3. PCMとサンプリングの問題点 市販の電子楽器はアナログ音源方式の長い歴史 を経て, 現在ではほとんどがPCM方式となった. た とえば電子ピアノ内部の大容量ROMは, 世界的名器 とされるアコースティック・コンサートグランド ピアノの音響をデジタル記録したPCMデータで一 杯である. この録音データは, 演奏された鍵盤の 音程と打鍵の強弱(タッチ)データに応じて読出さ れ, D/Aコンバータで変換されて音響出力となる. PCMデータ幅を16ビット, 標本化周波数50KHzで 単音の音響を10秒間ずつ記憶し, それを88鍵(ピ アノの音色は鍵盤ごとに異なる)とタッチ量ごと に50段階ほど用意すると, 全体で約35Gbitsのデー タ量となる. 実際にはペダルや共鳴・残響を含め た多くの演奏ファクタが関係するために, さらに 多量のデータが必要である. そこで, 音域を粗く 分割して異なる読出し速度で共通の波形を使用し たり, タッチ量を単純に音量(振幅)として乗算 してメモリ分割を行わない, 等の便宜的手法で大 幅な情報圧縮・コストダウンを行っている. このようなPCM録音による音源方式は, ディジタ ルオーディオと同様に, 音響をスピーカから聴く 人にとっては本物らしく聞こえる. 電子ピアノで は自然楽器の演奏術は徒労に終わり, 猫が鍵盤ス イッチを踏んでも同じ音響を発生する. つまり, PCM方式では音色をリアルタイムに制御できないた め, 実際に鍵盤を演奏する本人だけはどうしても 違和感がある. 録音されたデータの呼び出し(再 生)では, メカニカルなピアノでも演奏のニュア ンスを反映できないのは当然で, より密接に人間 の制御と発音機構が結び付くバイオリンやフルー ト等の音響に至っては, まったく論外である. パソコンのマルチメディア化が話題になり, CD レベルの品質の音響生成が可能になってきたが, これは再生専用のものである. ビープ音, FM音, PCM音と進化してきた音響合成の技術は, 警告音や BGM音, あるいは音響データの切り貼りで済む分野, 楽器を弾けない人がパソコンで楽しむ音楽(リス ナーとしての参加)等では今後も健在であろう. しかし, より創造的なコンピュータ音楽(作曲・ 演奏・芸術)の領域で使えるものではないために, 世界中で多くの研究者によって, 各種の音響合成 方式が検討され続けている. 4. アルゴリズムによる音響合成 音響合成手法で圧倒的に主流となっているのは, 音響信号処理の要素をソフトウェア的なアルゴリ ズムとして記述する手法である. ここではユニッ トジェネレータ(UG)と呼ばれる基本要素を用い ていろいろなアルゴリズムを構成するのが一般的 である. まずUGと音素材との関係を整理し, 次 に加算, 減算, 非線型変換, の各方式の音響合成 手法と現状について紹介する. 4.1 ユニットジェネレータ(UG)による音要素の生成 UGとは, 音響合成アルゴリズムの基本的な単位 となる一種の信号発生要素(発振器)である. ソフ トウェア的には図1のようにAND回路のようなブロ ックで表す一種の関数であり, 内部には一定の長 さの特性(波形)テーブル Table を持っている. 2つの入力のうち, inc パラメータはこのテーブ ルのデータを刻々と参照していくスピードを与え, amp パラメータは参照されたデータに乗算されて 出力 out となる. 一つのUGで音を作る場合には, これらのパラメータは音の3要素に対応して, ・inc →ピッチ(Pitch:音の高さ) ・amp →ラウドネス(Loudness:音量) ・Table →ティンバー(Timbre:音色) と考えることができる. また, UGは音響信号そのものだけでなく, 音響 合成のアルゴリズムに必要な信号発生器としても 活用できる. たとえばUGの inc パラメータ入力に 別のUGの出力 out を供給することは, 後述の周波 数変調(FM, あるいはビブラート)に相当する. UGは通常はテーブルに従って周期的なデータを 読み出す, 周期信号発生器である. これをトリガ によって一回だけデータを読むように設定すると, そのまま音響の時間的変化特性データ(エンベロー プEnvelope)の発生器となる. UGをこのようなワン ショット動作に設定し, 別のUGの amp パラメータ 入力に供給すると, 音量の時間的な変化特性を実 現できる. このエンベロープは音量に限らず, ・倍音成分の強度変化 ・フィルタのCut Offの時間変化 ・変調の強度変化 などによって, 音色の時間的変化(タイムバリア ント)にも活用できる. また, アルゴリズムの構 成要素としてUGをより一般化した演算子要素とし ては, 加算器・乗算器・単位時間の遅延要素など もよく使われる. 4.2 加算方式による音響合成 アルゴリズムによる音響合成のもっとも代表的 なものが加算方式であるが, 最近は分析・再合成 (Analysis/Resynthesis)方式とも呼ばれている. この手法に共通の考え方は, 1.分析によるパラメータ抽出 2.パラメータの処理(クロス・シンセシス) 3.パラメータによる再合成 というステップを行うことである. 具体的に特徴 となるパラメータの視点から列記してみると, ・サイン合成(倍音成分) ・バンドパスフィルタ群(Vocoder) ・線型予測(LPC) ・調和成分とノイズ成分を分離 などがある. このようにわざわざ各種のパラメー タをいったん介在させる目的と理由は, 音楽的に 有効な音響生成の制御と, システム実現の面で効 果的な情報圧縮にある[13]. 4.2.1 サイン合成 人間の聴覚は音色を高調波スペクトルの組み合 せとして知覚することから, サイン合成はもっと もポピュラな音響合成方式である. ここでは発生 する楽音の基音から整数倍音のそれぞれに相当す るピッチ inc のUGを用意して, 個々の amp に別 個のエンベロープ発生UGからの出力(Harmonic Envelope)を供給し, これらの倍音成分をすべて 加算して最終的な音響信号を得る. 最近の研究では, 定常的な音色でなく非常に短 時間の離散フーリエ変換 Discrete Short-Time Fourier Transform によって, 音声のような 非定常的な音響や, 自然楽器においてある音から 別の音に移る瞬間の複雑な変化を発生する手法が 注目されている[14]. また, オーバラップさせた サイン関数表現によって, ピッチによらずに自動 的に分析・再合成する手法[15]もある. 4.2.2 ボコーダ(Phase Vocoder) 聴覚の周波数帯域を細分したバンドパスフィル タ群によってフォルマントフィルタを構成するた めの強度パラメータを抽出し, これを再びバンド パスフィルタ群のゲイン特性として再現したボコ ーダの独特の音色は音楽に広く使われている. ボコーダとは、基本周波数を整数倍音系列にと らず, 基本波形を正弦波と限定しない, という拡 張を行った一種の分析合成方式である. そこで ボコーダ自体の研究というよりも, 実際の音楽制 作の現場での適用として, マルチプロセッサのネ ットワーク環境でボコーダ処理を分散させる手法 [16]など, 応用的な研究対象となっている. 4.2.3 線型予測(LPC) 線型予測LPC(Linear Predictive Coding)による 情報圧縮(特徴抽出)がコンピュータ音楽の世界 で音響・楽音・音声の分析/合成に適用されるの は, 情報理論的な意味で楽音情報の冗長性をうま く利用しているからである. そこで, LPC方式の音 響合成では, 定常的な楽器音よりも劇的に変化す る, 声や歌の合成を目標とした研究も多い. LPCによって抽出された各種の音響パラメータに もとづいて音響合成を行う方法としては, ・スペクトルモデルに適用 ・全ポールフィルタに適用 ・ウェーブガイドのループフィルタに適用 などの方法がある. つまり見方を変えると, LPC合 成方式というのは, 音響的に良好な短時間パワー スペクトルを, 非線型にスムージング(なめらか に接続)する方式, ということができる. 最近の研究としては, 音声分析の手法である McAulay-Quatieru法を適用して, 複雑に変化す る音響・楽音を分析/合成[17]した例がある. 4.3 減算方式による音響合成 アルゴリズムによる音響合成の次のタイプとし て, ここでは減算型と呼ばれる中から ・デジタルフィルタ方式 ・フォルマント方式 の二つをとりあげる. 減算型の原理としては, ア ナログシンセサイザのVCF(カットオフ周波数を時 間的に可変できるLPF)がその源流にあり, 実際の 電子楽器としてはサイン合成方式よりも古い. また, 人間の声は声帯からの音響素材を咽喉・ 咽頭のフィルタで調整する, という一種の減算方 式である. つまり人間の感覚に親しい音響合成方 式であり, ここでのキーワードはフィルタという ことになる. 4.3.1 デジタルフィルタ アナログシンセサイザのVCFは一般にLPFであり, これを単純にコンピュータ上に置き換えて実現し たのが, デジタルフィルタ方式である. 具体的 には, サンプリングに対応した演算周期ごとに ・システムクロック単位の遅延要素 ・係数のための乗算要素 ・累算のための加算要素 というUGを用意して多段結合すれば, IIRタイプな いしFIRタイプのフィルタを構成できる. 最近の研究としては, デジタルフィルタを理 論通りに構築した場合の不自然さを検討し, 敢え て特性に歪をもたせた「暖かい」デジタルフィル タを実現する, という報告[18]があった. このタ イトルの「デジタルフィルタをアナログのよう に聴かせる」という考え方自体, デジタルはア ナログよりも優秀である, という一般的な概念が 音楽の世界では否定されうる事実を示しており, 人間の聴覚(心理)に回帰するコンピュータ音楽の 重要な視点として興味深い. 4.3.2 フォルマント(Vowel) フォルマント方式とは, 共鳴体の音響に固有の 特性をフォルマントフィルタとして実現するもの であり, アルゴリズムによる音響合成方式と物理 モデル方式との橋渡しをする役割りにある. コンピュータ音楽におけるフォルマント方式の 適用は, おもに声の合成を最大の目標としており, 線型予測・ボコーダなどとともに, フォルマント ・トラッキングによってコンピュータに歌わせる ことを目指した研究[19]が続けられている. 音声の再生でなく歌唱を生成するためには, 複 数のフォルマントフィルタを用意するだけでなく, たとえば母音ごとに各フィルタの中心周波数が変 わり, さらに女性の声と男性の声でもパラメータ が変わるなど, アルゴリズムはかなり複雑になる. IRCAMで研究・開発されたCHANT[20], あるいはFOF [21]という音声合成による楽音合成手法も, フォル マント方式の一種のバリエーションである. 4.4 非線型変換による音響合成 アルゴリズムによる音響合成の最後のタイプと して, ここでは非線型変換という視点から, 振幅 変調方式・周波数変調方式・ウェーブシェーピン グ方式の3種を紹介する. つまりこれらの方式は, 音響を生成するUGに対して, 順に ・UGの振幅 amp を変調するもの ・UGのピッチ inc を変調するもの ・UGの波形 Table を変換するもの と考えることができる. 4.4.1 振幅変調(AM) 低周波信号による定常的な振幅変調がトレモロ 効果と知覚されるのは数Hzまでであり, AM変調周 波数を100Hzオーダに上げると, むしろ音色を変化 させる変調と知覚されるようになる. さらに楽音 のピッチに対応させて, ピッチと同じ周波数レン ジのUGによって多段のAMをかけると, 他にないユ ニークな音色の楽音を発生することができる. また, 通常AMは 0−1 の変調度をもっているが, これをバイポーラ(両極:-1−+1)の変調度としたも のがリング変調(平衡変調)である. 通信分野でよ く知られているように, 搬送波成分が打ち消し合 って, 元の楽音信号のピッチ成分や倍音成分とは まったく異なった, 独特の音色が得られる. 4.4.2 周波数変調(FM) 民生のシンセサイザと簡易型パソコン内蔵音源 として普及したFM方式[22]は, コンピュータ音楽 の研究者の興味の対象としてはすでに過去のもの となった. もともとサイン合成では作りにくい非 整数次倍音を容易に発生できるのがFM方式の最大 のメリットだったが, PCM方式のリアリティに負け, 音素材としての新鮮さも激減してしまった. 最近の論文では, もっぱらFM方式は他の音響合 成アルゴリズムと比較する引合いとして登場する ばかりである[23]. たいてい, その役回りは過去 の方式の代表としての位置づけである. 4.4.3 ウェーブシェーピング(Waveshaping) ウェーブシェーピング方式は, 基本的には波形 を歪ませることであり, デジタル的に具体化す る場合には, 変換テーブルを参照することに尽き る. ただし, 音響合成に利用する動機としては, ・FM方式のように変わった音を作りたい ・パラメータの補間手段として活用する ・システムへのインプリメントが容易だから などいろいろで, 実現の形態も様々である. 最近の研究例[24]では, 楽音の各パーシャル(こ こでは定常的成分と瞬間的成分など, 特性の異な る複数の音響成分の意味)ごとに時間・音量・音 域などのパラメータに対応してなめらかに歪が増 加/減少するテーブルを用意することで, 従来よ りも少ないパーシャル数で, 効果的に現実感のあ る音響合成(自然楽器の模倣)を実現している. 5. 物理モデルによる音響合成 音響合成手法のカテゴリの第二として紹介する のは, 自然楽器等の音響振動を数学的/物理的な 物理モデルとして構築し, そのままリアルタイム にシミュレーションして音響を生成する方法であ る. ここには音響信号の合成だけでなく, 演奏者 モデルやマンマシン・インターフェースの問題, さらに空間音響や演奏情報のフィードバックとい った広大な研究領域があり, とても本章だけで扱 えるものではない. このような視点での物理モデ ル方式に関する詳しい技術的解説・文献紹介とし ては, 藤森[25]の報告をぜひとも参照されたい. なお, これまで研究者が細々とプライベートに 実現してきた物理モデル方式の音響合成システム が, ついに1993年の末にヤマハから実際に電子楽 器の製品として発表された. サンプリング方式に 続く新勢力となるかどうかが注目されている. 5.1 Karplus-Strongアルゴリズム 物理的振動を微分方程式としてシミュレーショ ンする方法の延長として, 撥弦音とドラム音の合 成方法として提案されたKarplus-Strongアルゴリ ズム[26]は, 物理モデル方式の代表格である. 最近の研究[27]では, 弦楽器と管楽器の物理モ デルを汎用DSP(TMS320C30)で実現し, 可変長遅延 回路としてオールパスフィルタの代りにラグラ ンジュ(Lagrange)補間を参照している. ここでは 双方向の遅延回路も採用しており, 次のWaveguide に近い実装方法と見ることもできる. 5.2 Waveguideフィルタ 物理モデル方式でよく使われるWaveguideフィル タは, もともと無損失の構成ブロックによって残 響装置を作る目的で導かれ[28], やがて楽器のシ ミュレーションに応用された. 1次元の波の成分と して, 右向きと左向きの進行波を明示的に表現し た遅延ループモデルは, 質量とバネの系を記述す る差分方程式を数値的に積分する従来の有限要素 法のアプローチに比べて, 非常に効率的である. 5.3 モーダル合成 モーダル・モデルとは, 質点・バネ・摩擦力を 組にした要素によって構成される[29]. モーダル 合成方式の物理モデルを基にした楽音合成用プロ グラムのMOSAIC(Modal Synthesis and Analysis with Interactive Control)はScheme言語のインタ プリタを基に作成された. 6. 統計的信号処理による音響合成 音響合成手法のカテゴリの最後は, 数学的・統 計的な処理による音響合成方式として, グラニュ ラーシンセシス(Granular Synthesis)とアトラク タシンセシス(Attractor Synthesis)について紹介 する. いずれも主流となる音響合成手法とは言え そうもないが, 音楽の原理的構造との関係におい て興味深い点を筆者は注目している[30]. 6.1 グラニュラーシンセシス Granular Synthesisとは, アイデアとしてはか なり古い音響合成方式[31]で, 音を量子化して扱 うという視点がユニークである. すなわち, 音と 知覚できない(周期振動のない), 微小でなめら かな音圧変化パルス粒子(Grain)を非常に多数個 用いて, ある種のランダム性をもって時間的空間 的に配置する, という手法である. それぞれの Grainの形状や幅, 時間的平均密度, 空間的定位, 音量分布などによって, 発生して知覚される音響 はさまざまに変化する. 最近の研究では, WSのGUIを活用したパラメータ 制御[32]や, ニューラルネットワークを利用した リアルタイムのパラメータ補間[33]など, 原理と してはすでに完結したGranular Synthesisを音楽 にどう利用するか, という段階に移っている. 6.2 グラニュラーサンプリング 伝統的なGranular Synthesisの音響は, 音素材 であるGrainが幾何学的に単純な形状をしているた めに, 楽音としてはピッチ感も音色感も漠然とし ている特徴があった. これに対して, Grainとして 日常的な音響・楽器音・音声などになめらかな窓 をかけて切り出した数十msec程度の音響断片を用 いる, という発想のGranular Samplingが登場した. WSのGUIを活用したパラメータ制御とDSPによる リアルタイム音響合成によって[34], このアイデ アはまたたくまに多くの研究者・作曲家によって 取り込まれ, 実際の作品に適用されている. この 方式は音響を新たに生成するというよりも, もと もとの音響断片のもつキャラクタが色濃く残った, 一種のエフェクタとして活用されている. 6.3 アトラクタシンセシス コンピュータ音楽においては, 自己相似性・フ ラクタル・カオス・Cellular Automata・Genetic Algorithmといった数学的課題は永遠のテーマであ り, 音響合成の領域でもいろいろな試みが続いて いる. その一つAttractor Synthesisとは, サンプ ルとなる自然音響信号を一定の周期性を持たせて アトラクタ空間と呼ばれる空間に射影変換し, ア トラクタ空間内において別の関数で線型変換して から, 再び音響データの空間に射影して取り出す, という一種のAnalysis/Resynthesis方式である[35]. アルゴリズム方式のように物理的イメージを伴 わず, 純粋に数学的なデータ処理によって音響合 成を行うものであるが, 音響レベルのフラクタル 構造から音楽のフラクタル構造までを統一的に構 築できるかもしれない可能性が注目される. 7. おわりに 本章では, コンピュータ音楽の音素材としての 音響合成について駆け足で紹介してきたが, ここ で予定の紙数が尽きた. いずれの音響合成手法に おいても膨大なパラメータがあり, 有効なパラメ ータ制御に関する課題, ヒューマンインターフェ ースやインタラクティブ性についての議論が重要 な領域でもあるのだが, これらについての検討は また別の機会に譲らざるを得ない. コンピュータ音楽の研究が続く限り, 音素材の 研究は続けられる. 新しい音のアイデアは新しい システム/楽器の登場をもたらし, 新しい音楽の 原動力となる. 人間の聴覚という神秘とともに, 音の探求は夢にあふれた世界なのである.
|