JSMPC 20130525 presentation by Yoichi Nagashima

グロッケン音色の利用に関する考察
2013年5月　長嶋洋一
nagasm.org

概要
本来は楽譜より2オクターブ高く演奏される移調楽器のGlockenspielであるが、MIDI演奏データにおいてはオルゴールの音色として使用されるだけでなく、本来ありえない音域でも利用されている。本稿では、非斉次倍音の強いこの音色に特有の作曲の事例と、問題あるアレンジによって違和感のある事例から作曲における活用法について考察するとともに、楽器音の分析と違和感の印象について実験によって検証した。
発端 : AniMusicでの事例
ことの発端はAniMusicである。 2000年頃に発表された最初のバージョンのAniMusicの7曲の中で、チャイム/ベル/ゴング系の音色が使われている曲のうち、違和感のない2曲に対して、ある1曲で以前からそのピッチに違和感を覚えていたのをふと思い出した。これが、その部分を切り出したムービーである。実際の音色の発音部分はムービーの後半であるが、音楽の聴取において調性感を安定させるために、ある程度の長さが前半に加わっている。
AniMusicは、プロジェクト内の作曲家が作曲したMIDIデータを入力として、「データを逆算して発音の前から動いて発音動作するCGを自動生成する」というオリジナルのソフトウェア自体がプロジェクトのメイン作品である。従って、このソフトウェアによって制作されたDVDのアニメーション映像のサウンドは、シーケンスデータによって駆動されたMIDI音源のサウンドである。
筆者のComputer Music作品での事例
このような音色は、MIDI音源では「グロッケン」「チューブラー」「クリスタル」「ティンクルベル」などの名称として散見する。いずれもMIDI入力されたノートのfundamentalよりも、ヘンなところ(非斉次倍音)の倍音強度の方が強く、敢えてホンキートンク(チューニング狂い)の印象を与えるために活用される事が多い。
筆者の 過去の作品 の中でも、 これら の作品では、敢えてピッチ感が失われるような意図でこの音色を使用している。その場合、背景音響に調性的でないものやパーカッション系による音響を用いたり、同時に生成演奏されるフレーズには調性感の乏しい全音音階やクロマティック音階を使用してきた。
Mahler第2交響曲での事例
そして、ここでさらに思い出したのが、マーラーの第2交響曲「復活」のフィナーレ部分である。 90分ほどの大曲の最後、30分以上かかる第5楽章のラスト、ソリストから合唱に至って盛大なフィナーレとなり、合唱が終わって管弦楽だけのコーダとなった部分(最後の1分半ほど)で、まさにこのサウンドで「鐘の乱れ打ち」が印象的に使われている。これが、該当部分(ラストまでの3分間ほど)の演奏例、 Wikipedia[1]にあった該当部分の演奏サウンド(mp3)、Wikipedia[1]にあった該当部分の楽譜、である。
楽譜(スコア)において、パートとして「Glockenspiel」と書かれているのが該当する楽器のサウンドであり、Wikipediaの「マーラー第2交響曲」[1]によれば、「3 deep, untuned steel rods or bells」とある。深くてuntunedなsteelサウンド、というのはまさに、上述の特徴そのままである。 Wikipedia[1]の第5楽章(5. Im Tempo des Scherzos)の解説によれば、このコーダ部分については以下の記述がある。
The instrumental coda is in this ultimate key as well, and is accompanied by the tolling of deep bells. Mahler went so far as to purchase actual church bells for performances, finding all other means of achieving this sound unsatisfactory. Mahler wrote of this movement: "The increasing tension, working up to the final climax, is so tremendous that I don’t know myself, now that it is over, how I ever came to write it."
この交響曲のクライマックスに必須の緊張感のために、他の楽器では駄目なので、初演に際してマーラー自身が教会の鐘を買い求めた、という上記の話は象徴的であり、このサウンドの持つ不思議な魅力と、作曲上の要請が伝わってくる。
スコアのこの「Glocken」の楽器欄のところには「3 deep bells of uncertain sound」と書かれており、楽譜のこのパートの部分には「from deep, among each other different sound without certain pitch」と書かれている。 3つの異なるピッチが使われるが、そのピッチが不確かであること、とわざわざ明記されているのである。そして下の楽譜の音部記号のところをよく見ると、なんとト音記号もヘ音記号もハ音記号も無い。まさに、オーケストレーションにおいて、他のパートとの調和を否定する存在感が際立っている。

GlockenspielとTubular bells
ここで「Glockenspiel」をWikipedia[2]で調べてみると、楽譜で書かれるよりも2オクターブ高い音が鳴る楽器、とあり、マーラーの用法とはやや違う印象がある。 Wikipediaに置かれたGlockenspielのサウンドはこれであり、低音域の丸い音色の基音に対して、かなり高い音域でより強い金属的な倍音が聞こえる。これは聴感上のピッチとしては16/3倍音ないし32/3倍音(fundamentalの周波数を3倍音に持つ基音の4-5オクターブ上の音)に相当していて、通常の楽器によくある自然数倍の倍音系列には存在しない、金属の剛体振動に固有のものである。「Glocken」の音色は、GM音源ではMIDIプログラムチェンジ10番である。
「復活」のコーダに使われているサウンドは、マーラー自身が演奏において「church bells」を用いたように、むしろチャイムとかベルなどの、これの方が近いように思われる。このサウンドは、聴感上のピッチとしてもっとも強い金属的なサウンドを基準にすると、より低音域の丸い音色が5/8倍音と5/16倍音のミックスとして聞こえる。この低音域の丸い音色のピッチの方をfundamentalだとすれば、高い音域でより強い金属的な倍音は8/5倍音ないし16/5倍音(fundamentalの周波数を5倍音に持つ基音の3-4オクターブ上の音)に相当する。このようなテイストのサウンドとしては、筆者はMIDIプログラムチェンジ15番の「Tubular bells」をよく活用してきた。
Wikipediaの「Tubular bells」の解説[3]によれば、上部の倍音の周波数比が「92:112:132」の振動であった時、人間はここからおよそ「4:5:6」すなわち2オクターブ高い長3和音に近い響きを、また上部の倍音の周波数比が「81:121:169」の振動であった時、人間はここからおよそ「2:3:4」すなわち1オクターブ高い「ドソド」に近い響きを、叩かれた元ピッチに対して"Virtual Pitch"[4]として知覚するという。このVirtual Pitchは、実際にその成分が無くても上部倍音構造から人間が低音を心理的に知覚する「ミッシング・ファンダメンタル」(小さなスピーカやイアホンでもベースの音が聞こえる現象)と関係するもので、関連した文献はいくつもある([5]-[7])が、ベル音のピッチに関する文献[8]から、以下のような興味ある記述に注目した。
This suggests that the strike note - in the sense of a musical pitch - is by far not as pronounced and well defined as that of the conventional tones of music, i.e., harmonic complex tones. That this indeed is true becomes immediately apparent when one listens to music played on a carillon (Glockenspiel). It is one of the main appeals of carillons that recognition of a familiar melody requires some extra effort of auditory analysis, and that in polyphonic music played on a carillon there occur strange (dis)harmonies that can not - or not easily - be created by conventional music instruments. From these considerations it is apparent that automatic, quantitative prediction of strike notes is a challenge to any theory of pitch perception. In a study of 17 and 137 historical church bells, respectively, we have tested how well the predictions of the virtual-pitch theory agreed with auditory pitch evaluation by listeners. The results were indeed satisfying [9], [10].
すなわち、17件あるいは137件の歴史的なチャーチベルでの実験によって、79%のサウンドが音楽的に何らかのピッチを持つと知覚されながら、上部倍音の構成が通常の楽器と異なる配置のために、Virtual Pitchとして知覚されるピッチが曖昧である、と検証されたという。何らかのピッチを持つ、すなわちノイズではない楽音でありながら、そのピッチがよく判らない(曖昧である)、というのは面白い知覚現象(ある種の錯覚)であり、ここに作曲上の要請が生まれるとも考えられる。
文献[6]によれば、人間のピッチ知覚の定義としては、単にfundamentalの高低による1次元のドメインだけでなく、多様なサウンドが混在する音楽においては、オクターブの等価性[11]に起因して、クロマ(離散的な半音単位)のドメインも持つ2次元として知覚される[12][13]。確かにこの考え方によれば、上に示したサウンドサンプルのうち、 こちら は倍音が完全4度/完全5度の音程関係のためにサウンド自身からの調性感は不完全で、あくまで低音域の丸い音色のピッチの方をfundamentalと知覚できたが、 こちら は聴取される倍音の音程から長3和音の調性感が生まれ、(ミッシング・ファンダメンタル現象として)もっとも強い金属的なサウンド(非斉次倍音)の方をVirtual Pitchとのfundamentalと知覚した、という解釈が得られる。後者の場合には、低音域の丸い音色のピッチを基音だとしてMIDIから与えれば、筆者がAniMusicで違和感を持った曲のように、生まれるサウンドは調性感を破壊するホンキートンク/ミスタッチと知覚されることになる。
MIDI音源による実験
ここで、筆者がこれまで感覚的に「チューニングがずれた音」として使ってきた、MIDI音源の「グロッケン」「チューブラー」「クリスタル」「ティンクルベル」について、実際にその倍音構成をビジュアル化しつつ聞き比べて検討することにした。音源装置については、過去の音楽情報科学研究において実質的な標準音源としてポピュラーだった、ローランド社の「SC-55mkII」をファクトリーリセットして使用した。比較のために、MIDIプログラムチェンジ1番の「Piano」もデータ収集した。
最初に行った実験では、1オクターブ中に2音(CとF#)をとり、MIDIノートナンバ12から120まで、計9オクターブにわたって等間隔に自動演奏したサウンドをサンプリングしてサウンドファイル化し、同時にこのサウンドのソノグラム(縦方向の周波数は22500Hzまで)を共通のスケールで画像として記録した。実験してみると、前述のようにMIDIプログラムチェンジ10番の「Glocken」音色は音域が高いので、MIDIノートの低音域ではほとんどサウンドが無い状態であり、やはりプログラムチェンジ15番の「Tubular bells」が、今回のターゲット(低音域での奇妙なピッチ感を生み出す楽器音色)としてより的確であると確認できた。以下は「ピアノ」音と「Tubular bells」音での、実験ソフト(Max6で制作)でのスクリーンショットであり、実際のサウンドとソノグラムはここである。

上の実験では、とりあえずMIDIノートナンバとして9オクターブの広い部分を調べて、ソノグラムの周波数帯域(縦軸)も22500Hzまでの広帯域としたために、倍音の配列があまり明確でなかった。そこで2番目の実験として、あまり実用的でない音域は低音域も高音域もカットして、MIDIノートナンバ「24-72」の4オクターブとして、ノートは同じCとF#で計9音とした。これと合わせて、ソノグラムの縦軸方向の分解能を向上させるために、最大音量の倍音成分がぎりぎり表示できる3000Hzまで、と設定した。いずれも最大音量がほぼフルスケール(割れない)ように調整している。実際のサウンドとソノグラムはここである。
MIDI音源サウンドの分析
市販のMIDI音源装置では、ピアノ等に見られるストレッチト・オクターブ[14]の効果を基音のピッチに対して顕著には作用させていないので、ここでは上の実験のMIDIプログラムチェンジ1番の「Piano」のソノグラムに現れる高次倍音の系列を、周波数軸(対数でなくリニア表示)において等間隔な整数次倍音である、と見なして、他の音色の倍音を参照する「物差し」として使用することにした。実験では、オクターブを「C」と「F#」という、整数比にない等間隔に分割しているので、奇数番目の「C」と、偶数番目の「F#」のいずれかを比較して、ちょうど重なる(倍音関係)ところを探して、前述のような聴覚上の倍音関係を見出す、という作業である。なお、本節での用語として、「○倍音」と「○次倍音」とを明確に使い分けることに注意されたい。つまり、通常の楽器では、基音fundamental(1倍音)の周波数の整数倍で、上部倍音が2倍音、3倍音・・・と連なるが、ここでのピアノ以外の音色については、サウンドの最低音成分(これを1次倍音と呼ぶ)の上に連なる○番目のピーク周波数成分を○次倍音と呼ぶことになるが、それらは単なる順番であって周波数に整数倍の関係は無い、という点が重要である。
以下は、MIDIプログラムチェンジ1番「Piano」(左)と、MIDIプログラムチェンジ10番「Glocken」(右)とを、前述の同一条件(MIDIノートナンバ「24-72」の4オクターブ、縦軸方向の周波数は3000Hz)で録音したソノグラムから、倍音の間隔が広い高域をそれぞれ取り出して並べた比較である。「Glocken」では低い方から3番目の倍音(3次倍音)が最大強度であり、次がいちばん低い周波数成分(1次倍音)、そしてかなり高域に去っていく成分(低いC3のところでも周波数軸のなかほど)があり、かなり広い3次倍音と1次倍音との間に、レベルの低いもう一つのピーク周波数(2次倍音)がある。まず、(1)の青線から、1次倍音(ピアノでは強度も最大)の基準ピッチが、「Piano」と「Glocken」の両者できちんと一致していることが確認できる。次に、(2)の空色線から、「Glocken」の最大音量である3次倍音のピッチは、CでもF#でも、同じオクターブの「Piano」の5.333・・倍音付近、オクターブ下の「Piano」の10.666・・倍音付近と一致している(ピアノ音を完全5度下のFとした追実験でのピーク一致により確認)。これは前述したように、聴感上のピッチとしては8/3倍音ないし16/3倍音(fundamentalの周波数を3倍音に持つ基音の3-4オクターブ上の音)に相当した、金属の剛体振動に固有のものである。また、(3)の赤線からは、「Glocken」の1次倍音と3次倍音との間のピーク(2次倍音)は、「Piano」に対してC-F#、という「増4度 = 減5度 = 3全音 = 6半音」の関係で一致している事が確認できる。さらに、(4)の黄線からも、「Glocken」の高域で全体で3番目の強度を持つ成分のピークが、同様に「Piano」の9倍音に対してC-F#、という同じ音程関係で一致している事が判る。この音程は純正律に登場しない、もっとも整数比にならない関係であり、この不協和感からくるピッチ感の曖昧さが「Glocken」音色の特徴の一つとなっている。

以下は同様に、MIDIプログラムチェンジ1番「Piano」(左)と、MIDIプログラムチェンジ15番「Tubular」(右)とを、同様に倍音の間隔が広い高域をそれぞれ取り出して並べた比較である。「Tubular」では1次倍音および2次倍音の強度は小さくて、強度が大きいのは3次倍音(最大)と4次倍音(2番手)と、あと5次・6次・7次倍音あたりまで漸減して、これでサウンドのパワーのほぼ全てを占める。まず、「Tubular」の小さい音量の1次・2次倍音のピッチを「Piano」と比較してみると、fundamentalを上下に挟んでいて周波数がまったく一致しない。そして、(1)の青線から「Tubular」の最大音量成分の3次倍音と「Piano」の2倍音とを比較すると、C4/F#3/C5のいずれにおいても、Tubularの3次倍音とピアノの2倍音がきちんと一致していることが確認できる。また、(2)の空色線から、「Tubular」の5次倍音と「Piano」の4倍音(2オクターブ上)とがきちんと一致していることも確認できる。つまりMIDIノートナンバを与えられると、Tubularはオクターブは違うものの同じクロマのピッチ成分を強く持つ。次に、(3)の赤線から、やや小さいながらも「Tubular」の1次倍音のピッチはオクターブ下の「Piano」の1.25倍音付近、「Tubular」の2次倍音のピッチはオクターブ下の「Piano」の2.5倍音付近、「Tubular」の6次倍音のピッチはオクターブ下の「Piano」の10倍音付近、と一致している(ピアノ音を短6度下のEとした追実験により、純正律と平均律の長3度音程の違いを考慮してほぼピーク一致を確認)。これは前述したように、聴感上のピッチとしては、より低音域の5/8倍音として聞こえ、聴取される倍音の音程から単音のサウンドだけでも長3和音の調性感が生まれることになる。また、(4)の黄線から、残された「Tubular」の4次倍音は「Piano」の3倍音に誤差を持ちつつも近いために、聴感上は4/3倍音として単音での長3和音の調性感を補強する。

以下は同様に、MIDIプログラムチェンジ1番「Piano」(左)と、MIDIプログラムチェンジ99番「Crystal」(右)とを、同様に倍音の間隔が広い高域をそれぞれ取り出して並べた比較である。「Crystal」では1次倍音が最大強度、次が2次倍音であり、その上にはちょっと周波数をおいて高域に強度の低い3次・4次・5次・6次・7次倍音が存在しているが、かなり高域のために、C4より上では高次倍音がグラフからはみ出て去り、C5では2次倍音までしか見えない。まず、(1)の青線から、「Crystal」の1次倍音の基準ピッチは「Piano」の1倍音ときちんと一致していることが確認でき、MIDIノートナンバを与えられると、Crystalは音色の低域では「Piano」と同じ、正しいピッチ成分を持つことが判る。また、(2)の空色線から、「Crystal」の2次倍音のピッチは、CでもF#でも、同じオクターブの「Piano」の2.666・・倍音付近、オクターブ下の「Piano」の5.333・・倍音付近と一致している(ピアノ音を完全5度下のFとした追実験でのピーク一致により確認)。これは「Glocken」と同様の、聴感上のピッチとしては4/3倍音ないし8/3倍音(fundamentalの周波数を3倍音に持つ基音の2-3オクターブ上の音)に相当した、金属の剛体振動に固有のものである。次に、(3)の赤線から、誤差は大きいものの「Crystal」の3次倍音はオクターブ上の「Piano」の3倍音に近く、低音域ではわずかにMIDIノートナンバで与えられるピッチの完全5度上の2オクターブ上の成分も聞こえる。また、(4)の黄線から、残された「Crystal」の4次・5次・6次倍音のピークはそれぞれ、「Piano」に対してC-F#、という6半音の関係で3倍音・4倍音・9倍音とほぼ一致している事が確認できる。高音域でのこの不協和感は、「Glocken」と同様のピッチ感の曖昧さを生み出すと考えられる。

以下は同様に、MIDIプログラムチェンジ1番「Piano」(左)と、MIDIプログラムチェンジ113番「Tinkle bells」(右)とを、同様に倍音の間隔が広い高域をそれぞれ取り出して並べた比較である。「Tinkle bells」では主たる倍音成分は3つしか見当たらず、2次倍音が最大強度、次がかなり高域の3次倍音であり、1次倍音は3番目の強度である。まず、(1)の青線から、「Tinkle bells」の1次倍音の基準ピッチは「Piano」の1倍音ときちんと一致していることが確認でき、MIDIノートナンバを与えられると、Tinkle bellsは音色の低域では同じピッチ成分を持つことが判る。また、(2)の空色線から、「Tinkle bells」の最大音量の成分である2次倍音のピッチは、CでもF#でも、同じオクターブの「Piano」の2.666・・倍音付近、オクターブ下の「Piano」の5.333・・倍音付近と一致している(ピアノ音を完全5度下のFとした追実験でのピーク一致により確認)。これは「Glocken」と同様の、聴感上のピッチとしては4/3倍音ないし8/3倍音(fundamentalの周波数を3倍音に持つ基音の2-3オクターブ上の音)に相当した、金属の剛体振動に固有のものである。次に、(3)の赤線から、「Tinkle bells」の3次倍音はオクターブ上の「Piano」の3倍音に一致していて、6倍音と高いものの、注意してみると完全5度の2オクターブ上の周波数成分が明確に知覚できる。最大音量の2次倍音はMIDIノートナンバで与えられるfundamentalの上位整数倍音でないものの、この「Tinkle bells」では、1次倍音はMIDIそのもの、そして3次倍音も奇麗な3倍音系であり、他の音色のようにピッチ知覚を曖昧にする成分が含まれていないので、このサウンドは繰り返し聴取すると、かなりクリーンな(整っている)サウンド、という印象が増加する。

Mahler第2交響曲の収集
MIDI音源の分析により、通常の楽器とは異なる周波数特性を持つこれらチャイム/ベル/ゴング系の音色について確認できたので、ここで再び、焦点のMahler第2交響曲「復活」のコーダについて考察を続けることにした。筆者はかねてよりこの作品を愛好しており、個人的に11種ほどのCDを購入してスコアを読みながら愛聴したり、コンサートに出かけて鑑賞したりしてきた[15]。しかしここでは、より多くの事例から、この作品における指揮者(オーケストラ)の解釈について分析するために、YouTubeで「マーラー第2交響曲」と検索してヒットしたムービーを多数、収集した。サウンドでなくYouTube動画とした理由には二つあり、(1)ライブ演奏の動画にこのコーダ部分で実際に演奏された楽器が映っている可能性がある、(2)世界各国の著作権管理団体と提携しているYouTubeでは、違法アップロードされた動画は視聴停止・凍結/アカウント停止/視聴地域制限などによって禁止されているので違法ダウンロードの心配がない、という点を考慮した。
具体的には、ストリーム系の動画サイトから受け取ったデータをそのままFLV形式で保存するのでなく、MPEG4などムービーファイルに変換するJavaアプレットを提供しているサイト[16][17][18]を利用して、YouTubeで違法アップロードデータとして停止/凍結されていないムービーのURLを指定し、基本的には「480*360、MPEG4」の中程度品質の動画としてそれぞれダウンロードした。
実際に「マーラー第2交響曲」動画をYouTubeから70本以上、収集してみると、その長さとして「全曲(約90分)」・「第5楽章(約30分)」・「フィナーレ(第5楽章の後半からラストまで)」という3つのタイプがある事が判明した。また動画のカテゴリにも2種類あり、「演奏サウンド+静止画(のスライドショー)」・「コンサートのライブ映像(放送)」と分類できた。上述の「どんな楽器で演奏したのか」を実際に観て検証できる可能性があるのは後者だけである。そして、70本以上の動画には同一のソースから作られた亜種もたくさんあり、それを全て視聴・比較して除外した結果、上記の3タイプ・2カテゴリで分類した収集動画は、以下のように計59本となった。ここで「CD」と名付けたカテゴリは「演奏サウンド+静止画(のスライドショー)」のことであり、またそれぞれのファイル名の記号と番号は本実験において便宜的に付与したものである。

CD 全曲　(CD001 - CD017) -　17ムービー
CD　第5楽章　(CD101 - CD106) -　6ムービー
CD Finaleのみ　(CD201 - CD209) -　9ムービー
ライブ映像全曲　(Live001 - Live011) -　11ムービー
ライブ映像　第5楽章　(Live101 - Live102) -　2ムービー
ライブ映像　Finaleのみ　　(Live201 - Live214) -　14ムービー
次に、59本全ての動画を、楽譜の部分、すなわち730小節からラストまで、と切り出したMPEG4ムービーに変換した。これにより、3種類の長さのタイプ情報は捨象され、全ての演奏はコーダ部分だけとなった。これと合わせて、「ライブ映像」のカテゴリの動画を慎重にスキャンして、12本の動画において、実際に楽譜で「Glockenspiel」と指定された楽器を演奏している模様を抽出した。これがその12動画である。
たった3本の金属棒が吊り下げられたゴング、立派なチャーチベル、音階の数だけチューブの並ぶチュープラーベル、など、これらの動画に使用されている楽器のバラエティは豊富である。さらにそのサウンドは、全てのオーケストラに共通の変ホ長調(Es dur)に対して、調和した特定のピッチの音階が聞こえるものから、まったく異質のデチューンのものまで、同じマーラーの楽譜からこれだけ解釈の多様性が生まれるのか・・・という好例となった。これにより、Mahlerが楽譜にパートとして「Glockenspiel」と書いたものの、マーラー自身を含めて実際の演奏では、いわゆる「(小型の)鉄琴」のグロッケンが使われることは無い、と確認できたが、本稿では、マーラーの楽譜の記述を尊重して、この「深い音色で不確かなピッチの金属製の楽器」の便宜的な総称として、これ以降も「グロッケン(系)」と呼ぶことにする。
Mahler第2交響曲の音響からの分析手法
以上の準備を受けて、収集した59本の「復活」コーダ部分(約90秒)について、焦点である「グロッケン(系)楽器」の演奏音を分析するステップに入った。ただしここで重要なのは、音部記号の無い楽譜に明らかなように、この楽器はMIDIノートナンバに対応する1次倍音(fundamental)が、聞こえなかったり上部倍音構造と無関係だったり、という特徴を持っている。従って、ピッチを分析検討する対象としては「実際に聴取できる周波数成分」だけであり、個々の「グロッケン(系)楽器」のサウンドの倍音構造については問わない、という点が重要である。求めたいのは、明確なピッチと調性感を持つオーケストラのコーダ部分の音響(Es dur)の中で、この楽器音のピッチの意味合いの抽出である。
ただし、これまで25年以上の音楽情報科学研究の進展をもってしても、このコーダ部分で多数の楽器音が重畳した音響、ティンパニの強打、パイプオルガンの重低音、さらにシンバル的に打ち鳴らされる高低の銅鑼(tam-tam)まで加わった中で、素早く減衰するこの「グロッケン(系)楽器」のピッチを正確に抽出する(採譜する)システムは存在していない。これは音楽情報科学の領域でTranscription(採譜)と呼ばれる技術であるが[19]、自動採譜のシステムには以下の2つの越えるべき課題があるという。
1. Notes must be recognized - this is typically done by changing from the time domain into the frequency domain.
2. A beat and tempo need to be detected (Beat detection)- this is a difficult, many-faceted problem.
ここで対象とするMahler第2交響曲のコーダ部分の音響と「グロッケン(系)楽器」のサウンドについては、ピッチが曖昧で楽譜(MIDI)音と異なり不協和成分を持ち、急速に減衰して背景音響に埋没し、さらに音楽のテンポは一定でなく個々の演奏のタイミングも異なる、という悪条件が重なっている。そこで、楽譜に自動採譜[20]するのでなく、Transcriptionの要素技術である「Sound Source Separation」(音源分離)によって、とにかくオーケストラのコーダ部分の音響(Es dur)の中から、この「グロッケン(系)楽器」のサウンド成分を抽出することで、そのピッチの音楽的な意味合いを検討する、と目標を限定した。
音楽情報科学研究の中で、「音源分離」は現在でも進展している(完全には解決されていない)ホットな分野である[21][22]。音声や環境音と違って、一般的な音楽サウンド(信号)には特有の音響的特徴がある。個々に特有のメカニズム(特徴的な個性)で発音・演奏する「楽器」が用いられ、さらに多くの楽器は短時間では一定のピッチを持ち(音符)、基本的に同一のテンポやメロディーに従って、連続的に発音したり無音の間隔(休符)を持つ。このような統計的に特徴あるモノラルサウンド信号に対しては、Sparse Coding[23][24][25]やNonnegative Matrix Factorization(NMF)[26]やベイズ理論など、Streaming Methodと分類される、Computational Auditory Scene　Analysis(CASA)のアプローチが有効であり、事前に予備知識として学習した色々なモデルを用いて比較することで音源分離を行う[27][28][29]。しかしこの方法は、交響曲の最初から最後まで鳴っているバイオリンや管楽器については、学習を重ねるほどに分離の性能が向上するものの、具体的な楽器そのものが未知、さらに実際に分離したい部分はほんの数小節、というここでのターゲットについては、ほとんど無力である。
音源分離にはもう一つの分類として、ミックスされている個々のサウンドはそれぞれ統計的に独立した事象である、という前提から、信号処理理論における独立成分分析(Independent Component Analysis　ICA)ないしPrincipal Component Analysis(PCA)の手法を拡張したアプローチがあり、事前に人間が与える予備知識などを必要としない事から、Blind Source Separation(BSS)とも呼ばれる。 BSSのアプローチにはには3種類のドメインがあり、「Spatial domain method」は空間的なマルチチャンネルである事を活用するが、「グロッケン(系)楽器」がオーケストラのどこに配置されるかもまちまちで、さらにモノラル(アナログ)レコード音源もある今回のターゲットでは採用できない。空間的あるいはスペクトル的な情報を用いずに時間軸方向に分析する「Time domain method」は、個々の信号は自己相関が最大で相互相関が最小である、とする手法である[30]。楽器音が、それぞれ固有の倍音構造を持つことから、モノラル音響信号のBSSでもっとも多いのは「Spectral domain method」であり、スペクトル成分の時間変化にICAを適用したり、ニューラルネット、HMM、GA、Support Vector Machines(SVMs)、NMFなど多くの情報数理/信号処理技術が適用されてきた。しかしここで対象としている「グロッケン(系)楽器」のサウンドの場合、前述のMIDI音源の実験で判るように、スペクトル構造が個々の演奏ごとに異なっている可能性が高く、対応できない。

Music Source Separation is the problem of extracting each single instrument sound from the mixture. It is the key technique in applications like automatic music transcription, remixing in studio, content related music indexing etc. Well trained musician can finish this task easily. Unfortunately, computer needs more information than people aware of to do the same job.

結局、文献[21]にある、上のような記述がそのまま該当する、つまり人間には出来てもコンピュータには無理、と確認できた。そこで、Mahler第2交響曲の音響からの分析の手法としては、上述のMIDI音源の実験で筆者が簡単に聞き分けたように、人間(筆者)の耳による分析に頼る、という結論に達した。ちなみに筆者は幼少時のバイオリン演奏歴からピッチ知覚の分解能は5セント以下であり、過去に各種の音律を実際に聞き比べた解説を上梓[31]、また合唱音楽の指揮者・作曲家・編曲家として、アカペラ音響の聞き分けと音楽演奏の「耳コピ」(人間音源分離による楽譜化)において多数の実績を持つ。ここでの対象であるMahler第2交響曲の音響は、幸いなことにコーダ部分と限定されていて、全体として鳴っている和声はEs durだけである。従って基本的には、ポピュラー音楽からコードネームや(聞こえにくい)Bassの音やコーラスパートを「耳コピ」するテクニックと同じ戦略であり、全体の調性感に身を委ねて、その中でハマらない音、(楽譜に)ハマる音、をHuman Auditory Scene　Analysisの手法で抽出することになる。これは、作曲家の書いたスコアを事前にアナリーゼして頭の中で鳴らしたり、アンサンブルの場で演奏音が楽譜と異なるミスに気付く「指揮者の耳」そのものでもある。
Mahler第2交響曲の音響からの分析
たかだか1分半程度の長さとはいえ、59本の動画を連続して視聴して、上記のような「耳コピ」を集中して行う、というのは、好きなMahlerの好きな作品の山場を聞く至福の時間とはいえ、現実にはかなりの苦行である。短時間に一気に行うわけにもいかないので、あらかじめ数曲に対する予備的な視聴実験を行った上で、以下のような指標から、なるべく時間的に離散した「グロッケン(系)楽器」のサウンドの印象評価実験でも同一条件が得られるように工夫した。

音色 - 「明るい」・「暗い」・「太い」・「細い」・「金属的」・「丸い」・「チープ(薄い)」
音域 - 「低め」・「高め」・「中音域」
音量 - 「大きい(目立つ)」・「小さい」・「ほとんど聞こえない」
ピッチ - 「(Es durのDiatonic Scaleの)○音に合わせてある」・「不協和音(クロマは同一)」・「敢えてチューニングをずらしてある」・「ピッチ感の乏しい剛体打撃音のみ」
その他、気になったこと
具体的な視聴印象評価実験の結果は以下である。動画の順序にとりたてて理由は無く、本実験において便宜的に付与した番号の順に並べただけである。また、一部の動画には指揮者とかオーケストラとか「live」の情報があったので付記したが、これが正しいという保証は無い。 YouTubeのリンクは本稿執筆時点(動画収集時点)の「生もの」なので、後に変更されたり消滅している場合もあることに注意されたい。動画リンクは全て「Not Found」となるので、詳細を希望する場合には筆者に問い合わせされたい。
CD001	http://www.youtube.com/watch?v=1l7cvSpzrE8
	暗く太い音色、低めの音域で小さい、Bb(とCとG)をほぼ合わせてある

CD002	http://www.youtube.com/watch?v=2O-ihC36BuA
	明るい音色、高めの音域で大きい、Bbとオクターブ高いフラット気味のBbと高いGが聞こえる

CD003	http://www.youtube.com/watch?v=7ehx7jxnxVk
	暗い音色、低めの音域で小さい、高域の金属的打撃音がある、BbとGをほぼ合わせてある

CD004	http://www.youtube.com/watch?v=CsB-SILcI7k
	明るい音色、高めの音域で大きい、3音でなく、Eb、C、D(ややb)、F、G、Bbをほぼ合わせてある

CD005	http://www.youtube.com/watch?v=DKykXMZJMtA
	太めの音色、低めの音域で大きい、Bb以外のピッチは敢えてずらしてある(6半音のAも聞こえる)

CD006	http://www.youtube.com/watch?v=DvHA7xWCoxQ　
	太く明るい音色、中音域で大きい、FとBbをほぼ合わせてあるが他はずらしてある(6半音のAも聞こえる)

CD007	(Oskar Fried アナログレコード 1924)　http://www.youtube.com/watch?v=EMZhn0Q_6KE
	明るい音色、高めの音域で大きい、GとDとCをほぼ合わせてあるが他はずらしてある(3音より多い)

CD008	http://www.youtube.com/watch?v=FWI5Utco5M8
	明るい音色、高めの音域で大きい、3音でなく、G、C、Eb、F、Bbを正確に合わせてある(ハマり過ぎて気持ち悪い)

CD009	(Abbado ウイーンフィル live)　http://www.youtube.com/watch?v=HkoeH5BtLyQ
	明るく太い音色、中音域で大きい、CとDをほぼ合わせてあるがBbはかなり高目、他はずらしてある、

CD010	(live) http://www.youtube.com/watch?v=PDsxm2nZHPI　
	太めの音色、低めの音域で小さい、わずかにBb以外はピッチ感の薄い剛体音

CD011	http://www.youtube.com/watch?v=SHiJuFh2Mcc
	聞いた感じではCD004と同じ音源を使用しているものと思われる

CD012	(live) http://www.youtube.com/watch?v=alWZvA3HwDg
	明るく太い音色、中音域で大きい、D(ややb)以外の全てのピッチを敢えてオケのクロマからずらしてある

CD013	(Otto Klemperer アナログレコード 1951 live) http://www.youtube.com/watch?v=ko8bqIJxssY
	太めの音色、低めの音域で小さい、Bb、Gはほぼ合わせてあるが他のピッチは敢えてずらしてある

CD014	http://www.youtube.com/watch?v=la5lzAW_1XM
	太く重くピッチ感の無い重低音のゴング、最後の752小節から明るく高い音も加わるがピッチは全てずらしてある

CD015	(live) http://www.youtube.com/watch?v=ofVcoEfN10U
	暗い音色、低めの音域でとても小さい、わずかに低いBbが聞こえるがほとんど目立たない

CD016	(live) http://www.youtube.com/watch?v=pNUUhT1vZds
	音源の定位に異常な変調あり。明るい音色、高めの音域で小さい、GとBbなどほぼ合わせてある

CD017	(William Steinberg 1972 live) http://www.youtube.com/watch?v=uAooIZ2usCA
	暗い音色、中音域でとても小さい、わずかにBbやDが聞こえるがほとんど目立たない

CD101	(live) http://www.youtube.com/watch?v=5a5TfIhJe04
	明るい音色、中-高音域で小さい、わずかにC、D、Bbが聞こえる

CD102	(Bernstein?) http://www.youtube.com/watch?v=BFY7_Tx98G8
	暗い金属的音色、低めの音域で小さい、Bb、C、Dはをほぼ合わせてあるが他はずらしてある

CD103	(Zubin Mehta アナログレコード) http://www.youtube.com/watch?v=WimLEWzmuog
	明るい音色、中音域で大きい、ほぼ合わせてあるBb、C、Dの3音のみを使っている

CD104	(アナログレコード live) http://www.youtube.com/watch?v=b69UU5PxxJg
	明るく太い音色、中音域で大きい、ほぼBb、C、Dの3音のみだが全て微妙にフラットしている

CD105	http://www.youtube.com/watch?v=jmB8-43uzmQ
	金属的音色、中音域、740-743小節はピッチのずれた複数の金属音が鳴るカリオン様の楽器の乱れ打ち(^_^;)

CD106	http://www.youtube.com/watch?v=qYX0W6hMiu0
	かなり音質が違うが、聞いた感じではCD004と同じ音源を使用しているものと思われる

CD201	http://www.youtube.com/watch?v=5_2qmVdl57c
	明るい音色、中-高音域で大きい、Bb、C、D、Ebをほぼ全て微妙にフラットさせている

CD202	(Solti シカゴ響) http://www.youtube.com/watch?v=Is-3ma-sIFw
	明るい音色、中音域で小さい、BbやCやDが聞こえるが、ピッチは微妙にフラットしている

CD203	http://www.youtube.com/watch?v=ZQesaZMvkwY
	聞いた感じではCD102と同じ音源を使用しているものと思われる

CD204	(Otto Klemperer アナログレコード 1971 live) http://www.youtube.com/watch?v=e6jU9YrPBKE
	暗い音色、中音域で小さい、わずかにややずれたBb(やD)が聞こえる程度

CD205	(Leopold Stakawski ロンドン響 アナログレコード live) http://www.youtube.com/watch?v=gv1HMlTU0R0
	ピッチ感の乏しい低い金属音がごくごくわずかに聞こえるだけ

CD206	http://www.youtube.com/watch?v=uGNm4i78d5Q
	金属的音色、中音域、深い残響と唸りのある本物の鐘、わずかにGとBbが聞こえるが合わせていない

CD207	http://www.youtube.com/watch?v=uICiWGX4fas
	明るく丸い音色、中-高音域で大きい、Aを含む自然な非斉次倍音が鳴り、3本より多いパイプがぶつかる

CD208	(Riccardo Chailly) http://www.youtube.com/watch?v=xGK3-PHljNA
	明るく太い金属音、中-低音域で大きい、低いC以外のピッチは全て敢えてずらしてある

CD209	(Ozawa 1985 live) http://www.youtube.com/watch?v=ZEaaAtw7hAA
	明るい金属音、高めの音域で大きい、ややずれたF、G、D、Cが聞こえる

Live001	(Ozawa) http://www.youtube.com/watch?v=72UPbDmOu8A
	暗く太い金属的音色、中-低音域で大きい、AとBを含む5本以上の音があり、ピッチは敢えてずらしてある

Live002	(Bernstein 1974) http://www.youtube.com/watch?v=Bdc5n562zZg
	明るい金属音、中-低音域で大きい、C、Bb、Gはほぼ合わせてあるが、別にずらした音もある

Live003	(Rattle) http://www.youtube.com/watch?v=BwRPYijLygA
	明るく太い金属音、中音域で大きい、3本のみでややずれたFとC、もう1本は合わせていない

Live004	(Christopoulos) http://www.youtube.com/watch?v=C5do4yPc_O0
	3個の本格的な鐘、高いGと真ん中のCはほぼ合わせてあるが最大の鐘は大きく低くてピッチ感ナシ

Live005	(Paavo Jarvi) http://www.youtube.com/watch?v=FbzHZYdJrL8
	明るく太い金属音、中音域で大きい、3本のみで、聞こえる倍音をC、Bb、G、にきちんと合わせてある

Live006	(Jansons) http://www.youtube.com/watch?v=sHsFIv8VA7w
	明るく太い音色、中音域、D、C、Gが全て微妙にフラットしている、ゴングの一方を低音で代打?

Live007	(Dudamel) http://www.youtube.com/watch?v=hZzFruQCofM
	明るい音色、中-高音域で小さい、多数のチューブラーベルズから小さく叩き、ピッチは敢えて合わせない

Live008	(Gergiev) http://www.youtube.com/watch?v=QRiYW_Crjak
	明るく丸い音色、中音域、フラット気味のF、Bb、Gの他にもずらした音が聞こえる

Live009	(Hoshina) http://www.youtube.com/watch?v=UWWAPTrd8Zo
	明るい金属音、中音域で大きい、Bb以外の全ての音を敢えてクロマから外してある

Live010	(Abbado) http://www.youtube.com/watch?v=aZMFkaWQ-zw
	明るく太い金属音、中音域で大きい、多数のチューブラーベルズから3本のみ叩き、敢えて合わせていない

Live011	(Holoman) http://www.youtube.com/watch?v=d6idPaGqvV8
	明るい金属音、中音域で大きい、多数のチューブラーベルズから数音を叩き、BbとC以外は合わせていない

Live101	(Levine) http://www.youtube.com/watch?v=Gt2qrPNVQWk
	明るい金属音、高-中音域で大きい、わずかに低いEb、Fに対して、Gをきっちり合わせてあるのが目立つ

Live102	(Sinopoli) http://www.youtube.com/watch?v=tEHoWB5j85M
	明るく太い金属音、中音域で大きい、3本のみで、聞こえる倍音はいずれもわずかにずらしてある

Live201	(Law) http://www.youtube.com/watch?v=t2hsIn-noSw
	太い金属音、高-中音域で小さい、わずかにずらしたEb、F、Gなどが聞こえる

Live202	(Jarvi) http://www.youtube.com/watch?v=2UmJPHb5WJE
	明るい音色、中音域、わずかにずれたD、C、Bbが聞こえ、叩くと同時にもう1音も鳴る特殊な楽器?

Live203	(docu) http://www.youtube.com/watch?v=5MhmHjWTVb0
	安物の鉄板のような貧弱な音色を敢えて使用、ピッチも楽器らしくなくて合っていない

Live204	(Muller-Stosch) http://www.youtube.com/watch?v=jGl7h9YCqkY
	最後にC、Dがわずかに2-3音聞こえた程度でほとんど聞こえず、この楽器パートの扱いが異常に淡白(^_^;)

Live205	(Vasquez) http://www.youtube.com/watch?v=dBd95RynVns
	明るい音色、高めの音域、多数のチューブラーベルズからC、D、F、Bb、Gを演奏、意識してほぼ合わせてある

Live206	(Haitink) http://www.youtube.com/watch?v=cOY8uwwHMrUI
	太く重くピッチ感の乏しい低音域の鐘の音がごくわずかに聞こえる、この楽器パートの扱いがかなり淡白

Live207	(Rattle) http://www.youtube.com/watch?v=BXumoWSFXm0
	明るく太い金属音、中音域で大きい、前半はF、Ebはほぼ合わせてあるが、後半はより太くずらした音を叩く

Live208	(Gaffigan) http://www.youtube.com/watch?v=C0_ZgRqrP7Y
	明るい金属音、高-中音域、わずかにずらしたC、D、Bb、Eb、Gなどが聞こえる

Live209	(Chung) http://www.youtube.com/watch?v=bJBTJdUZpjs
	太い音色の低音域の鐘が3個、ピッチ感は乏しいがほぼC、Eb、F、Gが聞こえるように合わせてある

Live210	(Ashkenazy) http://www.youtube.com/watch?v=Dg6VtdR89RE
	明るい金属音、中音域で大きい、3本のみのパイプで、聞こえる倍音はいずれも意図的にずらしてある

Live211	(Jansons) http://www.youtube.com/watch?v=bC3P_mfXDvE
	明るい金属音の3個の鐘で大きい、ほぼピッチを合わせてあり、叩き方を変えてEb、Bb、C、G、Dが聞こえる

Live212	(Kuroiwa) http://www.youtube.com/watch?v=XaJEqYRNIAg
	ガラクタの様な貧弱な音色、チューニングも合わせず、乱打もかなり適当(^_^;)

Live213	(Seehafer) http://www.youtube.com/watch?v=V33JKXnYHtg
	明るい金属音、中音域、3本のみのパイプで、聞こえる倍音はいずれもずらしてある

Live214	(Chung) http://www.youtube.com/watch?v=MFnrFQ8SJtA
	明るい音、中音域、わずかにずれているものの合わせた意図のC、D、Bb、Eb、Gなどが聞こえる
まず明らかなのは、これら59本の動画の視聴印象実験データについて、平均・標準偏差などの統計分析は無意味であり、欲しいのは定性的なバリエーションの収集である。たとえ大多数95%の指揮者/オーケストラがAという解釈の演奏を行っていたとしても、それと異なる少数派5%のBという解釈にも、同等の意義をもって音楽的な意図を見いだし検討する必要がある。
Mahler第2交響曲の作曲技法と演奏解釈の分析
前節のMahler第2交響曲の音響の分析から、対象としている「グロッケン(系)楽器」のサウンドの扱い(指揮者/オーケストラごとの演奏解釈)に関しては、大きく以下のようないくつかのカテゴリに分類された。

意識的にオーケストラの響き(Es dur)とピッチを合わせた楽器とする(調律されたチューブラーから選択)
ほぼオーケストラのクロマと合っているものの金属剛体振動に固有のピッチずれにより自然に浮き立つ
意識的にオーケストラ(Es dur)のクロマと大きく異なるピッチ(50cent程度)として「浮いた存在」とする
ピッチ感の乏しい金属剛体のようなサウンドの物体を敢えて使用する
音量も演奏もきわめて控え目で、よほど注意しないと聞こえないような軽い扱いにする
目立つ大きな音量で、ラストのある意味で主役のような目立ち方を演出する
同時に演奏されるGong(銅鑼)の音色音域と敢えて分離して、明るい音色、高音域に配置する
同時に演奏されるGong(銅鑼)の音色音域と敢えて近付けて、太く暗い音色、低音域に配置する
楽譜に忠実に、3本パイプとか3個の鐘のように限定された楽器で演奏
3本とかでなく多数のピッチを持つ楽器によって、3種類だけでなく多数のピッチを演奏
もちろん、どれが正解であるとか妥当であるとかの判断は存在しない。指揮者ごと、オーケストラごと、プロデューサごとの解釈と演奏が存在することになるが、ここまで色々な演奏がある、というのは、マーラーの楽譜の記述の曖昧さ(自由さ)に起因するのであろう。
これだけ解釈が演奏記録ごとに違っているという事は、当然ながら「正解」などというものは存在しない。上記のいろいろな分類の特徴から言えることは、解釈における以下のような異なった戦略である。

作曲者Mahlerの楽譜の指示「深くてuntunedなsteelサウンド」を忠実に守り、非協和な倍音構造をそのまま使う
全体の和声Es durに調和するような倍音となるよう、敢えて楽器のチューニング(選択)を行う (→調和した1つのパート)
楽音としての「ベル」よりも異質な響きを優先して、雑音に近い響きの汚い金属体を敢えて使用する
基音および非調和倍音の基準ピッチをオーケストラのピッチと50セント近く敢えてずらして設定 (→強烈なデチューン感)
基音および非調和倍音の基準ピッチをオーケストラのピッチと10数セント程度にずらして設定 (→ある種のコーラス効果)
いずれにもそれぞれの音楽的理由、音楽的意図がある。ちなみに筆者の個人的な好みで言えば、2番目と3番目の方針には賛同しかねるが、4番目と5番目はそれぞれに趣きがあり、甲乙つけがたい。
2001年9月に欧州ツアー[32][33]に行った時に発表した筆者の新作"Japanesque Germanium"[34][35]において、尺八と笙と箏と電子音響のライブセッションを行う際に、邦楽器(尺八と箏)の基準ピッチをA=445Hzとして電子音響も笙も合わせて始まり、やがて途中のブロックでは笙をA=435Hzのピッチに持ち替えて、電子音響はA=445Hzの和声音響とA=435Hzの和声音響とを対等のバランスで同時に鳴らしたことがあった。その時の、わずかにずれて重複重層する響きによってホールを満たした浮遊感は忘れられない。
第2交響曲のフィナーレ部分で、この「グロッケン(系)楽器」のパートだけ音部記号の無い特殊な楽譜、そして楽譜欄外にMahlerが記した言葉から、何らかの違和感・浮遊感を望んでいた、という解釈がもっとも普遍的ではないか、というのが筆者の感想である。
AniMusicにおける違和感の分析
ここで再び、冒頭に紹介したAniMusicに戻る。あらためてチャイム/ベル/ゴング系の音色が使われている曲のうち、違和感のない2曲と、ピッチに違和感のある1曲の該当部分を切り出したこのムービーを、ここまでの考察をふまえて聴取比較してみると、その違和感の原因は明白である。この3曲目の該当部分のムービーの前半は、
Cm → Ab → Eb → Bb → Db → Ab → Eb → Eb → (Cm)
というシンプルなコード進行を2回、繰り返している。メロディーの音の冒頭1小節は「G→F→Eb→C」である。そして上空から問題のパイプが下りてきた後半に転調して、BGMのコードはお約束の全音上行転調で、
Dm → Bb → F → C → Eb → Bb → F → F → (Dm/Bb)
という同じコード進行を2回、繰り返して最後のBbで終わっている。ところが、ここに鳴らされているグロッケン系の音色の「耳に聞こえる倍音成分」は、最初の小節で言えば本来の転調後のメロディーの「A→G→F→D」に対して完全4度だけ下の「E→D→C→A」と鳴っている。その最初のE音の違和感は、2音目のD音と3音目のC音がBGMの調性のDmのスケールに包含されているのでいったん消えるが、2小節目に繋がるメロディーの「A音」が、2小節目のBGMのコード「Bb」と完全に不協和関係となって、ここで違和感は限界を越える。それ以降、耳に聞こえるメロディーの調性は「Am-F系」なのにBGMは「Dm-Bb系」であるために、同様にそこかしこで不協和関係が続き、全体として堪え難い違和感となっている。
これは、前述の「MIDI音源サウンドの分析」の、MIDIプログラムチェンジ10番「Glocken」のサウンド解析の結果から、以下のような現象となっていると考えられる。すなわち、この楽曲の作曲者は、全体として調和したシンプルなコード進行で作曲して、シーンごとにメロディー楽器の音色を切り換えており、この最後の転調のところで、メロディーのMIDIデータは転調に従って「A→G→F→D」となる筈である。しかし、ここでメロディー担当パートの音色としてMIDIプログラムチェンジ10番の「Glocken」を指定しているが、この「Glocken」音色では、耳に聞こえる最大音量の3次倍音はMIDIで与えるノートの8/3倍音にほぼ近いピッチなので、コードのメロディーに対して完全4度だけ下の調性のメロディーのように聞こえるのである。
MIDI音源のオーケストレーションにおいて、どうしてもラストの部分でこのような非調和成分の強い音色の楽器を選択するのであれば、その「聞こえる倍音成分」を考慮して、意図的にその音色のメロディー部分だけ移調すれば、あくまで耳に聞こえるメロディーが全体の調整と違和感を持たないように作曲/編曲できたものと思われる。ポップな感じのこのAniMusicの曲においては、Mahlerのように「untunedなサウンド」を求めている事は無いので、ここは音楽パートを担当したスタッフの一種の失敗であった、と言えるだろう。
ソフトウェアMIDI音源による被験者実験
前節の考察を受けて、実際にグロッケン系のMIDI音源でメロディーに違和感が生まれる現象を、被験者実験によって確認することにした。具体的には、Max6によって このような パッチを制作した。解凍すると出来る3つのファイルは、「Max6パッチ」「これをコレクティブにexportしたもの」「これをMaxアプリケーションにexportしたもの」の3つであり、後者2つはMaxを持たないMacでも実行できる。本稿の前半では、音源としてRoland社のSC-55mkIIを使用したが、ここではMacに標準搭載されているGeneral MIDI互換ソフトウェア音源とすることで、Macさえあれば多数の被験者で同時に追試できるようにした。使用した5種類の音色はSC-55mkIIと同じプログラムチェンジで指定され、ほぼ同様のサウンドが得られることを確認している。この実験用パッチ「test07.maxpat」の処理はおよそ以下のようなものである。

「これから実験を始めます」と表示、キーボードの「1」入力を求める
BGM(ドラムとオルガンで2小節のII-V進行が刻々と適当に転調)が始まり、サウンドの有無を確認、キーボードの「2」入力を求める
BGMが止み、判定ボタンのクリックのテストを求め、、キーボードの「3」入力を求める
トラブルがあればスペースキーで最初に戻ると告げ、キーボードの「4」入力を求める
BGMが再開、実験中はBGMがずっと続くと予告、メロディーのためにキーボードの「5」入力を求める
BGMにピアノ音のメロディー(ぴったり合っている)が加わり、これは判定「5」だと告知
5を押すとメロディーが半音上がり、これはまったく合っていない例: 判定「1」だと告知
1を押すと「いよいよ実験本番です。1から5までをクリックして進めて下さい」として、スタートにキーボードの「7」入力を求める
次々に音色とトランスポーズを変えた20種類の判定資料を提示(ランダムな順番)、好きな時間だけ聞いて判定したクリック番号を刻々と記録
20個まで到達するとファイル「test.txt」を書き出し、その内容をコピペして長嶋にメイルして、と表示

実験は静岡文化芸術大学デザイン学部メディア造形学科の学生が受講する、筆者の2回生向け専門科目「サウンドデザイン」(2013年4月23日)及び3回生向け専門科目「音楽情報科学」(2013年4月22日)において一斉に行った。所要時間は説明を含む全体でも15分程度、実験本体は2-3分であった。被験者は聴覚が健常な計49人で、19歳から22歳までのメディア造形学科学生45人(女32、男13)、他に30歳以下の他学科学生(女1)と韓国人留学生(男2人)と実習指導員(男1)であった。音楽経験についてはアンケートを取らなかったが、これは今後の課題である。以下は、この実験ソフトのメイン画面の様子である。

以下は、この実験ソフトのメイン画面(編集モード)と、サブパッチ、データテーブルなどのスクリーンショットである。

そして結果データは このような ものとなった。データは被験者ごとに全20行からなっていて、その各行は、被験者ごとにランダムな順序で提示されたサンプル番号(1-20)に続いて、設定音色、設定オフセット、被験者の評価(1-5)、という順になっている。以下は、実際に被験者が具体的に聴取した、それぞれのサンプルサウンドの例であるが、実際には転調はランダムに起きているので、これはあくまで一例である。

メロディーの無いBGMとして提示された音響
サンプル[1] --- 音色[1]、オフセット[12] (正しいMIDIメロディー)
サンプル[2] --- 音色[1]、オフセット[18] (6半音だけ上)
サンプル[3] --- 音色[10]、オフセット[12] (正しいMIDIメロディー)
サンプル[4] --- 音色[10]、オフセット[7] (完全4度だけ下)
サンプル[5] --- 音色[10]、オフセット[0]　(オクターブ下)
サンプル[6] --- 音色[10]、オフセット[24]　(オクターブ上)
サンプル[7] --- 音色[10]、オフセット[19] (完全5度だけ上)
サンプル[8] --- 音色[10]、オフセット[12] (6半音だけ上)
サンプル[9] --- 音色[15]、オフセット[24]　(オクターブ上)
サンプル[10] --- 音色[15]、オフセット[19] (完全5度だけ上)
サンプル[11] --- 音色[15]、オフセット[36]　(2オクターブ上)
サンプル[12] --- 音色[15]、オフセット[31] (オクターブと完全5度だけ上)
サンプル[13] --- 音色[99]、オフセット[12] (正しいMIDIメロディー)
サンプル[14] --- 音色[99]、オフセット[7] (完全4度だけ下)
サンプル[15] --- 音色[99]、オフセット[24]　(オクターブ上)
サンプル[16] --- 音色[99]、オフセット[19] (完全5度だけ上)
サンプル[17] --- 音色[113]、オフセット[24]　(オクターブ上)
サンプル[18] --- 音色[113]、オフセット[19] (完全5度だけ上)
サンプル[19] --- 音色[113]、オフセット[36]　(2オクターブ上)
サンプル[20] --- 音色[113]、オフセット[31] (オクターブと完全5度だけ上)
そこで、Max6によって このような パッチ「test09.maxpat」を制作して、この実験結果を解析するためのツール制作を開始した。まず前処理として、日本語を扱えないMax6のために、 結果データ をテキストエディタの編集機能で このように 一括変換したものを処理用の参照データとした。以下は「test09.maxpat」の初期画面とデータ読み込みサブパッチの様子であり、スタートボタンによって画面内の49個のグラフとして、49人の被験者が20種類のサンプル資料(ランダムに提示されたものをソートして、左端がサンプル[1]、右端がサンプル[20]と並べ替え、縦方向は下の[1]から上の[5]までの5段階)に対して[1]から[5]までのボタンで判定した様子が表示される。

これを一瞥するだけで、特定の被験者の聴取傾向が判定でき、例えば左上端の被験者[1]とその下の被験者[8]とでは、サンプル[1]はともに良好な[5]を、続く(実験ではランダムに別の順番で提示されている)サンプル[2]はともに最低点の[1]と評価している、などの傾向の類似性が見てとれる。その一方で、まったく駄目という評価[1]を20個のサンプルで一度も付けていない被験者が3人いるとか、[1]と[3]を1つ付けたものの[2]がゼロで残りのスコアが全て[4][5]である被験者[30](左から2番目、上から5番目)とか、実験の半分過ぎまで[5][4]ばかり(だんだん違いが聞こえてきた? or 後半は疲れてきた?)という被験者[48](右から2番目、最下段)など、かなり異なった傾向の被験者も一目瞭然であり、統計的に分析する際にノイズとして除去する候補の抽出に役立った。
次に、このパッチ「test09.maxpat」から拡充した このような パッチ「test12.maxpat」を制作した。統計分析の方針としてはスチューデントのt検定[36][37]により、サンプル資料に対して「可もなく不可もなく」の3点(中央値)を平均点として正規分布する母集団(一般大衆)を想定し、これに対して49人の被験者集団の判定結果が、中央値の3点よりも有意に高い(BGMと合っている)、あるいは有意に低い(BGMと合っていない)と認められるサンプル資料があるか、それはどのサンプルでスコアの平均値は、その信頼度は(どの有意水準まで)、を抽出することであり、以下の「t値」を計算して、両側検定のt臨界値と比較することで判定できる。

まずパッチ「test12.maxpat」では、以下のようにサンプル資料ごとの49人の被験者のスコア(1-5点)を画面内の20個のグラフとして表示した。これにより、20個のサンプル資料ごとにおよその傾向として「高いスコア(BGMと合っている)が多い」(サンプル[1]やサンプル[4])か、「低いスコア(BGMと合っていない)が多い」(サンプル[17]やサンプル[18])か、被験者によって評価がバラバラに分かれる(サンプル[10]やサンプル[15])か、などの傾向が容易に見てとれた。

両側検定のt臨界値を設定するためにはt検定の数表が必要である。 49人の被験者なので数表では「自由度=48」の値が必要だが、[37]ではスキップされ記載されていなかったので、倍精度演算サブパッチで実際に数値計算して求めることまで覚悟したが、さすがインターネット、以下のようにちゃんと記載されている数表[38]をゲットできた。

次にパッチ「test12.maxpat」では、20種類(1)のサンプル資料ごとに、(2)被験者のスコア(1-5点)の平均、(3)標準偏差、(4)母集団(一般大衆)を「スコア平均点=3で正規分布する」と仮定した場合のt値、(4)と有意水準[(5)10%, (6)5%, (7)1%, (8)0.1%]の両側検定のt臨界値との比較結果(1=有意, 0=有意さ無し)、を計算して結果を以下のように表示するとともに、「 mean_SD.txt 」というファイルに書き出した。

上の画面から読み取れる結果は、たとえばサンプル[1]の場合、被験者49人の評価値の平均は4.52ときわめて高く、また標準偏差も0.8077とかなり小さいために、有意水準0.1%(p=0.001)でも評価値は中央値(3.0)より有意に高い、と解釈できる。同様に有意水準0.1%でも評価値が中央値(3.0)より高い、あるいは低いと解釈できたのは、サンプル[2](1.92)、サンプル[4](4.16)、サンプル[7](4.12)、サンプル[8](2.28)、サンプル[9](3.80)、サンプル[13](2.08)、サンプル[17](1.72)、サンプル[18](1.72)、だけであった。
サンプル[5][11][14]は有意水準1%(p=0.01)では中央値(3.0)と離れていると解釈できるが、有意水準0.1%(p=0.001)では評価値が中央値(3.0)に近いため、あるいはやや標準偏差が大きい(ばらつきが大きい)ために右端のマークが空白となっている。
サンプル[6][12][19]では有意水準5%(p=0.05)までしか中央値(3.0)と離れていると解釈できないが、これは評価値がより中央値(3.0)に近いためである。
サンプル[3][16]では有意水準10%(p=0.1)でしか中央値(3.0)と離れていると解釈できないが、これは評価値がさらに中央値(3.0)に近いためである。
サンプル[10][15][20]では評価値が中央値(3.0)に非常に近いため、有意水準10%(p=0.1)でも中央値(3.0)と離れているとは解釈できない。以下は、このパッチ「test12.maxpat」のサブパッチ(上のメインパッチ内では左端の上方に配置)のうち、実際にファイルの読み書きや統計計算や表示処理を行っている4つのスクリーンショットである。

次に、このパッチ「test12.maxpat」から改良した このような パッチ「test13.maxpat」を制作した。ここでは、49人の被験者の中に、全体の統計データを大きく偏らせるような傾向が見出せた場合には、その被験者のデータを「20個のサンプル全てに3点を付けた」と置換した場合に全体の結果がどう変わるか、を検討することとした。これは音楽心理学実験ではよくある、「まったく聞こえていない人(広義の「音痴」)」の影響の除外、ということである。そのために、メイン画面内の下段に、49人の「20個のサンプルごとに全被験者の平均値との偏差(距離の二乗和の平方根)」を表示するとともに、その49人ごとにボタンを配置した。そして、初期状態では49人全員のボタンが「ON」となっているのに対して、どれかの被験者のボタンを「OFF」にすると、その被験者のデータを「20個のサンプルの全てに3点(中央値)をつけた」と修正して、いちばん最初から全ての演算を行って再描画するようにした。また、49人の被験者全員のデータ mean_SD.txt を書き出すボタンを設けて、基本的にはこのファイルを自動では上書きしないようにした。
以下は、その最初の状態、つまり49人の被験者全員を対象とした実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

以下は、49人の被験者のうち、もっとも全被験者の平均値との偏差が大きいグループから1人について、「20個のサンプルの全てに3点(中央値)をつけた」と修正した実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

以下は、49人の被験者のうち、もっとも全被験者の平均値との偏差が大きいグループからさらに1人(計2人)について、「20個のサンプルの全てに3点(中央値)をつけた」と修正した実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

以下は、49人の被験者のうち、もっとも全被験者の平均値との偏差が大きいグループからさらに1人(計3人)について、「20個のサンプルの全てに3点(中央値)をつけた」と修正した実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

以下は、49人の被験者のうち、もっとも全被験者の平均値との偏差が大きいグループからさらに1人(計4人)について、「20個のサンプルの全てに3点(中央値)をつけた」と修正した実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

以下は、49人の被験者のうち、もっとも全被験者の平均値との偏差が大きいグループからさらに1人(計5人)について、「20個のサンプルの全てに3点(中央値)をつけた」と修正した実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

以下は、49人の被験者のうち、もっとも全被験者の平均値との偏差が大きいグループからさらに1人(計6人)について、「20個のサンプルの全てに3点(中央値)をつけた」と修正した実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

以下は、49人の被験者のうち、もっとも全被験者の平均値との偏差が大きいグループからさらに1人(計7人)について、「20個のサンプルの全てに3点(中央値)をつけた」と修正した実験に対する、「test13.maxpat」のメイン画面、49人のそれぞれの20個のサンプルに対する評価値グラフ、20個のサンプルごとに49人の被験者から付けられた評価値グラフ、のスクリーンショットである。

上の7つの実験結果をざっと眺めてみると、全被験者の平均値との偏差が大きい被験者のデータを「20個のサンプルの全てに3点(中央値)をつけた」と修正することで、例えば「有意水準10%でも有意に離れているとは判断できない」というサンプルの個数が、「3→3→5→5→5→7→6→6」というように、刻々と上がったり下がったり変化していく様子が見て取れる。通常は「大きく外れた被験者のデータは除外する」という方針であるが、このように被験者の総数を変えずに「全て中央値にする」というような処理は、データ総数を変えないために同じようなビジュアルで差分を視認しやすい、というメリットもある。このような処理を行った場合の影響については、今後さらに検討してみたい。
被験者実験の結果の分析と考察
ここで、被験者実験の結果を、実際に提示されたサウンドサンプル例と対比して検討してみることにする。まず、49人の被験者全員から得られた mean_SD.txt のうち、有意水準0.1%(p=0.001)でも評価値は中央値(3.0)から有意に離れている、と解釈できるもののスコアを抜き出し、サウンドサンプル例を再録すると、20個のサンプルのうち12個となる。そして、その中でもスコアが4点以上という「BGMとよく合う」というものは以下の3つである。ピアノ音色で正しいMIDIノートのものに加えて、音色[10]のGlockenにおいて、聴感上は目立っていた完全4度上の音をメロディーとして知覚させるために、MIDIノートを完全4度だけ下、あるいは完全5度だけ上に移調したものがランクインした。

サンプル[1] --- 音色[1]、オフセット[12] 4.52 (正しいMIDIメロディー)
サンプル[4] --- 音色[10]、オフセット[7] 4.16 (完全4度だけ下)
サンプル[7] --- 音色[10]、オフセット[19] 4.12 (完全5度だけ上)
また、有意水準0.1%(p=0.001)でも評価値は中央値(3.0)から有意に離れている、と解釈できるものの中でもスコアが2点以下という、「BGMとまるで合わない」というものは以下の3つである。まず、ピアノ音色で6半音だけ移調したものは、想定通りに「BGMとまるで合わない」と判定されたが、他に音色[113]のTinkle Bellで、離れた音域の異なったピッチ感の2音成分が予想通りに災いして、MIDIノートのオクターブ上だけでなく、完全5度上という関係でも「BGMとまるで合わない」と判定された。

サンプル[2] --- 音色[1]、オフセット[18] 1.92 (6半音だけ上)
サンプル[17] --- 音色[113]、オフセット[24]　1.72 (オクターブ上)
サンプル[18] --- 音色[113]、オフセット[19] 1.72 (完全5度だけ上)
そして、残り6つのうち、有意水準0.1%(p=0.001)でも「どちらかといえばBGMと合う」というものは以下の2つである。ここではいずれも音色[15]のTubler Bellが、オクターブや2オクターブだけ上げたサウンドで、高い成分のピッチ感がメロディーとして知覚されたものと思われる。

サンプル[9] --- 音色[15]、オフセット[24]　3.80 (オクターブ上)
サンプル[11] --- 音色[15]、オフセット[36]　3.52 (2オクターブ上)
そして以下の残りの4つが、有意水準0.1%(p=0.001)でも「どちらかといえばBGMと合わない」というものである。ここには音色[10]のGlockenと音色[99]のCrystalが2個ずつ入ったが、いずれも異なった(自然な倍音関係でない)2成分が聞こえる音域で、被験者がメロディーがどれか、惑わされた様子が推定される。

サンプル[5] --- 音色[10]、オフセット[0]　2.48 (オクターブ下)
サンプル[8] --- 音色[10]、オフセット[12] 2.28 (6半音だけ上)
サンプル[13] --- 音色[99]、オフセット[12] 2.08 (正しいMIDIメロディー)
サンプル[14] --- 音色[99]、オフセット[7] 2.32 (完全4度だけ下)
まとめると、本稿の前半で行った「MIDI音源サウンドの分析」のところで整理したように、MIDIノートとして駆動されるfundamental成分と異なる成分の影響により、多くの被験者が前述とほぼ同様に影響されることで、「BGMとよく合う」から「BGMとまるで合わない」までの判定において、似たような評価を出した、と言えるだろう。今回の実験データでは、突出して(1人か2人だけ)一般の被験者データから乖離する被験者はいなかったので、当面の分析はここまでとするが、実験データはきちんと記録してあるので、興味のある方は必要に応じてさらに分析をすることもできる。
以上の分析を受けて、「グロッケン(系)」音色を使用した場合のMIDI音源における作曲・アレンジ法をまとめれば、以下のようなポイントが重要であると思われる。

MIDI音源の音色の中で、「グロッケン(系)」音色はMIDIで与えられるfundamentalの自然倍音成分よりも、異なったクロマやずれて知覚される倍音成分の方が強いので、本当に意図するようにメロディーが聞こえるのか、注意してチェックする必要がある
「グロッケン(系)」音色では、複数のピッチ感を与える成分が同時に混在しているので、オクターブ関係で上下させると、聴覚の最適感度帯域、あるいは楽器音として最適強度帯域に入る成分が強く表に出てくる。このため、通常の自然倍音から構成される楽器音のように、音色効果としてオクターブ上下させたりミックスするのと違って、本質的にピッチの知覚を左右する(違ったメロディーにも聞こえる場合がある)ことに注意する
MIDIノートナンバ(ピッチ)だけでなく、MIDIベロシティ値についても注意が必要である。通常、MIDI音源では、ベロシティ値によって音量だけでなく音色を変化させ、一般に強打鍵の場合には高域の音色成分を強調するような傾向にある。すると「グロッケン(系)」音色の場合には、あるベロシティ値で想定した音色バランス(複数のピッチ成分が高域と低域に混在)が、ベロシティ値によって音量や音色だけでなく、実際に聴取されるピッチの弁別にまで影響することを配慮する必要がある
結局、「グロッケン(系)」音色は実際の楽曲の中で鳴らしてナンボであり、データとしてのMIDIパラメータに頼ることなく、実際に耳で聞いてどうなのか、が重要である。簡単に言えば「ちゃんと聞こえない奴はこの音色を使うな」という事である

まとめと今後の課題
本稿は2013年5月25-26日に岡山大学で開催される、日本音楽知覚認知学会春季研究発表会に発表応募してから、ちょうど1ヶ月でまとめたものであり、2013年4月30日に執筆完了した。筆者は、前週の2013年5月17-18日に大阪大学で開催される、情報処理学会エンタテインメントコンピューティング研究会で発表予定、さらに前々週の2013年5月11-12日にお茶の水女子大学で開催される、情報処理学会音楽情報科学研究会で発表予定、また翌々週の2013年6月8-9日に山口大学で開催される、日本時間学会第５回大会で発表予定、と4つの学会に発表申込みをしているが、音知学会で発表の本稿以外の3件は、全て予稿の作成に1日しかかかっていない。このような説明をしたのには理由があり、上記3学会/研究会での筆者の発表と本研究とは、実は底流で通じているのである。
音楽情報科学研究会は設立20周年の第99回研究会であり、「音学シンポジウム2013」という特別イベント[39]を企画した。音楽に限らず、音声、聴覚、知覚認知、統計的問題、などの広範な領域をシングルトラックで勉強しよう、というものであり、筆者は参加のためにスタジオレポートでポスター発表する[40]。音楽情報科学研究会は1985年からの任意団体時代には、音楽家・演奏家や音楽学者などのメンバーも多かったが、情報処理学会の正式な研究会となった1993年4月から、次第にそのような「音楽サイド」のメンバーが漸減しつつ現在に至っている[41]。その中で過去に何度も議論となったのが、「音楽が聞けないのに音楽情報科学研究をするな」という筆者の意見と、これに対する根強い反論「音楽が好き/得意でない者が音楽情報科学の研究をして何が悪いのか」である。筆者の真意は、研究者(学生)本人があまり音楽を好きでもないのに所属する研究室の指導教官の個人的な趣味で音楽情報科学研究をさせられているケースの不毛さ、特に研究者(学生)本人が聞き分けられていない間違った音楽的現象をデータのみ過信/曲解して結論付けたような「成果」の不毛さ(とそのような歴史の繰り返し)に対する危機感にある(「研究するな」ではなくて、「研究するなら音楽の訓練もやってね」である)。本研究はこれに対する一つのアンチテーゼでもあり、聞こえない者にとっては何の事か判らないような内容も少なくないが、音知学会の諸兄のように訓練された「耳」があれば、あるいは音楽に対する尽きない愛情があれば、同意いただけるものと信ずる。
エンタテインメントコンピューティング研究会はまだ若い研究会であるが、筆者はエンタテインメントデザインの視点から参加している[43]。これに関して、筆者が情報処理学会2013年全国大会で発表した内容[44]から引用する以下が、本稿と重要な結びつきを持っている。
20世紀の日本を支えた「製造業」(高品質・高付加価値・大量生産)は、21世紀になって日本の有名な電機メーカの多くが失速・消滅する事例に明らかなように、過去のものとなった。20世紀の「ものづくり」は、専業のメーカが企画・設計・試作・製造・試験・販売まで全てを行う、というビジネスモデルであった。これは半導体技術がまだ開発途上であったため、CPUの処理能力の低さやメモリの小ささをカバーするための専用ハードウェア(ASIC)が必要で、その開発費用を量産の数量で回収し、専門的に特化した設計技術者を抱えることで、独占的・排他的な製品提供を行ってきたからである。しかし21世紀になると、CPUクロックやメモリが十分に高性能化したことで、専用LSIを開発する領域は相対的に小さくなり、全ては「十分なメモリを抱え十分に高速なCPUがソフトウェアで行う」というシステムデザイン指針に変貌した。過去のプログラマがテクニックを駆使してきたプログラミングは、限られたCPU処理能力とメモリサイズとの戦いであったが、21世紀のプログラマはそのような工夫よりも、ソフトウェア部品の再利用と信頼性向上や例外処理のために、進化してきた開発支援環境の中で、基本的には同じような(馬鹿正直で誰でも読める)プログラムを作るようになってきた。興味深い流れとして、プログラマのスキルが低くても(電子工学の専門知識を持たない文系出身者であっても論理性があればブラックボックスとしてLSIやソフトを開発可能)昔より高性能の製品が実現できることで、20世紀に懸念されてきた「プログラマが不足する」クライシスをそこそこ回避している。
ハードウェアのシステムはPC/携帯/パッド/ゲーム機などの専用ブラックボックスに任せて、その上のアプリとしてのゲームやWebコンテンツなどをデザインする領域でも、オーサリングツールや開発支援環境などの充実、そしてオープンソース文化の普及によって、専業のプロフェッショナルだけでなく、一般・学生などアマチュアであっても十分に世界に発信できる(多数のアクセスやダウンロードとして支持される)時代となってきた。オブジェクト指向によるソフトウェアの再利用、CC(クリエイティブコモン)に支えられたフリードキュメント/ライブラリ/ツールの無償公開交換は、過去の企業の特許やカスタム化による閉鎖的文化と違って、「誰もがお互いに共有することで皆んなでhappyになる」という新しいデザイン文化として定着した。ここに乗れない日本のメーカの没落する姿は、ある意味では時代の象徴的必然である。
アジアが世界の製造工場となったのも、このオープンソースとインターネットが原動力である。新しいシステムのアイデアを、スケッチングのテクニックでプロトタイピングし、量産時に金型を作る構造物も3Dプリンターで実現してしまうことで、ほぼ実機に近いレベルで仕様検討やマーケティングを行える。メーカは大企業である必要はなく、少数のアイデア豊かなデザイナが企画からプロトタイピングまで行えば、KickStarterなどの支援によって開発費用の獲得から試作製造まで実現できる時代である。一部の高精度な製造現場ではまだ日本の伝統が優勢であるものの、原理的には製造機械の精度はマイクロエレクトロニクス技術の進展とともにさらに向上するので、血管内を移動して病巣を切除するようなロボットの製造は、名工の手でなく「超高性能微細加工ロボットが作った超微細製造機械」でしか実現できないであろう。
これはつまり21世紀の人類文明の本質、オープンソースの時代だ、という事である。ところが筆者は、ここには書けないし口頭でも話せないが(^_^;)、2013年3月、世界的に有名なある音楽関連業界の大企業と関係したあるプロジェクトの企画に関与して、結果的に没企画となる中で、この企業の体質がまったく硬直した権利主義の権化である(現在は注目されているものの将来は・・・??)、と確認したところである。インターネットの時代、オープンソースの時代というのは、誰もが地球上の全ての知的財産を共有することで互いにハッピーになろう、という文化である。本研究が、タイトルだけ発表応募してからたった1ヶ月で、新学期の忙しい合間に進められたというのは驚異的であるが、これがもし1990年代前半であったら、まぁ半年というよりは1年間はかかったであろう、と容易に推察できる。電子化されたドキュメント類、YouTubeの動画やMP3サウンドという空気のようなマルチメディア、そして1991年以来[45]、発展と成長を続けてきたMaxとそれを支えたMacの進歩がなければ、本研究はとうてい進められなかったのである。
そして時間学会である。今回の発表[46]は実は上記のどこかと関係しているのであるが、ここには書けないし口頭でも話せない。筆者は音楽心理学、あるいはメディア心理学の研究には永遠の憧れを抱いているのであるが、過去の研究[47]はリズムとビートに関するものであった。そして本研究は、音楽知覚認知における、主として周波数ドメインからのアプローチであった。そうなれば、次には音楽知覚認知における、主として時間ドメインからのアプローチを指向したいのである。あまりに広範な領域が錯綜する時間学会であるが、ここでの交流と勉強は、必ず生かされると確信している。関連の話題として並べたが、これら「5週間で4回」の学会/研究会での発表の中で、本研究が圧倒的に中心に位置したのも、このような背景があったからである、とご理解いただきたい。
最後に、本研究に関する今後の課題としては、今回の被験者実験と同様の実験を行う際に、被験者ごとに、音楽経験(演奏歴・楽器種別)や愛好する音楽ジャンルなどの音楽的特性も加味して検討する意義があると思われる。また、特定の被験者のデータが全体に影響するような場合にこれを単純に除外するのでなく、その被験者のデータを「全て中央値/平均値とする」というような置換による補正が持つ統計処理上の問題点あるいは妥当性についても、機会があればさらに検討してみたい。
参考文献/URL

[1] http://en.wikipedia.org/wiki/Mahler_2
[2] http://en.wikipedia.org/wiki/Transposing_instrument
[3] http://en.wikipedia.org/wiki/Tubular_bells
[4] Rossing, Thomas D. (2000). Science of Percussion Instruments, p.68.
[5] Pitch perception. http://www.mmk.ei.tum.de/persons/ter/top/pitch.html
[6] Definition of pitch. http://www.mmk.ei.tum.de/persons/ter/top/defpitch.html
[7] Virtual pitch. http://www.mmk.ei.tum.de/persons/ter/top/virtualp.html
[8] Strike note of bells. http://www.mmk.ei.tum.de/persons/ter/top/strikenote.html
[9] Seewann, M., Terhardt, E. (1980). Messungen der wahrgenommenen Tonhohe von Glocken. In: Fortschritte der Akustik (DAGA'80), VDE-Verlag, Berlin, pp. 635-638
[10] Terhardt, E., Seewann, M. (1984). Auditive und objektive Bestimmung der Schlagtonhohe von historischen Kirchenglocken. Acustica 54, pp.129-144
[11] Octave equivalence. http://www.mmk.ei.tum.de/persons/ter/top/octequiv.html
[12] Revesz, G (1912). Nachweis, das in der sog. Tonhohe zwei voneinander unabhangige Eigenschaften zu unterscheiden sind. Nachr. Ges. Wiss., Math. Phys., 247-252
[13] Idson, W.L., Massaro, D.W. (1978). A bidimensional model of pitch in the recognition of melodies Percept. Psychophys. 24, 551-565
[14] Octave stretch. http://www.mmk.ei.tum.de/persons/ter/top/octstretch.html
[15] http://nagasm.org/1106/news2/mahler/
[16] http://www.youtubesnips.com/
[17] http://savemedia.com/
[18] http://www.savetube.com/
[19] http://en.wikipedia.org/wiki/Transcription_(music)
[20] M D Plumbley, S A Abdallah, J P Bello, M E Davies, G Monti and M B Sandler (2002). Automatic music transcription and audio source separation. https://files.nyu.edu/jb2843/public/Publications_files/Plumbley-CybSys-2002.pdf
[21] Ruolun Liu (2009). A review on music source separation. Information, Computing and Telecommunication, 2009. YC-ICT '09. IEEE Youth Conference, pp.343-346
[22] Tuomas Virtanen (2006). Sound Source Separation in Monaural Music Signals. http://www.cs.tut.fi/sgn/arg/music/tuomasv/virtanen_phd.pdf
[23] Matthew J. Crossley (2010). Methods of Single-Channel Music Source Separatio. http://mat.ucsb.edu/~ryan/200C_site/Matthew/source_separation.pdf
[24] Tuomas Virtanen (2003). Sound Source Separation Using Sparse Coding with　Temporal Continuity Objective. http://www.cs.tut.fi/sgn/arg/music/tuomasv/icmc2003.pdf
[25] Tuomas Virtanen (2004). Separation of Sound Sources by Convolutive Sparse Coding. http://www.cs.tut.fi/sgn/arg/music/tuomasv/sapa2004.pdf
[26] Tuomas O. Virtanen. Monaural Sound Source Separation by Perceptually Weighted Non-Negative Matrix Factorization. http://www.cs.tut.fi/sgn/arg/music/tuomasv/nmf/nmf_report.pdf
[27] Mahdi Triki, Dirk T.M. Slock (2006). Music Source Separation via Sparsified Dictionaries vs. Parametric Models. http://www.eurasip.org/Proceedings/Ext/ISCCSP2006/defevent/papers/cr1121.pdf
[28] Emmanuel Vincent, Maria G. Jafari, Samer A. Abdallah, Mark D. Plumbley, Mike E. Davies. Model-Based Audio Source Separation. http://academic.research.microsoft.com/Paper/4461398.aspx
[29] Vincent, E. (2006). Musical source separation using time-frequency source priors. Audio, Speech, and Language Processing, IEEE Transactions on　Date of Publication: Jan. 2006, Volume: 14 , Issue: 1, pp. 91-98
[30] Yevgeni Litvin, Israel Cohen, and Dan Chazan (2010). Monaural Speech/Music Source Separation　Using Discrete Energy Separation Algorithm. http://webee.technion.ac.il/Sites/People/IsraelCohen/Publications/Litvin_SP_2010.pdf
[31] http://nagasm.org/ASL/midi03/
[32] http://nagasm.org/1106/europe/
[33] http://nagasm.org/1106/europe/report.html
[34] http://www.youtube.com/watch?v=vtbUT2R2qmE
[35] http://www.youtube.com/watch?v=SwXvlhsB8qw
[36] http://en.wikipedia.org/wiki/Student%27s_t-test
[37] http://en.wikipedia.org/wiki/Student%27s_t-distribution
[38] http://www.medcalc.org/manual/t-distribution.php
[39] http://nagasm.org/1106/news3/tiger39/SIGMUS99_new.txt
[40] http://nagasm.org/ASL/paper/SIGMUS201305.pdf
[41] http://nagasm.org/ASL/paper/JMACS_SIGMUS.txt
[42] http://nagasm.org/ASL/paper/SIGMUS201208.pdf
[43] http://nagasm.org/ASL/paper/SIGEC201305.pdf
[44] http://nagasm.org/ASL/paper/IPSJ2013.pdf
[45] http://nagasm.org/ASL/max02/
[46] http://nagasm.org/ASL/paper/Jikan2013.pdf
[47] http://nagasm.org/ASL/beat/index2.html