■秋田さんメモによる第3回勉強会の議事録■ 1.長嶋さんデモ 1-1.メディアアート作品紹介 JizoGazoDazo Morpherというソフトを使用。 モーフィング1回に3時間くらいかかる。 Morpher http://www.asahi-net.or.jp/~FX6M-FJMY/mop00j.html Mac OS X用 MorphX http://www.orcsoftware.com/~martin/Morph.html (URL提供:青木氏) 画像を見ていると、多少音楽とずれていても ひっぱり込まれることがある。 -> 心理学方面の大ネタになりそう。 1-2.NIME SARSの影響大。該当地域を回避すればなんとか行けるかも。 1-3.大人の科学 蓄音機(アナログの逆襲) http://kids.gakken.co.jp/kit/otona/kuwa9.html 1-4.光の弦 1-5.SH3A(Rolandのアナログシンセ) 中古で5万くらい。 2.小林さんデモ DASPオフ・サマースクール2003 の紹介 http://dspss.iamas.ac.jp/home_j.html Max/MSPという音楽プログラミング環境でロボットを制御 音声/MIDIで画像をコントロール Jitter (Max)http://www.cycling74.com/products/dlmaxmsp.html (MSP)http://www.cycling74.com/products/dljitter.html (URL提供 小林氏) Robo-One ヒューマノイドによる格闘技大会 -> ホビーとして確立? http://www.mmjp.or.jp/robo-one/ PCから無線でH8(CPU)をコントロール 携帯mailでコマンド->Javaで動作 等 3.剣持さん VOCALOIDデモ 3-1.VOCALOID ○人間の声をベースに音素片合成 例えば、part という単語は #p-pa-ar-t-t# のように接続。f軸上で合成。 ・スペクトル包絡に合うような形でピッチを変える(有声音) ・そのまま使用(無声音) ・上下2,3オクターブくらいシフトしても大丈夫 ○全部の音素を含む「ダワダトダ」のような無意味語を 2時間くらいかけて撮る。1オクターブ内で2,3の組み合わせ。 ->手作業で音素片に分解。 ○ビブラートはビブラートがかかった声をサンプルし、 ビブラート要素を抽出。他の声に使いまわしている。 ○英語の場合は単語をそのまま入力->中に辞書を持っている。 ・日本語は内部で発音記号に直す。 IPA, SAMPA という発音記号体系 ○brightness(明るさ)というパラメータ 周波数のある領域を持ち上げる ○ソフトは複数トラック(合唱)対応 ○全部合成してから発音 -> VSTiプラグイン合成しながら発音 5秒くらい前の場所に貼り付けて再生 ○ライブラリは日本語で数10Mバイト/1人 英語はもう少し多い。 3-2.苦労した点 ○TextToSpeechと比べ、歌は「伸ばし音」というのがあり、 難しかった。 ○例えば「サ」という音の場合、[sa]の[a]のところに音符が 来るように合成する必要がある。 3-3.その他 意見/感想 ○まるっきりクローズドの環境ではなく、マニア用に ツールを公開しては?(長嶋) ○英語でピッチが上がったとき、変な音に聞こえた(北澤) ->デモで使用したライブラリは1ピッチしか持っていない。 ライブラリの問題だと考えられる。まだまだ綺麗ではない。(剣持) ○楽しめるような形になっているのでいいですね。(竹林) ○画像方面で、いろんな人の顔を合成(平均)していくと美人顔になるという データがある。声でやると美人声になるのでは?(森) ○音声認識のライブラリで裁判になった例がある(自己情報コントロール権)。 撮る前に承諾をいちいち取っておく必要がある。(竹林) ○ブラウザのプラグインに仕込んで、「うまく歌ってくれるMIDI」 のようなビジネスになるかも?(長嶋) 4. 初顔自己紹介 5. 次回開催 6月 ---------------