AI DJと人のかけあいによるDJパフォーマンス
AI DJ Project — A dialogue between AI and a human」は、2人のDJがお互いに曲をかけあうプレースタイル「Back to Back」を通して、人間とAIのユニークな対話を考察するプロジェクトです。
AI DJは、人間がかけた曲をその場で「聞き」、様々なニューラルネットワークを駆使し、次にかける曲を選び、ミックスまで行います。AIと人間がなるべく同じ条件下でプレーするため、両者はMP3などの楽曲データ(曲のタイトル・ジャンルなど)を含む音源ではなく、ターンテーブルとレコードを使用。AIはコンピュータの中ではなくコンピュータ制御のターンテーブルを用いてビート合わせを行います。
AI DJのシステムは、以下の3つの特徴から構成されています。
1. 選曲
楽曲のスペクトログラム画像から音楽ジャンル、楽器、曲中に使用されているドラムマシンを推測する3種類のニューラルネットワークを開発しました。AI DJは、人間のDJがかけている曲を聴き、それらのニューラルネットワークを使い、聴覚的特徴を抽出します。抽出された聴覚的特徴と、あらかじめ準備したレコードボックス内にあるすべてのトラックの特徴を比較することにより、特徴量が近い似たような音楽的トーン/ムードを持つトラックを選ぶことが可能になります。
2. ビート合わせ
人間がかけている曲のビートに対して、AI DJがターンテーブルのピッチ(スピード)をコントロールし、次にかける曲のビートを合わせる技術も重要です。強化学習(RL)を用いて、ダウンビートに合わせるために、ターンテーブルのスピードアップ/ダウン、レコードを軽く押し出す/押さえるなどの操作を試行錯誤しながらモデルに教えています。スムーズにビートを合わせるために、OSC(Open Sound Control)に対応したターンテーブルと、レコードの細かい操作をするロボットフィンガーを開発しました。
3. クラウドリーディング
優れたDJは、自分がかけている曲にオーディエンスがどう反応しているかを見ながら次の曲を選びます。ディープランニングを用いたモーショントラッキング技術を活用して、オーディエンスがどれだけ踊っているのかを数値化し、次の選曲に生かしています。
これまでに私たちは、日本や欧米をはじめ、様々な場所でパフォーマンスを行ってきました。AI DJは流れにそった選曲をする時もあれば、人間が選ばないであろう曲:例えばアップテンポのテクノの次にフリージャズを選んだり…と時折、突拍子もない行動もします。こうしたAIのちょっとした予測不可能性が、パフォーマンスにいつも面白い緊張感をもたらし、人間のDJにとっては「DJとしてどのように音楽をプレイするか」というインスピレーションを与えてくれます。
AI DJは、人間のDJの代わりではありません。私たちは、AIを別のロジックを持った「Alternative Intelligence」と捉え、人間に取って代わるものではなく、人間と共に思考できるパートナーとして活動しています。本プロジェクトでは、テクノロジーと人間の関係を多角的に考察し、AIとの協働から生まれる新しい表現を探究しています。
DJ(Disc Jockey)は、ナイトクラブなどでオーディエンスのために、ターンテーブルなどの機材を使用し、既存の楽曲を再生、選曲、操作する人です。フロアの空気に合わせ適切な音楽を選び、人々が気持ちよく踊っていられるようにスムーズに楽曲をミックスするには、高度で創造的なプロセスが必要です。
DJの芸術性は、コンピューテーショナルなクリエイティビティを拡げるための実験的なプラットフォームを構築しています。例えば、「AlgoRhythms」[1] は、DJのプロセスにおけるチューリングテストを競う場です。与えられた音楽をDJソフトウェアが自動的にミックスし、人間の判定者が、そのミックスがどれだけ人間的かをジャッジします。AIをテーマにしたDJパーティー「2045」[4]は、各DJが自分のカスタムDJアルゴリズムを持ち寄り、そのアルゴリズムにプレイさせる実験をおこなっています。
これまでの試みとは異なり、AI DJプロジェクトは、DJのプロセス全体を自動化するという目的ではなく、AIと人間のDJのコラボレーションを成功させようとしています。そのため、DJセッションでは、ソフトウェアと人間のDJが交互に1曲ずつプレイするBack to Back(B2B)と呼ばれるスタイルを用いています。
B2Bでは、AIと人間のDJは、できるだけ似たような条件でパフォーマンスを行います。例えば、AIは人間のDJと同じ物理的なレコードやターンテーブルを使用しています。AIは人間のDJがかけている曲を聴き、次にかけるレコードを選択します。(選択されたレコードを探し、ターンテーブルにセットするのは人間のアシスタントの仕事となります)レコードがセットされた後、AIは人間のDJがかけているトラックのテンポなどを解析しつつ、ターンテーブルのピッチ(回転速度)をコントロールすることで、両方のトラックのビートを合わせミックスを行います。この目的のために、コンピューター制御のカスタムDJターンテーブルとロボットフィンガーを開発し,コンピュータに接続してOSCプロトコルで操作することができるようにしました。
1. 選曲
2. ビート合わせ
3. クラウドリーディング
DJの最低限の条件となるのが、途切れることなく音楽の “流れ”をキープすること。そのため、次にかける曲が今流れている曲と多少似つつも、リズム構成や音の質感に新しさがある曲を選ぶのが一般的です。また、DJは選曲の手がかりとして、トラック内で使用されている楽器や、目立つドラムマシンの音を使用することも多いです。(例えば、ピアノソロのトラックとオルガンリフのトラック、2つのトラックともRoland TR-808のスネアを使っている etc)これらの推測に基づき、AI DJでは、3つの異なるニューラルネットワークを訓練しました。各モデルに使用したモデルとデータセットは、以下の通りです。
ジャンル推定 (wasabeat dance music dataset)
楽器推定(IRMAS dataset)
ドラムマシーン推定 (200.Drum.Machines dataset)
各モデルは[2]に似た畳み込みニューラルネットワークであり、音のスペクトログラム画像からジャンル(ミニマルテクノ/テックハウス/ヒップホップ etc)、楽器(ピアノ/トランペット etc)、ドラムマシン(TR-808/TR-909 etc)を推定します。
一度これを学習させてしまえば、同じモデルを使って高次元ベクトルの音楽の聴覚的な特徴を抽出することができます。
このベクトルは、あらかじめ準備されたレコードボックス(現在のところ350以上のトラックを保持)にあるすべてのトラックと比較され、AIは次の曲として、似たような音楽的トーン/ムード/テクスチャを持った特徴量が最も近いトラックをセレクトします。
選曲のセンスの向上も試行錯誤して行われています。当初は、DJプレイリストのデータセットを収集・分析し、協調フィルタのようにデータに応じて、最も可能性の高い曲の候補を選択するために使用していました。ところが、そのプロセスでは、意外性のない選曲に終わってしまうことに気づき、音楽に関連するメタデータ(ジャンル、アーティスト名、レーベルなど)ではなく、オーディオデータのみに焦点を当てるように改善しています。
AI DJの課題の一つは、人間のDJが演奏する音楽に合わせてターンテーブルのピッチ(スピード)を制御することです。強化学習(RL)を用いて、ダウンビートを合わせるために、ターンテーブルのスピードのアップ/ダウン、レコードを軽く押し出す/押さえるなどのやり方を試行錯誤しながらモデルに教えています。このシステムでは、[3]の様々な指標を用い、強化学習モデルの報酬を計算しています。
テンポを合わせるのは比較的簡単ですが、ビートの「フェーズ」を同時に合わせるのは非常に難しいことがわかりました。どのような操作を行っても、数小節後にしかテンポの変化を読みとることはできないため、時間のズレが生じてしまうからです。RLによるビート合わせの精度の向上は、引き続きおこなっていきます。
“ 優れたDJは、自分のかけている曲に対して、常にオーディエンスの反応を見ている。彼らが何を好むのか、自分のプレイがうまくいっているかどうかを含めちゃんと観察して、オーディンエンスとコミュニケーションを取っている。それにオーディエンスへの笑顔も欠かさないね。
ノーマン・クック aka ファットボーイ・スリム
そして、いまいちなDJは、いつもデッキを見下ろして、オーディエンスが楽しんでいるかどうかは気にせず、自分たちのベッドルームで練習したことをやっているだけなんだ。”
オーディエンスの反応を見て、フロアのエネルギーにあった曲をかけることは、DJには欠かせない重要な役割です。この課題に対し、2017年12月に行われたAI DJパフォーマンスでは、OpenPoseライブラリを使用し、オーディエンスの身体の動きを追跡するカメラシステムを導入しました。このシステムは、AIがかけている曲に対し、オーディエンスが楽しんでいるか(踊っているか)という点を数値化し、次の曲のセレクトに役立てています。
AIは選曲の際に、オーディエンスの身体の動きの量が、所定のしきい値よりも大きい場合には、上述のようにかけている曲と雰囲気の似た曲をセレクトしようとします。この動きの量がしきい値以下になると、身体の動きの量に反比例するランダムなノイズが音楽の特徴ベクトルに追加されます。これにより、AIはこれまでとは違う雰囲気の曲を選曲し、フロアのエネルギーを刺激し、オーディエンスのムードを高めようとします。想定外だったのは、このランダム性がオーディエンスに混乱をもたらし、フィードバックループとして機能してしまったという点です。DJの選曲プロセスにおける、規則性と意外性の微妙なバランスを保つことの難しさが浮き彫りとなりました。
Date | Title | Place |
2016/9/4 | 2045 Generation #4(京都岡崎音楽祭「OKAZAKI LOOPS」内) | 京都国立近代美術館 |
2016/10/27 | 2045 × LIFE PAINT Supported by VOLVO CAR JAPAN | 代官山UNIT |
2017/2/17 | DIGITAL CHOC — マシン・デジラント 欲望する機械 — | 渋谷WWW |
2017/9/14 | Festival Speculum Artium 2017 in Slovenia | Zavod za kulturo Delavski dom Trbovlje, Slovenia |
2017/9/21 | SCOPITONE FESTIVAL 2017 in France | STEREOLUX, Nantes, France |
2017/11/3 | MUTEK.JP | 日本科学未来館(Miraikan) |
2017/12/15 | sound tectonics #20(Guest DJ : tofubeats, Licaxxx) | 山口情報芸術センター[YCAM] |
2019/5/7 | Google I/O 2019 | Mountain View, California, USA |
2019/6/1 | Japan Media Arts Festival x MUTEK.JP | 日本科学未来館(Miraikan) |
Nao Tokui (Qosmo, Inc.)
Shoya Dozono (Qosmo, Inc.)
Robin Jungers (Qosmo, Inc.)
Yuma Kajihara (Qosmo, Inc.), Ryosuke Nakajima (Qosmo, Inc.), Makoto Amano (Qosmo, Inc.)
TASKO inc.
Miyu Hosoi (Qosmo, Inc.)
Mitsuhito Ando (YCAM)
YCAM InterLab