Qosmo Music & Sound AI

Img2Sound

イメージtoサウンド

FEATURES

特徴
  • 与えられた画像に「合っている」サウンドクリップをライブラリーの中から短時間で抽出

  • 短時間のインデクシングを実行すれば、モデルの再学習の必要なく、任意のサウンドライブラリーに検索を実行可能

  • 「画像→音楽」だけでなく、「音楽→画像」、「テキスト→音」、「ビデオ→音」など種類のメディアに拡張可能

  • 与えられた画像に「合っている」サウンドクリップをライブラリーの中から短時間で抽出

  • 短時間のインデクシングを実行すれば、モデルの再学習の必要なく、任意のサウンドライブラリーに検索を実行可能

  • 「画像→音楽」だけでなく、「音楽→画像」、「テキスト→音」、「ビデオ→音」など種類のメディアに拡張可能

USE CASE

使用事例
  • コンテンツに合わせた音楽選択

    大量にあるストック音源の中から製作中のコンテンツに適したものを探すのは大変な作業です。大量にあるストック音源の中から製作中のコンテンツに適したものを簡単に見つけることが出来るようになります。

  • 新しいリスニング体験

    その場の風景や雰囲気に合った音楽の選択や、過去に撮影された写真に合わせた音楽の生成などによって、これまでにはなかった音楽の楽しみ方を生み出すことができます。

IMPLEMENTA-
TION

IMPLEMENTATION

製品実装
  • 弊社運営のImaginary Soundscapeでは、ご自身の画像アップロードもしくはストリートビューから、Img2Soundによるサウンドマッチングを体験できます。

    本製品のデモサイト:Imaginary Soundscape (https://imaginarysoundscape.net/)

TECHNOLOGY

技術
  • 与えられた画像に対して最適なサウンドリップ(環境音)を選んでくるためにCNN型の深層学習を応用し、高い精度を得ることに成功しました。昨年より本システムの精度を更に高めると同時に、選択対象を環境音だけでなく楽曲にも拡張する研究を続けた結果、より幅広い種類の音に対してより正確にマッチングを行う事のできるアルゴリズムの完成が見えてきました。この技術の発展には昨年OpenAI社から発表されたCLIPモデルの応用が一要因に挙げられます。非常に幅広いデータを基に学習された本モデルを使うことで、幅広い種類の画像・音声をより深いコンテクストまで精度高く解釈することが可能になりました。

TECH SPEC

技術仕様
  • 価格体系

    ライセンス期間:月単位

    開発者用ライセンス:有

  • 入出力

    入力:画像、映像

    出力:音声(WAV)

  • 動作環境

    クラウド提供:標準API提供

    オンプレ環境:ご相談により可

  • 処理速度

    リアルタイム

製品に関するお問い合わせはCONTACTフォームよりお願いいたします。

CONTACT

ご依頼・ご相談などは、こちらからお問い合わせください

CONTACT