画像処理AI技術を用いて動画から特定の音だけを除去

(2025年2月01日)

　動画を撮影したとき、再生してみると予期しない物音などが入っていてがっかりすることがあります。こんなとき、不要な音だけ消すことができたら便利ですね。このたび、この夢をかなえてくれる技術が開発されました。動画の背景の混合音から特定の音だけを除去する技術です。

　開発したのは、神奈川工科大学ヒューマンメディア研究センター/情報工学科の宮崎剛教授らの研究グループで、画像を処理する深層学習の技術を使って余計な音を取り除くことに成功しました。

　どのようにして特定の音だけを除去するのでしょうか。音声を数学的に分解すると、スペクトログラムという画像データが得られます。この画像には音声とは別の音、例えばドアチャイムの音などが入ると、その音も可視化されスペクトログラムに現れます。

　この音声の画像をAIの深層学習で学習させて、チャイムに相当する画像の部分だけを除去したスペクトログラムを作成し、再び音声の波形データに戻すというやり方です。

　深層学習では、ノイズが入っている元の画像を入力して、ノイズのないきれいなデータを出力するように学習させます。最初はうまくいきませんでしたが、何回も学習させたところ、きれいなデータを出力するようになったといいます。

　評価実験の結果、ペット・赤ちゃん・インターホンの音などを除去することができたそうです。ただ、今のところ処理をした後の音声は音質が少し劣化しているので、今後は音質を向上させることに取り組みたいとしています。

　ユーチューバーや動画でプレゼンテーションをする人にとっては、予期しない突発的な音を編集段階で取り除けるようになれば、編集時間を大幅に短縮することができますので、とても便利だといえるでしょう。この技術は波形情報であれば、音声以外にも応用できるので、いろんな分野で使えるのではないかと研究者は考えています。

　しかし音声データを一度画像データに変換し、ノイズの部分だけ削除してから、音声の波形データに戻すとは、独創的な発想ですね。

*掲載内容を一部変更しました。

【参考】

■神奈川工科大学プレスリリース
画像処理AI技術を用いた混合音からの特定音除去

サイエンスライター・白鳥敬(しらとりけい)
1953年生まれ。科学技術分野のライター。月刊「子供の科学」等に毎号執筆。
科学者と文系の普通の人たちをつなぐ仕事をしたいと考えています。