ロボット聴覚・音環境理解

ロボット聴覚研究は,人工知能,信号処理,ロボティクスをまたがる新たな研究分野として 2000 年に提唱された比較的新しい研究分野です. 「ロボット聴覚」では,大きなテーマとして,人が普段聞いているような音環境を,如何にロボットに理解できるようにするかという問題を扱っています。特に,ロボットでは,雑音,反響が動的に変化し,時には目的信号よりも大きくなるような劣悪な実環境でのロバスト性を実時間で扱う必要があります

 

こうした問題に対し,ロボットならではの動作を積極的に利用するアクティブオーディションを鍵として,音源の位置推定(音源定位),目的音源の抽出(音源分離),抽出音源の認識(音声認識)といった要素技術を扱っています。これまで培ってきた技術は、ロボット聴覚のオープンソースソフトウェアHARK (Honda Research Institute Japan Audition for Robots with Kyoto University) として一般公開を行っています。

 

HARKを用いれば,例えば,聖徳太子のように複数の人が同時に話してもそれぞれの人の声を聞き分ける技術が構築できます.このような技術は,人間が普段聞いている音は様々な音が混ざり合った混合音であることを考えると,実環境を扱う上で本質的な技術であるといえます。また、近年では、これらに加えて,可聴音による距離推定や,深層学習によりダメージを受けた音響信号を修復する技術,深層学習による音響信号の識別といった研究にも力を入れています。

主要論文

Back to Top