音声認識は、人が話した音声を文字として記録する技術です。 電話応対やオンライン会議などの自然な会話を正確に文字に起こすことで、音声を聞き直すことなく打ち合わせの内容を把握し、簡単に共有することができます。 100万時間を超えるビジネス音声対話データとデープラーニング技術により、高性能な日本語音声認識器の研究開発をしています。また、日本語だけでなく英語やインドネシア語などの他の言語への適用を実現します。
音声感情認識は、話手がどんな感情で話しているかを音声から推測する技術です。 どのような感情で話しているのか、どのような感情で話しているように聞こえているのかが明らかになることで、ビジネスシーンにおいて適切な応対だったのかどうか判断することができます。 発話の音声的特徴と発話された内容の言語的特徴の二つの特徴を考慮して、発話した人の感情の推定の精度向上させる研究を行っています。
音声合成は、コンピューターがテキストを自然な音声で読み上げる技術です。 留守番電話やIVRなどコンピューターによる自動応対を、機械的な音声ではなく自然な人に近い音声で実現することを目指しています。 ディープラーニングを使って、自然な声を生成できるだけでなく、様々なバリエーションの音声を生成できるような技術にも取り組んでいます。
声質変換は、声を別の性質を持った声にリアルタイムに変換する技術です。 応用例として、騒がしい場所でも声が良く通る人の声の再現があります。このような声は雑音化でも聞きやすい音声的特性を持っていて、その特徴をどんな人にも付加することも声質変換で実現できます。 機械学習を応用して、様々な声の特徴を加えて、聞き取りやすい声で発信する技術について研究開発しています。
音声区間検出・話者分離・話者識別・言語識別S/N比測定・留守電判定・保留音判定
音声データを解析するためには、いろいろな前処理技術が必要になります。主に、音声認識をするための前処理を中心的に研究開発しています。 音声データの中で人が話している部分だけを取り出す音声区間検出、複数の人が話しているとき一人ひとりの音声に分離する話者分離、どのような言語で話をしているのかを識別する言語識別、留守番電話や保留音の判定などです。
情報抽出や対話要約を通じてコミュニケーションの内容を理解しやすくする、発話表現からコミュニケーションスキルのレベルを測定するなど、話し言葉や対話に関する研究に取り組んでいます。
対話要約は、対話を人が理解しやすいように自動的に要約する技術です。 従来の自動要約は、主に文書を対象としています。一方、我々は音声認識による対話の書き起こしを対象とした自動要約について研究開発を行なっています。大きな違いは、音声認識による間違い、言い淀みやフィラー、複数話者による受け答えや質問応答、話し言葉や非文法的な表現などを多く含みます。このようなテキストを理解しやすい文書として生成ことを目的としています。
固有表現抽出は、発話に含まれる固有表現(人名、企業名、住所、電話番号など)を見つけ出す技術です。 ビジネスシーンにおける応対には、情報セキュリティ上、秘匿にすべき内容を含む場合も多くあります。そのために、容易に応対を記録できない場面も存在します。このような条件を満たすために、音声認識による書き起こし結果から秘匿すべき情報を検知して、自動的にマスキングをする技術を研究開発しています。
相手に伝わるような対話や発話をしてるのか、礼儀正しい表現を使えているのかなど、応対の質について知ることはコミュニケーションのスキルを向上させる上で重要なことです。応答の質を計測するために、よく使うキーワードや表現を可視化したり、敬語や文法の誤りを検出する機能を研究開発しています。
自動電話応対AI(AI IVR)は、音声認識、音声合成、対話エンジンを組み合わせて、人と自然な会話で電話応対できるAI技術です。 代表電話やコールセンターの一次受けなどでの利用を想定し、オペレーターにつなぐ前に人と自然に会話することができるAIについて研究しています。
Speech2Faceは、音声からその声にあった人の顔画像を生成する技術です。 電話応対やオンライン会議でもプライバシーを配慮しなければならない場合もあります。この技術を使うことで、声は本人であるが顔画像はこの世に存在しない別人やアニメキャラクター的なアバターを生成し会議に参加させることができます。
人工知能学会 第101回言語・音声理解と対話処理研究会(SLUD)
髙瀬悠太, 春日宥一郎, 大野正樹, 橋本泰一(RevComm)
本研究ではオンライン会議動画に対して、動画像と音声を用いた話者分離を行う。音声のみの話者分離では、ノイズやオーバーラップが多いオンライン会議動画における話者交代検出の精度の低さが課題である。オンライン会議動画では発話に応じて画面上の話者の映像も切り替わるため、発話区間に対応した話者の顔画像を活用することが可能である。本論文では、発話区間に対して顔検出を一秒ごとに行い、フレーム間の顔画像の類似度に着目し、話者交代検出の改良を試みた。オンライン会議動画199本からなるデータセットに対して評価を行い、平均Diarization Error Rateを29.1%から19.6%に改善することができた。
詳しくみるICASSP2024
Jennifer Santoso, Kenkichi Ishizuka, Taiichi Hashimoto(RevComm)
The remarkable emergence of large language models (LLM) and their vast capabilities have opened a possibility for applications in various fields, including speech emotion recognition (SER). Despite the advancement of SER methods and the abundance of speech data, the requirement of having speech data labeled with emotions is a challenge to fulfill, considering the cost of human annotation. In this study, we propose utilizing LLM to annotate emotional speeches, investigating the use of conversation sequence transcription, and incorporating the textual acoustic feature descriptors into the prompt. Furthermore, we also examine the application of annotation results on emotional speeches as training and augmentation data. Our experiment using the IEMOCAP dataset shows that emotional speech annotation using LLMs can outperform human annotation with possibly lower annotation costs. The SER trained using the annotation result as a whole training data or augmentation data reaches a performance close to state-of-the-art SER methods.
詳しくみるNCSP'24
Natsumi Kobayashi, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm)
NCSP'24
Yurina Machida, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm)
日本音響学会2024年春季研究発表会 2024
小林夏美, 山田武志(筑波大学), 石塚賢吉, 橋本泰一(RevComm
音声感情認識(Speech Emotion Recognition: SER)は、音声から喜びや悲しみなどの感情を認識する技術で、応答生成や心理カウンセリングなど幅広い応用が期待されています。しかし、感情音声データの不足が課題となっており、自然な感情発話の収録やラベル付けは高コストです。これに対し、データ拡張が低コストで有効な手法として注目されています。本研究では、従来の音響特徴量だけでなく、発話内容テキストのバリエーションを増やすため、変分オートエンコーダ(VAE)を用いた音響およびテキスト特徴量のデータ拡張手法を提案しました。IEMOCAPデータセットを用いた実験で、その有効性を検証しました。
日本音響学会 2024年春季研究発表会
町田裕璃奈(筑波大) , 山田武志(筑波大) , 石塚賢吉(RevComm) , 橋本泰一(RevComm)
音声感情認識は、音声に含まれる感情を推定する技術で、近年は音響特徴だけでなく発話内容のテキストを活用する手法が注目されています。しかし、マイナー言語では感情ラベル付き音声データや書き起こしテキストが不足しているため、リソースが豊富なメジャー言語のモデルをマイナー言語へドメイン適応する方法が提案されています。この適応では言語の差異が課題であり、テキスト埋め込み空間の共通化が必要です。本研究では、機械翻訳や多言語BERTを用いて埋め込み空間を統一する手法を提案し、7言語の感情音声コーパスを用いた実験でその有効性を検証しました。
人工知能学会 第100回言語・音声理解と対話処理研究会(SLUD)
袁 培傑, 大野 正樹, 橋本 泰一(RevComm)
Large language models (LLMs), such as ChatGPT, have risen to prominence in text summarization tasks, primarily due to the advent of in-context learning. This paper delves into how in-context learning steers the outputs of LLMs based on different data demonstration configurations. Our pivotal findings reveal that ChatGPT's adaptability to target summarization tasks is enhanced when provided with paired text and summaries compared to when provided in isolation. Furthermore, the structured presentation of these pairs proves more influential than their precise content alignment. However, there are observable limitations: increasing the number of demonstrations yields diminishing returns, and the improvement of adaptability declines when tasked with more intricate news texts as opposed to simpler dialogues. This study comprehensively explains in-context learning's nuances in text summarization, highlighting its merits and demerits for future researchers.
詳しくみる