• 一覧にもどる

    音声信号処理

    音声認識、音声合成、音声感情認識など、音声信号にこめられている様々な情報を可視化し、音声コミュニケーションを発展させる研究に取り組んでいます。

    • 音声認識

      音声認識は、人が話した音声を文字として記録する技術です。 電話応対やオンライン会議などの自然な会話を正確に文字に起こすことで、音声を聞き直すことなく打ち合わせの内容を把握し、簡単に共有することができます。 100万時間を超えるビジネス音声対話データとデープラーニング技術により、高性能な日本語音声認識器の研究開発をしています。また、日本語だけでなく英語やインドネシア語などの他の言語への適用を実現します。

    • 音声感情認識

      音声感情認識は、話手がどんな感情で話しているかを音声から推測する技術です。 どのような感情で話しているのか、どのような感情で話しているように聞こえているのかが明らかになることで、ビジネスシーンにおいて適切な応対だったのかどうか判断することができます。 発話の音声的特徴と発話された内容の言語的特徴の二つの特徴を考慮して、発話した人の感情の推定の精度向上させる研究を行っています。

    • 音声合成

      音声合成は、コンピューターがテキストを自然な音声で読み上げる技術です。 留守番電話やIVRなどコンピューターによる自動応対を、機械的な音声ではなく自然な人に近い音声で実現することを目指しています。 ディープラーニングを使って、自然な声を生成できるだけでなく、様々なバリエーションの音声を生成できるような技術にも取り組んでいます。

    • 声質変換

      声質変換は、声を別の性質を持った声にリアルタイムに変換する技術です。 応用例として、騒がしい場所でも声が良く通る人の声の再現があります。このような声は雑音化でも聞きやすい音声的特性を持っていて、その特徴をどんな人にも付加することも声質変換で実現できます。 機械学習を応用して、様々な声の特徴を加えて、聞き取りやすい声で発信する技術について研究開発しています。

    • 音声信号前処理

      音声区間検出・話者分離・話者識別・言語識別S/N比測定・留守電判定・保留音判定

      音声データを解析するためには、いろいろな前処理技術が必要になります。主に、音声認識をするための前処理を中心的に研究開発しています。 音声データの中で人が話している部分だけを取り出す音声区間検出、複数の人が話しているとき一人ひとりの音声に分離する話者分離、どのような言語で話をしているのかを識別する言語識別、留守番電話や保留音の判定などです。

  • 一覧にもどる

    自然言語処理

    情報抽出や対話要約を通じてコミュニケーションの内容を理解しやすくする、発話表現からコミュニケーションスキルのレベルを測定するなど、話し言葉や対話に関する研究に取り組んでいます。

    • 対話要約

      対話要約は、対話を人が理解しやすいように自動的に要約する技術です。 従来の自動要約は、主に文書を対象としています。一方、我々は音声認識による対話の書き起こしを対象とした自動要約について研究開発を行なっています。大きな違いは、音声認識による間違い、言い淀みやフィラー、複数話者による受け答えや質問応答、話し言葉や非文法的な表現などを多く含みます。このようなテキストを理解しやすい文書として生成ことを目的としています。

    • 固有表現抽出

      固有表現抽出は、発話に含まれる固有表現(人名、企業名、住所、電話番号など)を見つけ出す技術です。 ビジネスシーンにおける応対には、情報セキュリティ上、秘匿にすべき内容を含む場合も多くあります。そのために、容易に応対を記録できない場面も存在します。このような条件を満たすために、音声認識による書き起こし結果から秘匿すべき情報を検知して、自動的にマスキングをする技術を研究開発しています。

    • キーワードクラウド・対話可視化

      相手に伝わるような対話や発話をしてるのか、礼儀正しい表現を使えているのかなど、応対の質について知ることはコミュニケーションのスキルを向上させる上で重要なことです。応答の質を計測するために、よく使うキーワードや表現を可視化したり、敬語や文法の誤りを検出する機能を研究開発しています。

  • 一覧にもどる

    複合領域

    音声、言語、動画像を組み合わせた複数の情報をもとにAI技術を発展させる研究に取り組んでいます。

    • 自動電話応対AI

      自動電話応対AI(AI IVR)は、音声認識、音声合成、対話エンジンを組み合わせて、人と自然な会話で電話応対できるAI技術です。 代表電話やコールセンターの一次受けなどでの利用を想定し、オペレーターにつなぐ前に人と自然に会話することができるAIについて研究しています。

    • Speech2Face

      Speech2Faceは、音声からその声にあった人の顔画像を生成する技術です。 電話応対やオンライン会議でもプライバシーを配慮しなければならない場合もあります。この技術を使うことで、声は本人であるが顔画像はこの世に存在しない別人やアニメキャラクター的なアバターを生成し会議に参加させることができます。

  • 一覧にもどる

    産学連携共同研究

    国内外に問わず大学の研究室と連携し、学術的研究成果を産業として花開かせる取り組みに貢献することを目指しています。

    • 筑波大学

      筑波大学 システム情報工学研究群 情報理工学位プログラム 山田武志 准教授

    • 京都大学

      京都大学 大学院情報学研究科 知能情報学専攻 河原達也 教授

    • 九州工業大学

      九州工業大学 情報工学部 知能情報工学科 嶋田和孝 教授

    • オンライン会議動画に対する顔の類似度の時間変化を用いた話者分離手法

      人工知能学会 第101回言語・音声理解と対話処理研究会(SLUD)

      髙瀬悠太, 春日宥一郎, 大野正樹, 橋本泰一(RevComm)

      本研究ではオンライン会議動画に対して、動画像と音声を用いた話者分離を行う。音声のみの話者分離では、ノイズやオーバーラップが多いオンライン会議動画における話者交代検出の精度の低さが課題である。オンライン会議動画では発話に応じて画面上の話者の映像も切り替わるため、発話区間に対応した話者の顔画像を活用することが可能である。本論文では、発話区間に対して顔検出を一秒ごとに行い、フレーム間の顔画像の類似度に着目し、話者交代検出の改良を試みた。オンライン会議動画199本からなるデータセットに対して評価を行い、平均Diarization Error Rateを29.1%から19.6%に改善することができた。

      詳しくみる
    • Large Language Model-Based Emotional Speech Annotation Using Context and Acoustic Feature for Speech Emotion Recognition

      ICASSP2024

      Jennifer Santoso, Kenkichi Ishizuka, Taiichi Hashimoto(RevComm)

      The remarkable emergence of large language models (LLM) and their vast capabilities have opened a possibility for applications in various fields, including speech emotion recognition (SER). Despite the advancement of SER methods and the abundance of speech data, the requirement of having speech data labeled with emotions is a challenge to fulfill, considering the cost of human annotation. In this study, we propose utilizing LLM to annotate emotional speeches, investigating the use of conversation sequence transcription, and incorporating the textual acoustic feature descriptors into the prompt. Furthermore, we also examine the application of annotation results on emotional speeches as training and augmentation data. Our experiment using the IEMOCAP dataset shows that emotional speech annotation using LLMs can outperform human annotation with possibly lower annotation costs. The SER trained using the annotation result as a whole training data or augmentation data reaches a performance close to state-of-the-art SER methods.

      詳しくみる
    • Data augmentation of acoustic and text features in latent space for speech emotion recognition

      NCSP'24

      Natsumi Kobayashi, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm)

    • Cross-language adaptation of speech emotion recognition with acoustic and text features

      NCSP'24

      Yurina Machida, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm)

    • 音声感情認識のための音響特徴とテキスト特徴のデータ拡張に関する検討

      日本音響学会2024年春季研究発表会 2024

      小林夏美, 山田武志(筑波大学), 石塚賢吉, 橋本泰一(RevComm

      音声感情認識(Speech Emotion Recognition: SER)は、音声から喜びや悲しみなどの感情を認識する技術で、応答生成や心理カウンセリングなど幅広い応用が期待されています。しかし、感情音声データの不足が課題となっており、自然な感情発話の収録やラベル付けは高コストです。これに対し、データ拡張が低コストで有効な手法として注目されています。本研究では、従来の音響特徴量だけでなく、発話内容テキストのバリエーションを増やすため、変分オートエンコーダ(VAE)を用いた音響およびテキスト特徴量のデータ拡張手法を提案しました。IEMOCAPデータセットを用いた実験で、その有効性を検証しました。

    • テキスト特徴を用いた音声感情認識の多言語化に関する検討

      日本音響学会 2024年春季研究発表会

      町田裕璃奈(筑波大) , 山田武志(筑波大) , 石塚賢吉(RevComm) , 橋本泰一(RevComm)

      音声感情認識は、音声に含まれる感情を推定する技術で、近年は音響特徴だけでなく発話内容のテキストを活用する手法が注目されています。しかし、マイナー言語では感情ラベル付き音声データや書き起こしテキストが不足しているため、リソースが豊富なメジャー言語のモデルをマイナー言語へドメイン適応する方法が提案されています。この適応では言語の差異が課題であり、テキスト埋め込み空間の共通化が必要です。本研究では、機械翻訳や多言語BERTを用いて埋め込み空間を統一する手法を提案し、7言語の感情音声コーパスを用いた実験でその有効性を検証しました。

    • ChatGPT Summarization: A Deep Dive into In-Context Learning Efficacy

      人工知能学会 第100回言語・音声理解と対話処理研究会(SLUD)

      袁 培傑, 大野 正樹, 橋本 泰一(RevComm)

      Large language models (LLMs), such as ChatGPT, have risen to prominence in text summarization tasks, primarily due to the advent of in-context learning. This paper delves into how in-context learning steers the outputs of LLMs based on different data demonstration configurations. Our pivotal findings reveal that ChatGPT's adaptability to target summarization tasks is enhanced when provided with paired text and summaries compared to when provided in isolation. Furthermore, the structured presentation of these pairs proves more influential than their precise content alignment. However, there are observable limitations: increasing the number of demonstrations yields diminishing returns, and the improvement of adaptability declines when tasked with more intricate news texts as opposed to simpler dialogues. This study comprehensively explains in-context learning's nuances in text summarization, highlighting its merits and demerits for future researchers.

      詳しくみる
    • Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models

      INTERSPEECH2023

      Shuhei Kato, Taiichi Hashimoto

      Speech-to-face conversion is the task of generating face images from speech signals. Many studies have been conducted to address this task, and achieved good performances. In this paper, we introduce denoising diffusion probabilistic models (DDPMs) to generate face images instead of generative adversarial networks (GANs) or autoencoders, which are used in most of the prior studies. Moreover, unlike prior studies, several components of our system are designed to use high-resolution face image datasets instead of audio-visual paired data. As a result, our system can generate high-resolution face images from speech signals with an architecture that is simpler and more flexible than the ones used in prior studies. In addition, introducing DDPMs enables us to utilize techniques that control out- puts of DDPMs or improve performance of them in succeeding studies.

      詳しくみる
    • 拡散確率モデルを用いた音声から顔画像への変換における改良・簡素化とその評価

      日本音響学会2023年春季研究発表会 2023

      加藤 集平,橋本 泰一(RevComm

      音声は年齢や性別などの情報を伝えていることが知られている。さらに言えば,人間は音声からその話し手の顔をある程度想像することができるが,2019年頃から機械学習の技術を用いて同様のタスク (speech-to-face conversion) を行わせようという試みがなされている。これらの試みの多くは敵対的生成ネットワーク (generative adversarial network; GAN) を用いて顔画像を生成しているが,本稿ではGANに代えて拡散確率モデル (diffusion probabilistic model; DPM) を導入し,顔画像を生成する。拡散確率モデルは潜在変数モデルの一つで,ガウシアンノイズからノイズを有限回数だけ繰り返し除去することにより目的の分布に合致したサンプルを得るモデルであり,画像生成の分野で近年state-of-the-art の性能を達成している。さらに,条件付けモデルを訓練するための簡素で柔軟な手法も存 在する。本稿では,Ohらの手法をベースに拡散確率モデルを導入し,さらにそれを簡素化したシステムとあわせて性能を評価する。

    • Speech Emotion Recognition Based on the Reconstruction of Acoustic and Text Features in Latent Space

      APSIPA ASC 2022

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Univ. of Tsukuba)

      Speech emotion recognition (SER) has been actively studied in the recent decade and has achieved promising results. Most state-of-the-art SER methods are based on a classification approach that ultimately outputs the softmax probability over different emotion classes. On the other hand, we have recently introduced an anomalous sound detection approach to improve the SER performance of the neutral class. It uses a neutral speech detector consisting of an autoencoder that reconstructs acoustic and text features in latent space and is trained using only neutral speech data. The experimental result confirmed that the reconstruction error could be successfully used as a cue to decide whether or not the class is neutral and suggested that it could be applied to other emotion classes. In this paper, we propose an SER method based on the reconstruction of acoustic and text features in latent space, in which the reconstructor for different emotion classes, including the neutral class, is used. The proposed method selects the emotion class with the lowest normalized reconstruction error as the SER result. Unlike the classifier approach, one reconstructor is dedicated to each emotion class and trained using only the data of the target emotion class. Therefore, the reconstructor can be trained without being affected by imbalanced training data and also facilitates the application of data augmentation to only a specific emotion class. Our experimental result obtained using the IEMOCAP dataset showed that the proposed method improved the class-average weighted accuracy by 1.7% to 77.8% compared with the stateof-the-art SER methods.

    • Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features

      IEEE Access(Vol.10)

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Univ. of Tsukuba)

      Speech emotion recognition (SER) is essential for understanding a speaker’s intention. Recently, some groups have attempted to improve SER performance using a bidirectional long short-term memory (BLSTM) to extract features from speech sequences and a self-attention mechanism to focus on the important parts of the speech sequences. SER also benefits from combining the information in speech with text, which can be accomplished automatically using an automatic speech recognizer (ASR), further improving its performance. However, ASR performance deteriorates in the presence of emotion in speech. Although there is a method to improve ASR performance in the presence of emotional speech, it requires the fine-tuning of ASR, which has a high computational cost and leads to the loss of cues important for determining the presence of emotion in speech segments, which can be helpful in SER. To solve these problems, we propose a BLSTM-and-self-attention-based SER method using self-attention weight correction (SAWC) with confidence measures. This method is applied to acoustic and text feature extractors in SER to adjust the importance weights of speech segments and words with a high possibility of ASR error. Our proposed SAWC reduces the importance of words with speech recognition error in the text feature while emphasizing the importance of speech segments containing these words in acoustic features. Our experimental results on the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset reveal that our proposed method achieves a weighted average accuracy of 76.6%, outperforming other state-of-the-art methods. Furthermore, we investigated the behavior of our proposed SAWC in each of the feature extractors.

      詳しくみる
    • Performance Improvement of Speech Emotion Recognition by Neutral Speech Detection Using Autoencoder and Intermediate Representation

      INTERSPEECH 2022

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Univ. of Tsukuba)

      In recent years, classification-based speech emotion recognition (SER) methods have achieved high overall performance. However, these methods tend to have lower performance for neutral speeches, which account for a large proportion in most practical situations. To solve the problem and improve the SER performance, we propose a neutral speech detector (NSD) based on the anomaly detection approach, which uses an autoencoder, the intermediate layer output of a pretrained SER classifier and only neutral data for training. The intermediate layer output of a pretrained SER classifier enables the reconstruction of both acoustic and text features, which are optimized for SER tasks. We then propose the combination of the SER classifier and the NSD used as a screening mechanism for correcting the class probability of the incorrectly recognized neutral speeches. Results of our experiment using the IEMOCAP dataset indicate that the NSD can reconstruct both the acoustic and textual features, achieving a satisfactory performance for use as a reliable screening method. Furthermore, we evaluated the performance of our proposed screening mechanism, and our experiments show significant improvement of 12.9% in the F-score of the neutral class to 80.3%, and 8.4% in the class-average weighted accuracy to 84.5% compared with state-of-the-art SER classifiers.

      詳しくみる
    • End-to-end Speech-to-Punctuated-Text Recognition

      INTERSPEECH 2022

      Jumon Nozaki, Tatsuya Kawahara(Kyoto Univ.), Kenkichi Ishizuka, Taiichi Hashimoto(Revcomm)

      Conventional automatic speech recognition systems do not produce punctuation marks which are important for the readability of the speech recognition results. They are also needed for subsequent natural language processing tasks such as machine translation. There have been a lot of works on punctuation prediction models that insert punctuation marks into speech recognition results as post-processing. However, these studies do not utilize acoustic information for punctuation prediction and are directly affected by speech recognition errors. In this study, we propose an end-to-end model that takes speech as input and outputs punctuated texts. This model is expected to predict punctuation robustly against speech recognition errors while using acoustic information. We also propose to incorporate an auxiliary loss to train the model using the output of the intermediate layer and unpunctuated texts. Through experiments, we compare the performance of the proposed model to that of a cascaded system. The proposed model achieves higher punctuation prediction accuracy than the cascaded system without sacrificing the speech recognition error rate. It is also demonstrated that the multi-task learning using the intermediate output against the unpunctuated text is effective. Moreover, the proposed model has only about 1/7th of the parameters compared to the cascaded system.

      詳しくみる
    • Selective Multi-Task Learning For Speech Emotion Recognition Using Corpora Of Different Styles

      ICASSP2022

      Heran Zhang, Masato Mimura, Tatsuya Kawahara(Kyoto Univ.), Kenkichi Ishizuka(RevComm)

      In this paper, we investigate a speech emotion recognition based on multi-task learning (MTL) considering the style attribute. We also hypothesize the neutral expression, which has the largest number of samples, is not affected by the style, and thus propose a selective MTL method that applies MTL to emotion categories except for the neutral category. Experimental evaluations using the IEMOCAP database and a call center dataset confirm the effect of the combination of the two corpora, MTL, and the proposed selective MTL.

      詳しくみる
    • Neutral/Emotional Speech Classification using Autoencoder and Output of Intermediate Layer in Emotion Recognizer

      日本音響学会 2022年春季研究発表会

      Santoso Jennifer、Yamada Takeshi(Univ. of Tsukuba)、Ishizuka Kenkichi、Hashimoto Taiichi(RevComm)、Makino Shoji(Waseda Univ./Univ. of Tsukuba).

      In recent years, there have been several deep-learning-based methods to im- prove the performance of speech emotion recognition (SER). However, in most of these studies, the recognition of neutral speeches, which is the most common type of speech in practical settings, tend to have poor performance. One of the reasons is the wide data distribution for neutral speeches, which is harder to generalize than emotional speeches.
      In several practical settings, such as business conversation analysis, most conversations do not contain emotions. Emotional speeches, therefore, are considered an unusual occurrence and might be an indicator of trouble or unanticipated events in the conversation. Therefore, by taking advantage of a large number of neutral speeches available, it is possible to tackle problems in the SER from the anomaly detection approach, where neutral speeches are considered normal and emotional speeches are considered anomalous.

      詳しくみる