株式会社RevComm(レブコム、本社:東京都渋谷区、代表取締役:會田武史)は、京都大学 情報学研究科 音声メディア研究室と、2021年1月より対話音声の音声認識と言語処理技術における共同研究を開始しています。このたびその成果の一つとして、End-to-End音声認識における句読点挿入に関する論文が、音声処理系トップカンファレンス「INTERSPEECH 2022」にて採択されました。
■INTERSPEECHとは
INTERSPEECHは、International Speech Communication Association (ISCA) が主催する音声言語処理分野で最も大規模かつ重要な国際会議です。この会議には、自然科学・人文科学の別け隔てなく、世界各国の音声言語処理の研究者が参加し、人間及び機械における音声言語の処理に関する基礎から応用まで包括する学際的な研究発表と討議が行われます。そして、この会議で発表された最新の研究成果を通じて、広く社会の発展や向上に寄与することを目的としています。採択された論文は9月18〜22日に韓国仁川で開催される「INTERSPEECH 2022」にて発表を行います。
■論文内容
京都大学との共同研究の成果として、京都大学の河原達也教授、大学院生の野崎樹文及び、レブコム リサーチディレクターの橋本泰一、シニアリサーチエンジニアの石塚賢吉が、End-to-End音声認識における句読点挿入に関する論文「End-to-end Speech-to-Punctuated-Text Recognition 」を「INTERSPEECH 2022」に投稿し、採択されました。
音声認識システムの出力するテキストには句読点が含まれないため、音声認識処理の後段でテキスト情報から句読点を予測するモデルを用いて句読点を挿入するのが一般的でした。本論文では、音声を入力として句読点の付いたテキストをEnd-to-Endで認識するモデルを提案しています。これにより音響情報を使用しながら、音声認識誤りに対して頑健に句読点を予測することを目指します。
今後は、本研究で提案したモデルを弊社製品に組み込み、句読点の予測精度をさらに高め、自動文字起こし機能により生成されるテキストの可読性を向上させたいと考えております。
レブコムはAI技術領域にイノベーションをもたらし、コミュニケーションをより豊かにしていくことを目指しています。そのために、今後も音声・言語・画像の領域に関わる研究開発を推進し、国内外への学術的貢献や製品・サービスのAI技術の深化を積極的に行います。
このたび採択された論文
End-to-end Speech-to-Punctuated-Text Recognition
Jumon Nozaki ¹, Tatsuya Kawahara ¹ ,
Kenkichi Ishizuka ² , Taiichi Hashimoto ²
¹ Graduate School of Informatics, Kyoto University,
² Japan RevComm, Inc., Japan
■会社概要
「コミュニケーションを再発明し、人が人を想う社会を創る」という理念のもと、音声技術とAIにより、コミュニケーション課題を解決する企業です。
音声解析AI電話「MiiTel」は、インサイドセールス市場を中心に、営業やコールセンター業務におけるトークの可視化とセルフコーチング、リモートワーク体制構築にご活用いただいています。また、オンライン商談ツール「MiiTel for Zoom」は、複数人でのオンライン商談の解析や振り返りが可能となり、営業の成約率を飛躍させます。
これまで、Google for Startups Acceleratorの採択をはじめ、B-Dash CampやTechCrunchによる様々な大会で優勝、入賞しているほか、Forbes JAPAN「日本の起業家ランキング 2021」、週刊東洋経済「すごいベンチャー100」にも選出されています。
・企業名 :株式会社RevComm
・所在地 : 150-0002東京都渋谷区渋谷1-3-9 ヒューリック渋谷一丁目ビル7階
・代表者 : 會田 武史
・事業内容 :AI × 音声のソフトウェア・データベースの開発
・企業サイト:https://www.revcomm.co.jp/
本文中に記載されている会社名、製品名は、当社の登録商標または商標です。