> >

rinna、GPT活用の日本語音声認識モデル「Nue ASR」を公開--商用利用可能

飯塚　直2023年12月07日 17時02分

　rinnaは12月7日、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発したと発表した。同モデルは、商用利用可能なライセンスとして公開されている。

　同社によると、AI技術の進歩により、従来では困難であった処理もAIで実現可能となりつつあるという。

　こうした飛躍的な進展は、大量のデータから事前学習された基盤モデルを活用することで達成。特に、テキストを処理するための基盤モデルである大規模言語モデルGPTは、自然言語による人間とコンピュータのインターフェースを実現し多くのサービスで利用されるようになっている。

　テキストだけでなく、画像や音声の処理においても、タスクに適した基盤モデルを活用することで、高い性能が達成できることが報告されているという。

　同社は、日本語の処理に適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する事前学習済み基盤モデルの公開により、日本語のAI開発を支えている。

　2021年4月から公開してきたrinnaモデルのダウンロード数は累計440万を超え、多くの研究・開発者が利用しているという。

　最近では、事前学習された基盤モデルを組み合わせ、さまざまなタスクをこなすAIが開発されている。

　そこで今回、これまでに開発・公開してきた日本語に特化したテキスト基盤モデルGPTと、音声基盤モデルHuBERTを統合した音声認識モデル「Nue ASR」を開発。Hugging Faceに、商用利用可能なApache-2.0 Licenseで公開した。

　日本語音声認識モデル「Nue ASR」は、テキスト基盤モデルGPTと、事前学習済みの音声基盤モデルHuBERTの間に畳み込み層を挟んで統合したモデル。モデル名の由来は、妖怪の「鵺（ぬえ）」。

　事前学習済みの基盤モデルを活用することで、音声認識モデルの学習コストを軽減できるという。また、音声認識モデルの学習データには、約19,000時間からなる日本語音声コーパスReazonSpeechコーパスを用いている。

　なお、テキスト生成の分野でデファクトスタンダードとなっているGPT構造を用いており、活発に開発されている最先端の手法を容易に導入可能だという。

　例えば、GPTの高速推論手法であるDeepSpeedを導入することで、リアルタイムファクタ（認識時間/音声の長さ）は、0.22から0.15に短縮した。CSJの学習セットを用いたドメイン適応のためのファインチューニングにより、CSJ Eval1テストセットの文字誤り率は30.93％から5.43％に改善している。

　認識率や処理速度は、利用条件によってはOpenAI WhisperシリーズやReazonSpeechモデルに匹敵する性能を達成。デファクトスタンダードであるGPTを利用したNue ASRは、より高性能な事前学習済みGPTへの置き換えや、日々開発されるGPTのための手法を導入するなど、改良のための選択肢が多くあり、今後の性能改善も期待できるという。

　同社は、人間とAIのコミュニケーションのために大規模言語モデルを用いたテキスト生成や音声合成の研究・開発・提供を実施。今回の音声認識モデルの開発により、音声対話に必要となる音声認識・テキスト生成・音声合成の実験を一通り遂行できたと考えているという。

　これまでの実験で得られた多くの知見を生かし、大規模言語モデルの次の活用方法である音声対話の研究・開発・提供を進め、AIの社会実装を行っていくとしている。

プレスリリース

CNET Japanの記事を毎朝メールでまとめ読み（無料）

NEC、日本テレビとAI音声認識技術を活用した自動字幕実証を実施--認識精度は99％ 2023年06月21日 12時37分
「Spot」風の4足歩行犬型ロボット「XGO 2」--「Raspberry Pi」搭載で画像認識や音声認識 2023年02月01日 16時53分
障害者の発話に対応する音声認識技術を目指すプロジェクト--MSなどIT大手が支援 2022年10月04日 11時40分
稼げるセキュリティ資格--必ず押さえておきたい「代表的な3つの資格」 2023年10月16日 06時00分
「Raspberry Pi 5」を使ってみた--気になるパフォーマンスや発熱をチェック 2023年12月02日 08時00分

タグ
企業・業界

-PR-企画広告

CES2024で示した未来
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
データ統合のススメ
OMO戦略や小売DXの実現へ
顧客満足度を高めるデータ活用5つの打ち手
ビジネスの推進には必須！
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
楽天が描く持続可能なEC市場の成長
ユーザー利便性向上と物流課題の解決へ
楽天市場ができる貢献のあり方

デジタル製品主要記事

編集部おすすめの記事

本日の主要記事

CNET Japan（Facebook窓）

The Japanese edition of 'CNET' is published under license from A Red Ventures Company., Fort Mill, SC, USA. Editorial items appearing in 'CNET Japan' that were originally published in the US Edition of 'CNET', 'ZDNET' and 'CNET News.com' are the copyright properties of A Red Ventures Company. or its suppliers. Copyright (c) A Red Ventures Company. All Rights Reserved. 'CNET', 'ZDNET' and 'CNET News.com' are trademarks of A Red Ventures Company.

個人情報保護方針｜利用規約｜運営会社｜クッキーについて｜広告について

rinna、GPT活用の日本語音声認識モデル「Nue ASR」を公開--商用利用可能

あなたにおすすめの記事

-PR-企画広告

デジタル製品主要記事

ZDNET Japan 注目ヘッドライン

編集部おすすめの記事

本日の主要記事