文字起こしツール

CLIENT / ROLE

発案者 / リードデベロッパー

YEAR

2023

TECHNOLOGY

Google Voice-To-Text, Python

Voice to Text

Project Overview

本アプリケーションは、3時間を超える長尺かつ多言語(日本語・英語)の音声データに対応した、業務仕様の文字起こしエンジンです。

長時間のファイルで頻発するクラッシュやハルシネーション(幻覚)を防ぐため、独自の「デュアルエンジン」アーキテクチャを採用しています。

聴覚: 日本語に特化した基盤モデルを使用し、会話に混じる英語の専門用語まで正確に聞き取ります。

編集脳(Gemini): プロの編集者のように振る舞い、意味を変えずに句読点の挿入やフィラー(「えー」「あの」等)の削除を行います。