OpenAI API を使用した音声からテキストへの変換は非常に簡単です。mp3、mp4、mpeg、mpga、m4a、wav、webm のいずれかの形式で音声ファイルをアップロードするだけで、API が音声を英語に翻訳します。
Delphi での翻訳サンプル
OpenAI へのリクエストには、音声ファイル、モデル、temperature(出力のランダム性を調整するパラメーター)を指定する必要があります。以下に利用可能なパラメーターの一覧を示します。
- Filename:(必須)書き起こす音声ファイル。mp3、mp4、mpeg、mpga、m4a、wav、webm のいずれかの形式。
- Model:(必須)使用するモデルの ID。現在は whisper-1 のみ利用可能。
- Prompt:モデルのスタイルを誘導したり、直前の音声セグメントを継続するためのオプションのテキスト。プロンプトは音声の言語と一致させてください。
- ResponseFormat:トランスクリプト出力の形式。json、text、srt、verbose_json、vtt のいずれか。
- Temperature:0 〜 1 のサンプリング temperature。0.8 のような高い値は出力をよりランダムにし、0.2 のような低い値はより集中した決定論的な出力になります。0 に設定すると、モデルは対数確率を使用して特定のしきい値に達するまで temperature を自動的に上げます。
以下は whisper-1 を使用して音声ファイルを翻訳するシンプルなサンプルです。
procedure DoTranslateAudio(const aFileName: string);
var
oRequest: TsgcOpenAIClass_Request_Translation;
oResponse: TsgcOpenAIClass_Response_Translation;
begin
oRequest := TsgcOpenAIClass_Request_Translation.Create;
Try
oRequest.Filename := aFileName;
oRequest.Model := 'whisper-1';
oResponse := OpenAI.CreateTranslationFromFile(oRequest);
Try
DoLog(oResponse.Text);
Finally
oResponse.Free;
End;
Finally
oRequest.Free;
End;
end;

sgcWebSockets OpenAI Delphi ライブラリを使用して Windows 向けにコンパイルされたデモは以下からご覧いただけます。
