OpenAI Delphi クライアントで音声翻訳 (4 / 5)

2023年4月9日 · Features

OpenAI API を使用した音声からテキストへの変換は非常に簡単です。mp3、mp4、mpeg、mpga、m4a、wav、webm のいずれかの形式で音声ファイルをアップロードするだけで、API が音声を英語に翻訳します。

Delphi での翻訳サンプル

OpenAI へのリクエストには、音声ファイル、モデル、temperature（出力のランダム性を調整するパラメーター）を指定する必要があります。以下に利用可能なパラメーターの一覧を示します。

- Filename：（必須）書き起こす音声ファイル。mp3、mp4、mpeg、mpga、m4a、wav、webm のいずれかの形式。
- Model：（必須）使用するモデルの ID。現在は whisper-1 のみ利用可能。
- Prompt：モデルのスタイルを誘導したり、直前の音声セグメントを継続するためのオプションのテキスト。プロンプトは音声の言語と一致させてください。
- ResponseFormat：トランスクリプト出力の形式。json、text、srt、verbose_json、vtt のいずれか。
- Temperature：0 〜 1 のサンプリング temperature。0.8 のような高い値は出力をよりランダムにし、0.2 のような低い値はより集中した決定論的な出力になります。0 に設定すると、モデルは対数確率を使用して特定のしきい値に達するまで temperature を自動的に上げます。

以下は whisper-1 を使用して音声ファイルを翻訳するシンプルなサンプルです。

procedure DoTranslateAudio(const aFileName: string);
var
  oRequest: TsgcOpenAIClass_Request_Translation;
  oResponse: TsgcOpenAIClass_Response_Translation;
begin
  oRequest := TsgcOpenAIClass_Request_Translation.Create;
  Try
    oRequest.Filename := aFileName;
    oRequest.Model := 'whisper-1';
    oResponse := OpenAI.CreateTranslationFromFile(oRequest);
    Try
      DoLog(oResponse.Text);
    Finally
      oResponse.Free;
    End;
  Finally
    oRequest.Free;
  End;
end;

sgcWebSockets OpenAI Delphi ライブラリを使用して Windows 向けにコンパイルされたデモは以下からご覧いただけます。