OpenAI | 实时

您可以将 Realtime API 用于纯转录场景,无论是从麦克风还是文件输入。例如,您可以用它实时生成字幕或转录文本。在纯转录模式下,模型不会生成响应。

 

要使用实时 API 进行转录,您需要创建转录会话,通过 WebSocket 连接。使用 TsgcWSAPI_OpenAITsgcWebSocketClient 组件启动新的转录会话。

 

以下是使用 OpenAI API 进行实时转录的示例。

 


WSClient := TsgcWebSocketClient.Create(nil);
oAudio := TsgcAudioRecorderWave.Create(nil);
OpenAI := TsgcWSAPI_OpenAI.Create(nil);
OpenAI.Client := WSClient;
OpenAI.AudioRecorder := oAudio;
OpenAI.OpenAIOptions.APIKey := 'your-api-key-here';
OpenAI.OpenAIOptions.method := sgcoaimTranscription;
OpenAI.OpenAIOptions.provider := sgcoaipOpenAI;
OpenAI.InputAudio.Language := 'en';
OpenAI.InputAudio.Model := 'whisper-1';
procedure OnOpenAIAudioTranscriptionCompleted(Sender: TObject; const aItem: TsgcWSOpenAIConversation_Item_Completed);
begin
  Log('#transcription_completed: ' + aItem.Transcript);
end;

 

手动发送音频

该组件允许您手动发送音频文件。您可以使用 AppendInputAudioBuffer 方法并将音频作为 TStream 传入。音频格式必须为 24 kHz 单声道 PCM(仅支持 24000 的采样率)。