OpenAI API를 사용하면 오디오를 텍스트로 번역하는 것이 매우 쉬워요. mp3, mp4, mpeg, mpga, m4a, wav, webm 형식 중 하나로 오디오 파일을 업로드하기만 하면 API가 오디오를 영어로 번역해요.
번역 Delphi 예제
OpenAI는 오디오 파일, 모델, 온도(출력의 랜덤성 조절)를 전달하는 요청을 구성해야 해요. 아래에서 사용 가능한 매개변수 목록을 확인하세요.
- Filename: (필수) 변환할 오디오 파일로 mp3, mp4, mpeg, mpga, m4a, wav, webm 형식 중 하나예요.
- Model: (필수) 사용할 모델의 ID예요. 현재 whisper-1만 사용 가능해요.
- Prompt: 모델의 스타일을 안내하거나 이전 오디오 세그먼트를 계속하는 선택적 텍스트예요. 프롬프트는 오디오 언어와 일치해야 해요.
- ResponseFormat: 변환 출력 형식으로 json, text, srt, verbose_json, vtt 중 하나예요.
- Temperature: 0과 1 사이의 샘플링 온도예요. 0.8처럼 높은 값은 출력을 더 무작위로 만들고, 0.2처럼 낮은 값은 더 집중적이고 결정론적으로 만들어요. 0으로 설정하면 모델이 로그 확률을 사용해 특정 임계값에 도달할 때까지 자동으로 온도를 높여요.
아래에서 whisper-1을 사용해 오디오 파일을 번역하는 간단한 예제를 확인하세요.
procedure DoTranslateAudio(const aFileName: string);
var
oRequest: TsgcOpenAIClass_Request_Translation;
oResponse: TsgcOpenAIClass_Response_Translation;
begin
oRequest := TsgcOpenAIClass_Request_Translation.Create;
Try
oRequest.Filename := aFileName;
oRequest.Model := 'whisper-1';
oResponse := OpenAI.CreateTranslationFromFile(oRequest);
Try
DoLog(oResponse.Text);
Finally
oResponse.Free;
End;
Finally
oRequest.Free;
End;
end;

아래에서 sgcWebSockets OpenAI Delphi 라이브러리를 사용한 Windows용 컴파일된 데모를 확인해 주세요.
