Tłumaczenie dźwięku na tekst jest bardzo proste za pomocą OpenAI API — wystarczy przesłać plik audio w jednym z następujących formatów: mp3, mp4, mpeg, mpga, m4a, wav lub webm. API przetłumaczy dźwięk na angielski.
Przykład tłumaczenia w Delphi
OpenAI wymaga zbudowania żądania, w którym przekazujesz plik audio, model, temperaturę (dla mniej lub bardziej losowego wyniku) — poniżej znajdziesz listę dostępnych parametrów.
- Filename: (Wymagane) Plik audio do transkrypcji w jednym z tych formatów: mp3, mp4, mpeg, mpga, m4a, wav lub webm.
- Model: (Wymagane) Identyfikator modelu do użycia. Aktualnie dostępny jest tylko whisper-1.
- Prompt: Opcjonalny tekst kierujący stylem modelu lub kontynuujący poprzedni segment audio. Prompt powinien pasować do języka dźwięku.
- ResponseFormat: Format wyjścia transkrypcji — jedno z następujących: json, text, srt, verbose_json lub vtt.
- Temperature: Temperatura próbkowania, między 0 a 1. Wyższe wartości jak 0,8 czynią wynik bardziej losowym, niższe jak 0,2 — bardziej skupionym i deterministycznym. Gdy ustawione na 0, model używa log-prawdopodobieństwa do automatycznego zwiększania temperatury do osiągnięcia pewnych progów.
Poniżej znajdziesz prosty przykład tłumaczenia pliku audio za pomocą whisper-1
procedure DoTranslateAudio(const aFileName: string);
var
oRequest: TsgcOpenAIClass_Request_Translation;
oResponse: TsgcOpenAIClass_Response_Translation;
begin
oRequest := TsgcOpenAIClass_Request_Translation.Create;
Try
oRequest.Filename := aFileName;
oRequest.Model := 'whisper-1';
oResponse := OpenAI.CreateTranslationFromFile(oRequest);
Try
DoLog(oResponse.Text);
Finally
oResponse.Free;
End;
Finally
oRequest.Free;
End;
end;

Find below the compiled Demo for Windows using the sgcWebSockets OpenAI Delphi Library.
