Tłumaczenie – klient OpenAI w Delphi (4 / 5)

9 kwietnia 2023 · Funkcje

Tłumaczenie dźwięku na tekst jest bardzo proste za pomocą OpenAI API — wystarczy przesłać plik audio w jednym z następujących formatów: mp3, mp4, mpeg, mpga, m4a, wav lub webm. API przetłumaczy dźwięk na angielski.

Przykład tłumaczenia w Delphi

OpenAI wymaga zbudowania żądania, w którym przekazujesz plik audio, model, temperaturę (dla mniej lub bardziej losowego wyniku) — poniżej znajdziesz listę dostępnych parametrów.

- Filename: (Wymagane) Plik audio do transkrypcji w jednym z tych formatów: mp3, mp4, mpeg, mpga, m4a, wav lub webm.
- Model: (Wymagane) Identyfikator modelu do użycia. Aktualnie dostępny jest tylko whisper-1.
- Prompt: Opcjonalny tekst kierujący stylem modelu lub kontynuujący poprzedni segment audio. Prompt powinien pasować do języka dźwięku.
- ResponseFormat: Format wyjścia transkrypcji — jedno z następujących: json, text, srt, verbose_json lub vtt.
- Temperature: Temperatura próbkowania, między 0 a 1. Wyższe wartości jak 0,8 czynią wynik bardziej losowym, niższe jak 0,2 — bardziej skupionym i deterministycznym. Gdy ustawione na 0, model używa log-prawdopodobieństwa do automatycznego zwiększania temperatury do osiągnięcia pewnych progów.

Poniżej znajdziesz prosty przykład tłumaczenia pliku audio za pomocą whisper-1

procedure DoTranslateAudio(const aFileName: string);
var
  oRequest: TsgcOpenAIClass_Request_Translation;
  oResponse: TsgcOpenAIClass_Response_Translation;
begin
  oRequest := TsgcOpenAIClass_Request_Translation.Create;
  Try
    oRequest.Filename := aFileName;
    oRequest.Model := 'whisper-1';
    oResponse := OpenAI.CreateTranslationFromFile(oRequest);
    Try
      DoLog(oResponse.Text);
    Finally
      oResponse.Free;
    End;
  Finally
    oRequest.Free;
  End;
end;

Find below the compiled Demo for Windows using the sgcWebSockets OpenAI Delphi Library.