Spaces:

alex16052G
/

abi

Paused

App Files Files Community

alex16052G commited on Jan 23

Commit

9fc0ca0

verified ·

1 Parent(s): 43489d1

Update chat_ai.py

Browse files

Files changed (1) hide show

chat_ai.py +10 -8

chat_ai.py CHANGED Viewed

@@ -60,7 +60,6 @@ def load_models():
     return vocoder, F5TTS_ema_model, whisper_processor, whisper_model, device
 # Cargar modelos una sola vez y almacenarlos en variables globales dentro de la función
-# Esto se logra usando atributos de función
 def get_models():
     if not hasattr(get_models, "vocoder"):
         get_models.vocoder, get_models.F5TTS_ema_model, get_models.whisper_processor, get_models.whisper_model, get_models.device = load_models()
@@ -78,20 +77,23 @@ def infer(
             # Preprocesar el audio de referencia y el texto de referencia
             ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text)
             # Asegurar que el texto a generar esté correctamente formateado
             if not gen_text.startswith(" "):
                 gen_text = " " + gen_text
             if not gen_text.endswith(". "):
                 gen_text += ". "
             # El texto ingresado por el usuario se utiliza directamente sin modificaciones
             input_text = gen_text
             print(f"Texto para generar audio: {input_text}")  # Debug: Verificar el texto
             # Procesar la inferencia para generar el audio
             final_wave, final_sample_rate, combined_spectrogram = infer_process(
-                ref_audio.to(device),
                 ref_text,
                 input_text,
                 F5TTS_ema_model,
@@ -100,7 +102,7 @@ def infer(
                 speed=speed,
                 progress=gr.Progress(),
             )
             # Eliminar silencios si está activado
             if remove_silence:
                 with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
@@ -108,12 +110,12 @@ def infer(
                     remove_silence_for_generated_wav(f.name)
                     final_wave, _ = torchaudio.load(f.name)
                 final_wave = final_wave.squeeze().cpu().numpy()
             # Guardar el espectrograma (opcional)
             with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
                 spectrogram_path = tmp_spectrogram.name
                 save_spectrogram(combined_spectrogram, spectrogram_path)
             return (final_sample_rate, final_wave), spectrogram_path
     except Exception as e:
         # Log del error para depuración

     return vocoder, F5TTS_ema_model, whisper_processor, whisper_model, device
 # Cargar modelos una sola vez y almacenarlos en variables globales dentro de la función
 def get_models():
     if not hasattr(get_models, "vocoder"):
         get_models.vocoder, get_models.F5TTS_ema_model, get_models.whisper_processor, get_models.whisper_model, get_models.device = load_models()
             # Preprocesar el audio de referencia y el texto de referencia
             ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text)
+            # Mover solo ref_audio al dispositivo
+            ref_audio = ref_audio.to(device)
             # Asegurar que el texto a generar esté correctamente formateado
             if not gen_text.startswith(" "):
                 gen_text = " " + gen_text
             if not gen_text.endswith(". "):
                 gen_text += ". "
             # El texto ingresado por el usuario se utiliza directamente sin modificaciones
             input_text = gen_text
             print(f"Texto para generar audio: {input_text}")  # Debug: Verificar el texto
             # Procesar la inferencia para generar el audio
             final_wave, final_sample_rate, combined_spectrogram = infer_process(
+                ref_audio,
                 ref_text,
                 input_text,
                 F5TTS_ema_model,
                 speed=speed,
                 progress=gr.Progress(),
             )
             # Eliminar silencios si está activado
             if remove_silence:
                 with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
                     remove_silence_for_generated_wav(f.name)
                     final_wave, _ = torchaudio.load(f.name)
                 final_wave = final_wave.squeeze().cpu().numpy()
             # Guardar el espectrograma (opcional)
             with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
                 spectrogram_path = tmp_spectrogram.name
                 save_spectrogram(combined_spectrogram, spectrogram_path)
             return (final_sample_rate, final_wave), spectrogram_path
     except Exception as e:
         # Log del error para depuración