Spaces:

alex16052G
/

abi

Paused

App Files Files Community

alex16052G commited on Jan 23

Commit

20e68c3

verified ·

1 Parent(s): 72d4e57

Update chat_ai.py

Browse files

Files changed (1) hide show

chat_ai.py +62 -84

chat_ai.py CHANGED Viewed

@@ -1,13 +1,9 @@
-import re
-import tempfile
 import gradio as gr
 import numpy as np
-import soundfile as sf
 import torchaudio
-from num2words import num2words
-from transformers import AutoModelForCausalLM, AutoTokenizer
 from f5_tts.model import DiT
 from f5_tts.infer.utils_infer import (
     load_vocoder,
@@ -17,27 +13,21 @@ from f5_tts.infer.utils_infer import (
     remove_silence_for_generated_wav,
     save_spectrogram,
 )
-# Implementación de cached_path (si es necesario, dependiendo de tu configuración)
-from cached_path import cached_path
-# Decorador GPU para Spaces o local
-def gpu_decorator(func):
-    return func  # Simplemente devuelve la función, ajusta según tu entorno si usas HF中国镜像站 Spaces
-# Cargar el vocoder
 vocoder = load_vocoder()
-# Configuración y carga del modelo F5TTS
 F5TTS_model_cfg = dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)
 F5TTS_ema_model = load_model(
-    DiT, F5TTS_model_cfg, str(cached_path("hf://jpgallegoar/F5-Spanish/model_1200000.safetensors"))
 )
 def traducir_numero_a_texto(texto):
     texto_separado = re.sub(r'([A-Za-z])(\d)', r'\1 \2', texto)
     texto_separado = re.sub(r'(\d)([A-Za-z])', r'\1 \2', texto_separado)
     def reemplazar_numero(match):
         numero = match.group()
         return num2words(int(numero), lang='es')
@@ -46,35 +36,24 @@ def traducir_numero_a_texto(texto):
     return texto_traducido
-@gpu_decorator
 def infer(
-    ref_audio_orig, ref_text, gen_text, model, remove_silence, cross_fade_duration=0.15, speed=1, show_info=gr.Info
 ):
-    ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text, show_info=show_info)
-    ema_model = F5TTS_ema_model
-    if not gen_text.startswith(" "):
-        gen_text = " " + gen_text
-    if not gen_text.endswith(". "):
-        gen_text += ". "
-    gen_text = gen_text.lower()
-    gen_text = traducir_numero_a_texto(gen_text)
     final_wave, final_sample_rate, combined_spectrogram = infer_process(
         ref_audio,
         ref_text,
         gen_text,
-        ema_model,
         vocoder,
         cross_fade_duration=cross_fade_duration,
         speed=speed,
-        show_info=show_info,
-        progress=gr.Progress(),
     )
-    # Eliminar silencios
     if remove_silence:
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
             sf.write(f.name, final_wave, final_sample_rate)
@@ -82,65 +61,64 @@ def infer(
             final_wave, _ = torchaudio.load(f.name)
         final_wave = final_wave.squeeze().cpu().numpy()
-    # Guardar el espectrograma
     with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
         spectrogram_path = tmp_spectrogram.name
         save_spectrogram(combined_spectrogram, spectrogram_path)
     return (final_sample_rate, final_wave), spectrogram_path
-# Interfaz Gradio
-with gr.Blocks() as app_tts:
-    gr.Markdown("# TTS por Lotes")
-    ref_audio_input = gr.Audio(label="Audio de Referencia", type="filepath")
-    gen_text_input = gr.Textbox(label="Texto para Generar", lines=10)
-    model_choice = gr.Radio(choices=["F5-TTS"], label="Seleccionar Modelo TTS", value="F5-TTS")
-    generate_btn = gr.Button("Sintetizar", variant="primary")
-    with gr.Accordion("Configuraciones Avanzadas", open=False):
-        ref_text_input = gr.Textbox(
-            label="Texto de Referencia",
-            info="Deja en blanco para transcribir automáticamente el audio de referencia. Si ingresas texto, sobrescribirá la transcripción automática.",
-            lines=2,
-        )
-        remove_silence = gr.Checkbox(
-            label="Eliminar Silencios",
-            info="El modelo tiende a producir silencios, especialmente en audios más largos. Podemos eliminar manualmente los silencios si es necesario. Ten en cuenta que esta es una característica experimental y puede producir resultados extraños. Esto también aumentará el tiempo de generación.",
-            value=False,
-        )
-        speed_slider = gr.Slider(
-            label="Velocidad",
-            minimum=0.3,
-            maximum=2.0,
-            value=1.0,
-            step=0.1,
-            info="Ajusta la velocidad del audio.",
-        )
-        cross_fade_duration_slider = gr.Slider(
-            label="Duración del Cross-Fade (s)",
-            minimum=0.0,
-            maximum=1.0,
-            value=0.15,
-            step=0.01,
-            info="Establece la duración del cross-fade entre clips de audio.",
         )
-    audio_output = gr.Audio(label="Audio Sintetizado")
-    spectrogram_output = gr.Image(label="Espectrograma")
     generate_btn.click(
-        infer,
-        inputs=[
-            ref_audio_input,
-            ref_text_input,
-            gen_text_input,
-            model_choice,
-            remove_silence,
-            cross_fade_duration_slider,
-            speed_slider,
-        ],
         outputs=[audio_output, spectrogram_output],
     )
-# Ejecutar la aplicación
-if __name__ == "__main__":
-    app_tts.launch()

 import gradio as gr
+import tempfile
 import numpy as np
 import torchaudio
+import soundfile as sf
+from transformers import AutoTokenizer
 from f5_tts.model import DiT
 from f5_tts.infer.utils_infer import (
     load_vocoder,
     remove_silence_for_generated_wav,
     save_spectrogram,
 )
+from num2words import num2words
+import re
+# Cargar vocoder y modelo
 vocoder = load_vocoder()
 F5TTS_model_cfg = dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)
 F5TTS_ema_model = load_model(
+    DiT, F5TTS_model_cfg, "hf://jpgallegoar/F5-Spanish/model_1200000.safetensors"
 )
 def traducir_numero_a_texto(texto):
+    """Convierte números a palabras en el texto."""
     texto_separado = re.sub(r'([A-Za-z])(\d)', r'\1 \2', texto)
     texto_separado = re.sub(r'(\d)([A-Za-z])', r'\1 \2', texto_separado)
     def reemplazar_numero(match):
         numero = match.group()
         return num2words(int(numero), lang='es')
     return texto_traducido
 def infer(
+    ref_audio_orig, ref_text, gen_text, remove_silence=False, cross_fade_duration=0.15, speed=1.0
 ):
+    """Realiza la inferencia para convertir texto en voz."""
+    ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text)
+    gen_text = traducir_numero_a_texto(gen_text.lower())
     final_wave, final_sample_rate, combined_spectrogram = infer_process(
         ref_audio,
         ref_text,
         gen_text,
+        F5TTS_ema_model,
         vocoder,
         cross_fade_duration=cross_fade_duration,
         speed=speed,
     )
     if remove_silence:
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
             sf.write(f.name, final_wave, final_sample_rate)
             final_wave, _ = torchaudio.load(f.name)
         final_wave = final_wave.squeeze().cpu().numpy()
+    # Guardar espectrograma
     with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
         spectrogram_path = tmp_spectrogram.name
         save_spectrogram(combined_spectrogram, spectrogram_path)
     return (final_sample_rate, final_wave), spectrogram_path
+def tts_pipeline(ref_audio, ref_text, gen_text, remove_silence, speed):
+    """Pipeline para la interfaz de Gradio."""
+    if not ref_audio:
+        return None, "Por favor sube un audio de referencia."
+    try:
+        (sample_rate, audio), spectrogram_path = infer(
+            ref_audio, ref_text, gen_text, remove_silence=remove_silence, speed=speed
         )
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_audio:
+            sf.write(tmp_audio.name, audio, sample_rate)
+            return tmp_audio.name, spectrogram_path
+    except Exception as e:
+        return None, f"Error al generar audio: {str(e)}"
+# Crear interfaz con Gradio
+with gr.Blocks() as demo:
+    gr.Markdown("""# Conversión de Texto a Voz (TTS) en Español
+Convierte texto en audio en español usando un modelo de TTS. Proporciona un audio de referencia y el texto a convertir.
+**Instrucciones:**
+1. Sube un audio de referencia (formato WAV o MP3, de 11 a 14 segundos).
+2. Opcionalmente, ingresa el texto correspondiente al audio de referencia.
+3. Escribe el texto que deseas convertir a voz.
+4. Haz clic en "Generar Audio".
+*Nota: Los números en el texto serán convertidos automáticamente a palabras.*
+""")
+    with gr.Row():
+        ref_audio = gr.Audio(label="Audio de Referencia", type="filepath")
+        ref_text = gr.Textbox(label="Texto de Referencia (Opcional)", placeholder="Transcripción del audio de referencia")
+    gen_text = gr.Textbox(label="Texto para Convertir a Voz", lines=4, placeholder="Escribe aquí el texto a convertir")
+    with gr.Row():
+        remove_silence = gr.Checkbox(label="Eliminar Silencios", value=False)
+        speed = gr.Slider(label="Velocidad", minimum=0.5, maximum=2.0, value=1.0, step=0.1)
+    generate_btn = gr.Button("Generar Audio")
+    with gr.Row():
+        audio_output = gr.Audio(label="Audio Generado", type="filepath")
+        spectrogram_output = gr.Image(label="Espectrograma")
     generate_btn.click(
+        tts_pipeline,
+        inputs=[ref_audio, ref_text, gen_text, remove_silence, speed],
         outputs=[audio_output, spectrogram_output],
     )
+# Ejecutar la aplicación en Spaces
+demo.launch()