Spaces:

alex16052G
/

chatbot

Paused

App Files Files Community

alex16052G commited on Jan 23

Commit

54b5ba7

verified ·

1 Parent(s): 77321e6

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -20

app.py CHANGED Viewed

@@ -6,24 +6,12 @@ import gradio as gr
 chat_model_state = None
 chat_tokenizer_state = None
-# Inicialización de ZeroGPU si es necesario
-def initialize_zero_gpu():
-    """Inicializa ZeroGPU si es requerido por el entorno."""
-    try:
-        import spaces
-        spaces.GPU(lambda x: x)  # Realiza una inicialización dummy
-        print("ZeroGPU inicializado correctamente.")
-    except ImportError:
-        print("ZeroGPU no está disponible o no es necesario en este entorno.")
-# Llamamos a la inicialización de ZeroGPU al inicio
-initialize_zero_gpu()
 def load_chat_model():
     """Función para cargar el modelo de chat."""
     global chat_model_state, chat_tokenizer_state
     try:
         model_name = "Qwen/Qwen2.5-3B-Instruct"
         # Cargar el modelo en CPU o GPU según disponibilidad
         chat_model_state = AutoModelForCausalLM.from_pretrained(
             model_name,
@@ -34,11 +22,13 @@ def load_chat_model():
         print("Modelo cargado exitosamente.")
     except Exception as e:
         print(f"Error al cargar el modelo de chat: {e}")
-def generate_response(messages, model, tokenizer):
     """Genera una respuesta usando el modelo de chat."""
     try:
-        if model is None or tokenizer is None:
             raise ValueError("El modelo de chat o el tokenizer no están cargados.")
         # Construir el prompt manualmente a partir del historial de mensajes
@@ -56,17 +46,17 @@ def generate_response(messages, model, tokenizer):
         prompt += "Assistant:"
         # Tokenizar el prompt
-        model_inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-        generated_ids = model.generate(
             **model_inputs,
             max_new_tokens=512,
             temperature=0.7,
             top_p=0.95,
-            eos_token_id=tokenizer.eos_token_id,
         )
         # Decodificar la respuesta generada
-        generated_text = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
         # Extraer solo la respuesta del asistente
         response = generated_text[len(prompt):].strip()
@@ -101,7 +91,7 @@ with gr.Blocks() as app_chat:
         history.append((text, None))
         # Generar la respuesta del modelo de chat
-        response = generate_response(conv_state, chat_model_state, chat_tokenizer_state)
         conv_state.append({"role": "assistant", "content": response})
         history[-1] = (text, response)

 chat_model_state = None
 chat_tokenizer_state = None
 def load_chat_model():
     """Función para cargar el modelo de chat."""
     global chat_model_state, chat_tokenizer_state
     try:
         model_name = "Qwen/Qwen2.5-3B-Instruct"
+        print("Cargando el modelo de chat...")
         # Cargar el modelo en CPU o GPU según disponibilidad
         chat_model_state = AutoModelForCausalLM.from_pretrained(
             model_name,
         print("Modelo cargado exitosamente.")
     except Exception as e:
         print(f"Error al cargar el modelo de chat: {e}")
+        chat_model_state = None
+        chat_tokenizer_state = None
+def generate_response(messages):
     """Genera una respuesta usando el modelo de chat."""
     try:
+        if chat_model_state is None or chat_tokenizer_state is None:
             raise ValueError("El modelo de chat o el tokenizer no están cargados.")
         # Construir el prompt manualmente a partir del historial de mensajes
         prompt += "Assistant:"
         # Tokenizar el prompt
+        model_inputs = chat_tokenizer_state(prompt, return_tensors="pt").to(chat_model_state.device)
+        generated_ids = chat_model_state.generate(
             **model_inputs,
             max_new_tokens=512,
             temperature=0.7,
             top_p=0.95,
+            eos_token_id=chat_tokenizer_state.eos_token_id,
         )
         # Decodificar la respuesta generada
+        generated_text = chat_tokenizer_state.decode(generated_ids[0], skip_special_tokens=True)
         # Extraer solo la respuesta del asistente
         response = generated_text[len(prompt):].strip()
         history.append((text, None))
         # Generar la respuesta del modelo de chat
+        response = generate_response(conv_state)
         conv_state.append({"role": "assistant", "content": response})
         history[-1] = (text, response)