diff --git a/rag/llm/embedding_model.py b/rag/llm/embedding_model.py
index f89f49e9b..93b5982be 100644
--- a/rag/llm/embedding_model.py
+++ b/rag/llm/embedding_model.py
@@ -378,8 +378,9 @@ class XinferenceEmbed(Base):
         ress = []
         total_tokens = 0
         for i in range(0, len(texts), batch_size):
-            res = self.client.embeddings.create(input=texts[i : i + batch_size], model=self.model_name)
+            res = None
             try:
+                res = self.client.embeddings.create(input=texts[i : i + batch_size], model=self.model_name)
                 ress.extend([d.embedding for d in res.data])
                 total_tokens += self.total_token_count(res)
             except Exception as _e:
@@ -387,8 +388,9 @@ class XinferenceEmbed(Base):
         return np.array(ress), total_tokens
 
     def encode_queries(self, text):
-        res = self.client.embeddings.create(input=[text], model=self.model_name)
+        res = None
         try:
+            res = self.client.embeddings.create(input=[text], model=self.model_name)
             return np.array(res.data[0].embedding), self.total_token_count(res)
         except Exception as _e:
             log_exception(_e, res)