Fix: tokenizer issue. (#11902)

#11786 ### Type of change - [x] Bug Fix (non-breaking change which fixes an issue)
2026-02-03 17:15:08 +08:00 · 2025-12-11 17:38:17 +08:00
parent 22a51a3868
commit ea4a5cd665
17 changed files with 141 additions and 216 deletions
--- a/api/apps/chunk_app.py
+++ b/api/apps/chunk_app.py
@ -313,7 +313,7 @@ async def retrieval_test():
    langs = req.get("cross_languages", [])
    user_id = current_user.id

-    def _retrieval_sync():
+    async def _retrieval():
        local_doc_ids = list(doc_ids) if doc_ids else []
        tenant_ids = []

@ -323,7 +323,7 @@ async def retrieval_test():
            metas = DocumentService.get_meta_by_kbs(kb_ids)
            if meta_data_filter.get("method") == "auto":
                chat_mdl = LLMBundle(user_id, LLMType.CHAT, llm_name=search_config.get("chat_id", ""))
-                filters: dict = gen_meta_filter(chat_mdl, metas, question)
+                filters: dict = await gen_meta_filter(chat_mdl, metas, question)
                local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
                if not local_doc_ids:
                    local_doc_ids = None
@ -333,7 +333,7 @@ async def retrieval_test():
                    filtered_metas = {key: metas[key] for key in selected_keys if key in metas}
                    if filtered_metas:
                        chat_mdl = LLMBundle(user_id, LLMType.CHAT, llm_name=search_config.get("chat_id", ""))
-                        filters: dict = gen_meta_filter(chat_mdl, filtered_metas, question)
+                        filters: dict = await gen_meta_filter(chat_mdl, filtered_metas, question)
                        local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
                        if not local_doc_ids:
                            local_doc_ids = None
@ -347,7 +347,7 @@ async def retrieval_test():
                metas = DocumentService.get_meta_by_kbs(kb_ids)
                if meta_data_filter.get("method") == "auto":
                    chat_mdl = LLMBundle(user_id, LLMType.CHAT)
-                    filters: dict = gen_meta_filter(chat_mdl, metas, question)
+                    filters: dict = await gen_meta_filter(chat_mdl, metas, question)
                    local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
                    if not local_doc_ids:
                        local_doc_ids = None
@ -357,7 +357,7 @@ async def retrieval_test():
                        filtered_metas = {key: metas[key] for key in selected_keys if key in metas}
                        if filtered_metas:
                            chat_mdl = LLMBundle(user_id, LLMType.CHAT)
-                            filters: dict = gen_meta_filter(chat_mdl, filtered_metas, question)
+                            filters: dict = await gen_meta_filter(chat_mdl, filtered_metas, question)
                            local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
                            if not local_doc_ids:
                                local_doc_ids = None
@ -384,7 +384,7 @@ async def retrieval_test():

        _question = question
        if langs:
-            _question = cross_languages(kb.tenant_id, None, _question, langs)
+            _question = await cross_languages(kb.tenant_id, None, _question, langs)

        embd_mdl = LLMBundle(kb.tenant_id, LLMType.EMBEDDING.value, llm_name=kb.embd_id)

@ -394,7 +394,7 @@ async def retrieval_test():

        if req.get("keyword", False):
            chat_mdl = LLMBundle(kb.tenant_id, LLMType.CHAT)
-            _question += keyword_extraction(chat_mdl, _question)
+            _question += await keyword_extraction(chat_mdl, _question)

        labels = label_question(_question, [kb])
        ranks = settings.retriever.retrieval(_question, embd_mdl, tenant_ids, kb_ids, page, size,
@ -421,7 +421,7 @@ async def retrieval_test():
        return get_json_result(data=ranks)

    try:
-        return await asyncio.to_thread(_retrieval_sync)
+        return await _retrieval()
    except Exception as e:
        if str(e).find("not_found") > 0:
            return get_json_result(data=False, message='No chunk found! Check the chunk status please!',