Refa: refactor metadata filter (#11907)

### What problem does this PR solve? Refactor metadata filter. ### Type of change - [x] Bug Fix (non-breaking change which fixes an issue) - [x] Refactoring --------- Co-authored-by: Kevin Hu <kevinhu.sh@gmail.com>
2026-02-04 01:25:07 +08:00 · 2025-12-12 17:12:38 +08:00
parent 0fcb1680fd
commit 0f0fb53256
10 changed files with 229 additions and 269 deletions
--- a/api/apps/sdk/session.py
+++ b/api/apps/sdk/session.py
@ -28,10 +28,11 @@ from api.db.services.canvas_service import completion as agent_completion
 from api.db.services.conversation_service import ConversationService
 from api.db.services.conversation_service import async_iframe_completion as iframe_completion
 from api.db.services.conversation_service import async_completion as rag_completion
-from api.db.services.dialog_service import DialogService, async_ask, async_chat, gen_mindmap, meta_filter
+from api.db.services.dialog_service import DialogService, async_ask, async_chat, gen_mindmap
 from api.db.services.document_service import DocumentService
 from api.db.services.knowledgebase_service import KnowledgebaseService
 from api.db.services.llm_service import LLMBundle
+from common.metadata_utils import apply_meta_data_filter
 from api.db.services.search_service import SearchService
 from api.db.services.user_service import UserTenantService
 from common.misc_utils import get_uuid
@ -39,7 +40,7 @@ from api.utils.api_utils import check_duplicate_ids, get_data_openai, get_error_
    get_result, get_request_json, server_error_response, token_required, validate_request
 from rag.app.tag import label_question
 from rag.prompts.template import load_prompt
-from rag.prompts.generator import cross_languages, gen_meta_filter, keyword_extraction, chunks_format
+from rag.prompts.generator import cross_languages, keyword_extraction, chunks_format
 from common.constants import RetCode, LLMType, StatusEnum
 from common import settings

@ -974,54 +975,21 @@ async def retrieval_test_embedded():
        tenant_ids = []
        _question = question

+        meta_data_filter = {}
+        chat_mdl = None
        if req.get("search_id", ""):
            search_config = SearchService.get_detail(req.get("search_id", "")).get("search_config", {})
            meta_data_filter = search_config.get("meta_data_filter", {})
-            metas = DocumentService.get_meta_by_kbs(kb_ids)
-            if meta_data_filter.get("method") == "auto":
+            if meta_data_filter.get("method") in ["auto", "semi_auto"]:
                chat_mdl = LLMBundle(tenant_id, LLMType.CHAT, llm_name=search_config.get("chat_id", ""))
-                filters: dict = await gen_meta_filter(chat_mdl, metas, _question)
-                local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
-                if not local_doc_ids:
-                    local_doc_ids = None
-            elif meta_data_filter.get("method") == "semi_auto":
-                selected_keys = meta_data_filter.get("semi_auto", [])
-                if selected_keys:
-                    filtered_metas = {key: metas[key] for key in selected_keys if key in metas}
-                    if filtered_metas:
-                        chat_mdl = LLMBundle(tenant_id, LLMType.CHAT, llm_name=search_config.get("chat_id", ""))
-                        filters: dict = await gen_meta_filter(chat_mdl, filtered_metas, _question)
-                        local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
-                        if not local_doc_ids:
-                            local_doc_ids = None
-            elif meta_data_filter.get("method") == "manual":
-                local_doc_ids.extend(meta_filter(metas, meta_data_filter["manual"], meta_data_filter.get("logic", "and")))
-                if meta_data_filter["manual"] and not local_doc_ids:
-                    local_doc_ids = ["-999"]
        else:
-            meta_data_filter = req.get("meta_data_filter")
-            if meta_data_filter:
-                metas = DocumentService.get_meta_by_kbs(kb_ids)
-                if meta_data_filter.get("method") == "auto":
-                    chat_mdl = LLMBundle(tenant_id, LLMType.CHAT)
-                    filters: dict = await gen_meta_filter(chat_mdl, metas, question)
-                    local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
-                    if not local_doc_ids:
-                        local_doc_ids = None
-                elif meta_data_filter.get("method") == "semi_auto":
-                    selected_keys = meta_data_filter.get("semi_auto", [])
-                    if selected_keys:
-                        filtered_metas = {key: metas[key] for key in selected_keys if key in metas}
-                        if filtered_metas:
-                            chat_mdl = LLMBundle(tenant_id, LLMType.CHAT)
-                            filters: dict = await gen_meta_filter(chat_mdl, filtered_metas, question)
-                            local_doc_ids.extend(meta_filter(metas, filters["conditions"], filters.get("logic", "and")))
-                            if not local_doc_ids:
-                                local_doc_ids = None
-                elif meta_data_filter.get("method") == "manual":
-                    local_doc_ids.extend(meta_filter(metas, meta_data_filter["manual"], meta_data_filter.get("logic", "and")))
-                    if meta_data_filter["manual"] and not local_doc_ids:
-                        local_doc_ids = ["-999"]
+            meta_data_filter = req.get("meta_data_filter") or {}
+            if meta_data_filter.get("method") in ["auto", "semi_auto"]:
+                chat_mdl = LLMBundle(tenant_id, LLMType.CHAT)
+
+        if meta_data_filter:
+            metas = DocumentService.get_meta_by_kbs(kb_ids)
+            local_doc_ids = await apply_meta_data_filter(meta_data_filter, metas, _question, chat_mdl, local_doc_ids)

        tenants = UserTenantService.query(user_id=tenant_id)
        for kb_id in kb_ids: