Feat: add foundational support for RAPTOR dataset pipeline logs (#10277)

### What problem does this PR solve? Add foundational support for RAPTOR dataset pipeline logs. ### Type of change - [x] New Feature (non-breaking change which adds functionality)
2026-01-31 15:45:08 +08:00 · 2025-09-25 16:46:24 +08:00
parent a1147ce609
commit c1151519a0
4 changed files with 161 additions and 19 deletions
--- a/api/apps/kb_app.py
+++ b/api/apps/kb_app.py
@ -533,10 +533,6 @@ def run_graphrag():
    if not kb_id:
        return get_error_data_result(message='Lack of "KB ID"')

-    doc_ids = req.get("doc_ids", [])
-    if not doc_ids:
-        return get_error_data_result(message="Need to specify document IDs to run Graph RAG")
-
    ok, kb = KnowledgebaseService.get_by_id(kb_id)
    if not ok:
        return get_error_data_result(message="Invalid Knowledgebase ID")
@ -547,16 +543,29 @@ def run_graphrag():
        logging.warning(f"A valid GraphRAG task id is expected for kb {kb_id}")

    if task and task.progress not in [-1, 1]:
-        return get_error_data_result(message=f"Task in progress with status {task.progress}. A Graph Task is already running.")
+        return get_error_data_result(message=f"Task {task_id} in progress with status {task.progress}. A Graph Task is already running.")

-    document_ids = set()
+    document_ids = []
    sample_document = {}
-    for doc_id in doc_ids:
-        ok, document = DocumentService.get_by_id(doc_id)
-        if ok:
-            document_ids.add(document.id)
-            if not sample_document:
-                sample_document = document.to_dict()
+
+    documents, _ = DocumentService.get_by_kb_id(
+        kb_id=kb_id,
+        page_number=0,
+        items_per_page=0,
+        orderby="create_time",
+        desc=False,
+        keywords="",
+        run_status=[],
+        types=[],
+        suffix=[],
+    )
+    for document in documents:
+
+        if not sample_document and document["parser_config"].get("graphrag", {}).get("use_graphrag", False):
+            sample_document = document
+            document_ids.insert(0, document["id"])
+        else:
+            document_ids.append(document["id"])

    task_id = queue_raptor_o_graphrag_tasks(doc=sample_document, ty="graphrag", priority=0, fake_doc_id=GRAPH_RAPTOR_FAKE_DOC_ID, doc_ids=list(document_ids))

@ -584,6 +593,80 @@ def trace_graphrag():

    ok, task = TaskService.get_by_id(task_id)
    if not ok:
-        return get_json_result(data=False, message="GraphRAG Task Not Found or Error Occurred", code=settings.RetCode.ARGUMENT_ERROR)
+        return get_error_data_result(message="GraphRAG Task Not Found or Error Occurred")
+
+    return get_json_result(data=task.to_dict())
+
+
+@manager.route("/run_raptor", methods=["POST"])  # noqa: F821
+@login_required
+def run_raptor():
+    req = request.json
+
+    kb_id = req.get("kb_id", "")
+    if not kb_id:
+        return get_error_data_result(message='Lack of "KB ID"')
+
+    ok, kb = KnowledgebaseService.get_by_id(kb_id)
+    if not ok:
+        return get_error_data_result(message="Invalid Knowledgebase ID")
+
+    task_id = kb.raptor_task_id
+    ok, task = TaskService.get_by_id(task_id)
+    if not ok:
+        logging.warning(f"A valid RAPTOR task id is expected for kb {kb_id}")
+
+    if task and task.progress not in [-1, 1]:
+        return get_error_data_result(message=f"Task {task_id} in progress with status {task.progress}. A RAPTOR Task is already running.")
+
+    document_ids = []
+    sample_document = {}
+
+    documents, _ = DocumentService.get_by_kb_id(
+        kb_id=kb_id,
+        page_number=0,
+        items_per_page=0,
+        orderby="create_time",
+        desc=False,
+        keywords="",
+        run_status=[],
+        types=[],
+        suffix=[],
+    )
+    for document in documents:
+
+        if not sample_document:
+            sample_document = document
+            document_ids.insert(0, document["id"])
+        else:
+            document_ids.append(document["id"])
+
+    task_id = queue_raptor_o_graphrag_tasks(doc=sample_document, ty="raptor", priority=0, fake_doc_id=GRAPH_RAPTOR_FAKE_DOC_ID, doc_ids=list(document_ids))
+
+    if not KnowledgebaseService.update_by_id(kb.id, {"raptor_task_id": task_id}):
+        logging.warning(f"Cannot save raptor_task_id for kb {kb_id}")
+
+    return get_json_result(data={"raptor_task_id": task_id})
+
+
+@manager.route("/trace_raptor", methods=["GET"])  # noqa: F821
+@login_required
+def trace_raptor():
+    kb_id = request.args.get("kb_id", "")
+    if not kb_id:
+        return get_error_data_result(message='Lack of "KB ID"')
+
+    ok, kb = KnowledgebaseService.get_by_id(kb_id)
+    if not ok:
+        return get_error_data_result(message="Invalid Knowledgebase ID")
+
+
+    task_id = kb.raptor_task_id
+    if not task_id:
+        return get_error_data_result(message="RAPTOR Task ID Not Found")
+
+    ok, task = TaskService.get_by_id(task_id)
+    if not ok:
+        return get_error_data_result(message="RAPTOR Task Not Found or Error Occurred")

    return get_json_result(data=task.to_dict())