Fix: Increase default chunk_token_num from 128 to 512 in parser config (#8753)

### What problem does this PR solve? Updated the default `chunk_token_num` value in `api_utils.py` and `validation_utils.py` to 512 to accommodate larger text chunks. Adjusted corresponding test cases in HTTP and SDK API tests to reflect this change. ### Type of change - [x] Bug Fix (non-breaking change which fixes an issue)
2026-01-29 22:56:36 +08:00 · 2025-07-10 09:34:03 +08:00
parent aae9fbb9de
commit f8524462b0
8 changed files with 16 additions and 16 deletions
--- a/test/testcases/test_http_api/test_dataset_mangement/test_create_dataset.py
+++ b/test/testcases/test_http_api/test_dataset_mangement/test_create_dataset.py
@ -639,7 +639,7 @@ class TestDatasetCreate:
        res = create_dataset(HttpApiAuth, payload)
        assert res["code"] == 0, res
        assert res["data"]["parser_config"] == {
-            "chunk_token_num": 128,
+            "chunk_token_num": 512,
            "delimiter": r"\n",
            "html4excel": False,
            "layout_recognize": "DeepDOC",
@ -652,7 +652,7 @@ class TestDatasetCreate:
        res = create_dataset(HttpApiAuth, payload)
        assert res["code"] == 0, res
        assert res["data"]["parser_config"] == {
-            "chunk_token_num": 128,
+            "chunk_token_num": 512,
            "delimiter": r"\n",
            "html4excel": False,
            "layout_recognize": "DeepDOC",
@ -665,7 +665,7 @@ class TestDatasetCreate:
        res = create_dataset(HttpApiAuth, payload)
        assert res["code"] == 0, res
        assert res["data"]["parser_config"] == {
-            "chunk_token_num": 128,
+            "chunk_token_num": 512,
            "delimiter": "\\n",
            "html4excel": False,
            "layout_recognize": "DeepDOC",
--- a/test/testcases/test_http_api/test_dataset_mangement/test_update_dataset.py
+++ b/test/testcases/test_http_api/test_dataset_mangement/test_update_dataset.py
@ -750,7 +750,7 @@ class TestDatasetUpdate:
        res = list_datasets(HttpApiAuth)
        assert res["code"] == 0, res
        assert res["data"][0]["parser_config"] == {
-            "chunk_token_num": 128,
+            "chunk_token_num": 512,
            "delimiter": r"\n",
            "html4excel": False,
            "layout_recognize": "DeepDOC",
@ -767,7 +767,7 @@ class TestDatasetUpdate:
        res = list_datasets(HttpApiAuth, {"id": dataset_id})
        assert res["code"] == 0, res
        assert res["data"][0]["parser_config"] == {
-            "chunk_token_num": 128,
+            "chunk_token_num": 512,
            "delimiter": r"\n",
            "html4excel": False,
            "layout_recognize": "DeepDOC",
--- a/test/testcases/test_http_api/test_file_management_within_dataset/test_update_document.py
+++ b/test/testcases/test_http_api/test_file_management_within_dataset/test_update_document.py
@ -309,7 +309,7 @@ class TestUpdateDocumentParserConfig:
            (
                "naive",
                {
-                    "chunk_token_num": 128,
+                    "chunk_token_num": 512,
                    "layout_recognize": "DeepDOC",
                    "html4excel": False,
                    "delimiter": r"\n",
@ -535,7 +535,7 @@ class TestUpdateDocumentParserConfig:
            res = list_documents(HttpApiAuth, dataset_id, {"id": document_ids[0]})
            if parser_config == {}:
                assert res["data"]["docs"][0]["parser_config"] == {
-                    "chunk_token_num": 128,
+                    "chunk_token_num": 512,
                    "delimiter": r"\n",
                    "html4excel": False,
                    "layout_recognize": "DeepDOC",