feat: Add html to the description text of the parsing method general #336 (#2432)

### What problem does this PR solve?

feat: Add html to the description text of the parsing method general
#336

### Type of change

- [x] New Feature (non-breaking change which adds functionality)
This commit is contained in:
balibabu
2024-09-14 15:18:34 +08:00
committed by GitHub
parent 6a0702f55f
commit deeb950e1c
3 changed files with 3 additions and 3 deletions

View File

@ -200,7 +200,7 @@ export default {
We assume manual has hierarchical section structure. We use the lowest section titles as pivots to slice documents. We assume manual has hierarchical section structure. We use the lowest section titles as pivots to slice documents.
So, the figures and tables in the same section will not be sliced apart, and chunk size might be large. So, the figures and tables in the same section will not be sliced apart, and chunk size might be large.
</p>`, </p>`,
naive: `<p>Supported file formats are <b>DOCX, EXCEL, PPT, IMAGE, PDF, TXT, MD, JSON, EML</b>.</p> naive: `<p>Supported file formats are <b>DOCX, EXCEL, PPT, IMAGE, PDF, TXT, MD, JSON, EML, HTML</b>.</p>
<p>This method apply the naive ways to chunk files: </p> <p>This method apply the naive ways to chunk files: </p>
<p> <p>
<li>Successive text will be sliced into pieces using vision detection model.</li> <li>Successive text will be sliced into pieces using vision detection model.</li>

View File

@ -191,7 +191,7 @@ export default {
我們假設手冊具有分層部分結構。我們使用最低的部分標題作為對文檔進行切片的樞軸。 我們假設手冊具有分層部分結構。我們使用最低的部分標題作為對文檔進行切片的樞軸。
因此,同一部分中的圖和表不會被分割,並且塊大小可能會很大。 因此,同一部分中的圖和表不會被分割,並且塊大小可能會很大。
</p>`, </p>`,
naive: `<p>支持的文件格式為<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML</b>。</p> naive: `<p>支持的文件格式為<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML</b>。</p>
<p>此方法將簡單的方法應用於塊文件:</p> <p>此方法將簡單的方法應用於塊文件:</p>
<p> <p>
<li>系統將使用視覺檢測模型將連續文本分割成多個片段。</li> <li>系統將使用視覺檢測模型將連續文本分割成多個片段。</li>

View File

@ -192,7 +192,7 @@ export default {
我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。 我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。
因此,同一部分中的图和表不会被分割,并且块大小可能会很大。 因此,同一部分中的图和表不会被分割,并且块大小可能会很大。
</p>`, </p>`,
naive: `<p>支持的文件格式为<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML</b>。</p> naive: `<p>支持的文件格式为<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML</b>。</p>
<p>此方法将简单的方法应用于块文件:</p> <p>此方法将简单的方法应用于块文件:</p>
<p> <p>
<li>系统将使用视觉检测模型将连续文本分割成多个片段。</li> <li>系统将使用视觉检测模型将连续文本分割成多个片段。</li>