doct

doct

doct模块用于解析docxmarkdownepubpdfpptx等文件

docx 对象

import {docx} from "doct";

方法

名称类型参数返回值说明
readFile方法path: stringDocxFile初始化点击验证码
readBuffer方法buffer: BufferDocxFile初始化滑动验证码

readFile

从本地文件系统读取docx文件。

参数:

  • path: docx文件的路径

返回:

  • DocxFile: 解析后的docx对象

示例:

const docFile = docx.readFile("./example.docx");

readBuffer

从内存缓冲区读取docx文件。

参数:

  • buffer: 包含docx文件内容的Buffer对象

返回:

  • Docx: 解析后的docx对象

示例:

const buffer = fs.readFileSync("./example.docx");
const docFile = docx.readBuffer(buffer);

DocxFile

DocxFile对象表示一个解析后的Word文档,包含文档的内容、样式和关系等信息。该对象由readFilereadBuffer方法返回。

方法

名称类型参数返回值说明
slice方法size: intarray: Object将文档切分为结构化数据
text方法String转纯文本
markdown方法String转md文档

slice

将文档切分为结构化数据

参数:

  • size: 每个切片的最大长度

返回:

  • array: Object: 对象,每个对象包含以下属性:
    • id: 标题唯一标识符
    • name: 标题文本
    • content: 标题下的文本内容数组
    • children: 子标题对象数组

示例:

const docFile = docx.readFile("./example.docx");
const objects = docFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "一级标题",
  "content": [...],
  "children": [{
    "id": "1.1",
    "name": "二级标题",
    "content": [...],
    "children": []
  }]
}]

text

示例:

const docFile = docx.readFile("/path/to/file/通知.docx");
const text = docFile.text();
console.log(text);

markdown

markdown 对象

import {markdown} from "doct";

方法

名称类型参数返回值说明
readFile方法path: stringMarkdownFile从本地文件系统读取markdown文件
readBuffer方法buffer: BufferMarkdownFile从内存缓冲区读取markdown文件

readFile

从本地文件系统读取markdown文件。

参数:

  • path: markdown文件的路径

返回:

  • MarkdownFile: 解析后的markdown对象

示例:

const mdFile = markdown.readFile("./example.md");

readBuffer

从内存缓冲区读取markdown文件。

参数:

  • buffer: 包含markdown文件内容的Buffer对象

返回:

  • MarkdownFile: 解析后的markdown对象

示例:

const buffer = fs.readFileSync("./example.md");
const mdFile = markdown.readBuffer(buffer);

MarkdownFile

MarkdownFile对象表示一个解析后的Markdown文档,包含文档的内容和结构化信息。该对象由readFilereadBuffer方法返回。

方法

名称类型参数返回值说明
slice方法size: intarray: Object将文档切分为结构化数据
text方法String转纯文本

slice

将文档切分为结构化数据。

参数:

  • size: 每个切片的最大长度

返回:

  • array: Object: 对象数组,每个对象包含以下属性:
    • id: 标题唯一标识符
    • name: 标题文本
    • content: 标题下的文本内容数组
    • children: 子标题对象数组

示例:

const mdFile = markdown.readFile("./example.md");
const objects = mdFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "一级标题",
  "content": [...],
  "children": [{
    "id": "1.1",
    "name": "二级标题",
    "content": [...],
    "children": []
  }]
}]

text

示例:

const mdFile = markdown.readFile("./example.md");
const text = mdFile.text();
console.log(text);

epub 对象

import {epub} from "doct";

方法

名称类型参数返回值说明
readFile方法path: stringEpubFile从本地文件系统读取epub文件
readBuffer方法buffer: BufferEpubFile从内存缓冲区读取epub文件

readFile

从本地文件系统读取epub文件。

参数:

  • path: epub文件的路径

返回:

  • EpubFile: 解析后的epub对象

示例:

const epubFile = epub.readFile("./example.epub");

readBuffer

从内存缓冲区读取epub文件。

参数:

  • buffer: 包含epub文件内容的Buffer对象

返回:

  • EpubFile: 解析后的epub对象

示例:

const buffer = fs.readFileSync("./example.epub");
const epubFile = epub.readBuffer(buffer);

EpubFile

EpubFile对象表示一个解析后的EPUB文档,包含文档的内容、样式和章节信息。该对象由readFilereadBuffer方法返回。

方法

名称类型参数返回值说明
slice方法size: intarray: Object将文档切分为结构化数据
text方法String转纯文本
markdown方法String转md文档

slice

将文档切分为结构化数据。

参数:

  • size: 每个切片的最大长度

返回:

  • array: Object: 对象数组,每个对象包含以下属性:
    • id: 章节唯一标识符
    • name: 章节标题
    • content: 章节内容数组
    • children: 子章节对象数组

示例:

const epubFile = epub.readFile("./example.epub");
const objects = epubFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "章节标题",
  "content": [...],
  "children": [{
    "id": "1.1",
    "name": "子章节标题",
    "content": [...],
    "children": []
  }]
}]

text

示例:

const epubFile = epub.readFile("./example.epub");
const text = epubFile.text();
console.log(text);

markdown

示例:

const epubFile = epub.readFile("./example.epub");
const mdText = epubFile.markdown();
console.log(mdText);

pdf 对象

import {pdf} from "doct";

方法

名称类型参数返回值说明
readFile方法path: stringPdfFile从本地文件系统读取pdf文件
readBuffer方法buffer: BufferPdfFile从内存缓冲区读取pdf文件

readFile

从本地文件系统读取pdf文件。

参数:

  • path: pdf文件的路径

返回:

  • PdfFile: 解析后的pdf对象

示例:

const pdfFile = pdf.readFile("./example.pdf");

readBuffer

从内存缓冲区读取pdf文件。

参数:

  • buffer: 包含pdf文件内容的Buffer对象

返回:

  • PdfFile: 解析后的pdf对象

示例:

const buffer = fs.readFileSync("./example.pdf");
const pdfFile = pdf.readBuffer(buffer);

PdfFile

PdfFile对象表示一个解析后的PDF文档,包含文档的内容和结构化信息。该对象由readFilereadBuffer方法返回。

方法

名称类型参数返回值说明
slice方法size: intarray: Object将文档切分为结构化数据
text方法String转纯文本

slice

将文档切分为结构化数据。

参数:

  • size: 每个切片的最大长度

返回:

  • array: Object: 对象数组,每个对象包含以下属性:
    • id: 页面或章节唯一标识符
    • name: 页面或章节标题
    • content: 页面或章节内容数组
    • children: 子页面或子章节对象数组

示例:

const pdfFile = pdf.readFile("./example.pdf");
const objects = pdfFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "页面标题",
  "content": [...],
  "children": []
}]

text

示例:

const pdfFile = pdf.readFile("./example.pdf");
const text = pdfFile.text();
console.log(text);

pptx 对象

import {pptx} from "doct";

方法

名称类型参数返回值说明
readFile方法path: stringPptxFile从本地文件系统读取pptx文件
readBuffer方法buffer: BufferPptxFile从内存缓冲区读取pptx文件

readFile

从本地文件系统读取pptx文件。

参数:

  • path: pptx文件的路径

返回:

  • PptxFile: 解析后的pptx对象

示例:

const pptxFile = pptx.readFile("./example.pptx");

readBuffer

从内存缓冲区读取pptx文件。

参数:

  • buffer: 包含pptx文件内容的Buffer对象

返回:

  • PptxFile: 解析后的pptx对象

示例:

const buffer = fs.readFileSync("./example.pptx");
const pptxFile = pptx.readBuffer(buffer);

PptxFile

PptxFile对象表示一个解析后的PowerPoint文档,包含文档的幻灯片内容和样式信息。该对象由readFilereadBuffer方法返回。

方法

名称类型参数返回值说明
slice方法size: intarray: Object将文档切分为结构化数据
text方法String转纯文本
markdown方法String转md文档

slice

将文档切分为结构化数据。

参数:

  • size: 每个切片的最大长度

返回:

  • array: Object: 对象数组,每个对象包含以下属性:
    • id: 幻灯片唯一标识符
    • name: 幻灯片标题
    • content: 幻灯片内容数组
    • children: 子幻灯片对象数组(通常为空)

示例:

const pptxFile = pptx.readFile("./example.pptx");
const objects = pptxFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "幻灯片标题",
  "content": [...],
  "children": []
}]

text

示例:

const pptxFile = pptx.readFile("./example.pptx");
const text = pptxFile.text();
console.log(text);

markdown

示例:

const pptxFile = pptx.readFile("./example.pptx");
const mdText = pptxFile.markdown();
console.log(mdText);
更新时间 6/17/2025, 6:14:07 PM