doct

doct模块用于解析docx 、markdown 、epub 、pdf 、pptx等文件

docx 对象

import {docx} from "doct";

方法

名称	类型	参数	返回值	说明
`readFile`	方法	`path: string`	`DocxFile`	初始化点击验证码
`readBuffer`	方法	`buffer: Buffer`	`DocxFile`	初始化滑动验证码

readFile

从本地文件系统读取docx文件。

参数：

path: docx文件的路径

DocxFile: 解析后的docx对象

示例：

const docFile = docx.readFile("./example.docx");

readBuffer

从内存缓冲区读取docx文件。

参数：

buffer: 包含docx文件内容的Buffer对象

Docx: 解析后的docx对象

示例：

const buffer = fs.readFileSync("./example.docx");
const docFile = docx.readBuffer(buffer);

DocxFile

DocxFile对象表示一个解析后的Word文档，包含文档的内容、样式和关系等信息。该对象由readFile或readBuffer方法返回。

方法

名称	类型	参数	返回值	说明
`slice`	方法	`size: int`	`array: Object`	将文档切分为结构化数据
`text`	方法	无	`String`	转纯文本
`markdown`	方法	无	`String`	转md文档

slice

将文档切分为结构化数据

参数：

size: 每个切片的最大长度

array: Object: 对象，每个对象包含以下属性：
- id: 标题唯一标识符
- name: 标题文本
- content: 标题下的文本内容数组
- children: 子标题对象数组

示例：

const docFile = docx.readFile("./example.docx");
const objects = docFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "一级标题",
  "content": [...],
  "children": [{
    "id": "1.1",
    "name": "二级标题",
    "content": [...],
    "children": []
  }]
}]

text

示例：

const docFile = docx.readFile("/path/to/file/通知.docx");
const text = docFile.text();
console.log(text);

markdown

markdown 对象

import {markdown} from "doct";

方法

名称	类型	参数	返回值	说明
`readFile`	方法	`path: string`	`MarkdownFile`	从本地文件系统读取markdown文件
`readBuffer`	方法	`buffer: Buffer`	`MarkdownFile`	从内存缓冲区读取markdown文件

readFile

从本地文件系统读取markdown文件。

参数：

path: markdown文件的路径

MarkdownFile: 解析后的markdown对象

示例：

const mdFile = markdown.readFile("./example.md");

readBuffer

从内存缓冲区读取markdown文件。

参数：

buffer: 包含markdown文件内容的Buffer对象

MarkdownFile: 解析后的markdown对象

示例：

const buffer = fs.readFileSync("./example.md");
const mdFile = markdown.readBuffer(buffer);

MarkdownFile

MarkdownFile对象表示一个解析后的Markdown文档，包含文档的内容和结构化信息。该对象由readFile或readBuffer方法返回。

方法

名称	类型	参数	返回值	说明
`slice`	方法	`size: int`	`array: Object`	将文档切分为结构化数据
`text`	方法	无	`String`	转纯文本

slice

将文档切分为结构化数据。

参数：

size: 每个切片的最大长度

array: Object: 对象数组，每个对象包含以下属性：
- id: 标题唯一标识符
- name: 标题文本
- content: 标题下的文本内容数组
- children: 子标题对象数组

示例：

const mdFile = markdown.readFile("./example.md");
const objects = mdFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "一级标题",
  "content": [...],
  "children": [{
    "id": "1.1",
    "name": "二级标题",
    "content": [...],
    "children": []
  }]
}]

text

示例：

const mdFile = markdown.readFile("./example.md");
const text = mdFile.text();
console.log(text);

epub 对象

import {epub} from "doct";

方法

名称	类型	参数	返回值	说明
`readFile`	方法	`path: string`	`EpubFile`	从本地文件系统读取epub文件
`readBuffer`	方法	`buffer: Buffer`	`EpubFile`	从内存缓冲区读取epub文件

readFile

从本地文件系统读取epub文件。

参数：

path: epub文件的路径

EpubFile: 解析后的epub对象

示例：

const epubFile = epub.readFile("./example.epub");

readBuffer

从内存缓冲区读取epub文件。

参数：

buffer: 包含epub文件内容的Buffer对象

EpubFile: 解析后的epub对象

示例：

const buffer = fs.readFileSync("./example.epub");
const epubFile = epub.readBuffer(buffer);

EpubFile

EpubFile对象表示一个解析后的EPUB文档，包含文档的内容、样式和章节信息。该对象由readFile或readBuffer方法返回。

方法

名称	类型	参数	返回值	说明
`slice`	方法	`size: int`	`array: Object`	将文档切分为结构化数据
`text`	方法	无	`String`	转纯文本
`markdown`	方法	无	`String`	转md文档

slice

将文档切分为结构化数据。

参数：

size: 每个切片的最大长度

array: Object: 对象数组，每个对象包含以下属性：
- id: 章节唯一标识符
- name: 章节标题
- content: 章节内容数组
- children: 子章节对象数组

示例：

const epubFile = epub.readFile("./example.epub");
const objects = epubFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "章节标题",
  "content": [...],
  "children": [{
    "id": "1.1",
    "name": "子章节标题",
    "content": [...],
    "children": []
  }]
}]

text

示例：

const epubFile = epub.readFile("./example.epub");
const text = epubFile.text();
console.log(text);

markdown

示例：

const epubFile = epub.readFile("./example.epub");
const mdText = epubFile.markdown();
console.log(mdText);

pdf 对象

import {pdf} from "doct";

方法

名称	类型	参数	返回值	说明
`readFile`	方法	`path: string`	`PdfFile`	从本地文件系统读取pdf文件
`readBuffer`	方法	`buffer: Buffer`	`PdfFile`	从内存缓冲区读取pdf文件

readFile

从本地文件系统读取pdf文件。

参数：

path: pdf文件的路径

PdfFile: 解析后的pdf对象

示例：

const pdfFile = pdf.readFile("./example.pdf");

readBuffer

从内存缓冲区读取pdf文件。

参数：

buffer: 包含pdf文件内容的Buffer对象

PdfFile: 解析后的pdf对象

示例：

const buffer = fs.readFileSync("./example.pdf");
const pdfFile = pdf.readBuffer(buffer);

PdfFile

PdfFile对象表示一个解析后的PDF文档，包含文档的内容和结构化信息。该对象由readFile或readBuffer方法返回。

方法

名称	类型	参数	返回值	说明
`slice`	方法	`size: int`	`array: Object`	将文档切分为结构化数据
`text`	方法	无	`String`	转纯文本

slice

将文档切分为结构化数据。

参数：

size: 每个切片的最大长度

array: Object: 对象数组，每个对象包含以下属性：
- id: 页面或章节唯一标识符
- name: 页面或章节标题
- content: 页面或章节内容数组
- children: 子页面或子章节对象数组

示例：

const pdfFile = pdf.readFile("./example.pdf");
const objects = pdfFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "页面标题",
  "content": [...],
  "children": []
}]

text

示例：

const pdfFile = pdf.readFile("./example.pdf");
const text = pdfFile.text();
console.log(text);

pptx 对象

import {pptx} from "doct";

方法

名称	类型	参数	返回值	说明
`readFile`	方法	`path: string`	`PptxFile`	从本地文件系统读取pptx文件
`readBuffer`	方法	`buffer: Buffer`	`PptxFile`	从内存缓冲区读取pptx文件

readFile

从本地文件系统读取pptx文件。

参数：

path: pptx文件的路径

PptxFile: 解析后的pptx对象

示例：

const pptxFile = pptx.readFile("./example.pptx");

readBuffer

从内存缓冲区读取pptx文件。

参数：

buffer: 包含pptx文件内容的Buffer对象

PptxFile: 解析后的pptx对象

示例：

const buffer = fs.readFileSync("./example.pptx");
const pptxFile = pptx.readBuffer(buffer);

PptxFile

PptxFile对象表示一个解析后的PowerPoint文档，包含文档的幻灯片内容和样式信息。该对象由readFile或readBuffer方法返回。

方法

名称	类型	参数	返回值	说明
`slice`	方法	`size: int`	`array: Object`	将文档切分为结构化数据
`text`	方法	无	`String`	转纯文本
`markdown`	方法	无	`String`	转md文档

slice

将文档切分为结构化数据。

参数：

size: 每个切片的最大长度

array: Object: 对象数组，每个对象包含以下属性：
- id: 幻灯片唯一标识符
- name: 幻灯片标题
- content: 幻灯片内容数组
- children: 子幻灯片对象数组（通常为空）

示例：

const pptxFile = pptx.readFile("./example.pptx");
const objects = pptxFile.slice(600);

示例输出:

[{
  "id": "1",
  "name": "幻灯片标题",
  "content": [...],
  "children": []
}]

text

示例：

const pptxFile = pptx.readFile("./example.pptx");
const text = pptxFile.text();
console.log(text);

markdown

示例：

const pptxFile = pptx.readFile("./example.pptx");
const mdText = pptxFile.markdown();
console.log(mdText);

doct

ON THIS PAGE