doct
doct
doct
模块用于解析docx
、markdown
、epub
、pdf
、pptx
等文件
docx 对象
import {docx} from "doct";
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
readFile | 方法 | path: string | DocxFile | 初始化点击验证码 |
readBuffer | 方法 | buffer: Buffer | DocxFile | 初始化滑动验证码 |
readFile
从本地文件系统读取docx文件。
参数:
path
: docx文件的路径
返回:
DocxFile
: 解析后的docx对象
示例:
const docFile = docx.readFile("./example.docx");
readBuffer
从内存缓冲区读取docx文件。
参数:
buffer
: 包含docx文件内容的Buffer对象
返回:
Docx
: 解析后的docx对象
示例:
const buffer = fs.readFileSync("./example.docx");
const docFile = docx.readBuffer(buffer);
DocxFile
DocxFile对象表示一个解析后的Word文档,包含文档的内容、样式和关系等信息。该对象由readFile
或readBuffer
方法返回。
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
slice | 方法 | size: int | array: Object | 将文档切分为结构化数据 |
text | 方法 | 无 | String | 转纯文本 |
markdown | 方法 | 无 | String | 转md文档 |
slice
将文档切分为结构化数据
参数:
size
: 每个切片的最大长度
返回:
array: Object
: 对象,每个对象包含以下属性:id
: 标题唯一标识符name
: 标题文本content
: 标题下的文本内容数组children
: 子标题对象数组
示例:
const docFile = docx.readFile("./example.docx");
const objects = docFile.slice(600);
示例输出:
[{
"id": "1",
"name": "一级标题",
"content": [...],
"children": [{
"id": "1.1",
"name": "二级标题",
"content": [...],
"children": []
}]
}]
text
示例:
const docFile = docx.readFile("/path/to/file/通知.docx");
const text = docFile.text();
console.log(text);
markdown
markdown 对象
import {markdown} from "doct";
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
readFile | 方法 | path: string | MarkdownFile | 从本地文件系统读取markdown文件 |
readBuffer | 方法 | buffer: Buffer | MarkdownFile | 从内存缓冲区读取markdown文件 |
readFile
从本地文件系统读取markdown文件。
参数:
path
: markdown文件的路径
返回:
MarkdownFile
: 解析后的markdown对象
示例:
const mdFile = markdown.readFile("./example.md");
readBuffer
从内存缓冲区读取markdown文件。
参数:
buffer
: 包含markdown文件内容的Buffer对象
返回:
MarkdownFile
: 解析后的markdown对象
示例:
const buffer = fs.readFileSync("./example.md");
const mdFile = markdown.readBuffer(buffer);
MarkdownFile
MarkdownFile对象表示一个解析后的Markdown文档,包含文档的内容和结构化信息。该对象由readFile
或readBuffer
方法返回。
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
slice | 方法 | size: int | array: Object | 将文档切分为结构化数据 |
text | 方法 | 无 | String | 转纯文本 |
slice
将文档切分为结构化数据。
参数:
size
: 每个切片的最大长度
返回:
array: Object
: 对象数组,每个对象包含以下属性:id
: 标题唯一标识符name
: 标题文本content
: 标题下的文本内容数组children
: 子标题对象数组
示例:
const mdFile = markdown.readFile("./example.md");
const objects = mdFile.slice(600);
示例输出:
[{
"id": "1",
"name": "一级标题",
"content": [...],
"children": [{
"id": "1.1",
"name": "二级标题",
"content": [...],
"children": []
}]
}]
text
示例:
const mdFile = markdown.readFile("./example.md");
const text = mdFile.text();
console.log(text);
epub 对象
import {epub} from "doct";
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
readFile | 方法 | path: string | EpubFile | 从本地文件系统读取epub文件 |
readBuffer | 方法 | buffer: Buffer | EpubFile | 从内存缓冲区读取epub文件 |
readFile
从本地文件系统读取epub文件。
参数:
path
: epub文件的路径
返回:
EpubFile
: 解析后的epub对象
示例:
const epubFile = epub.readFile("./example.epub");
readBuffer
从内存缓冲区读取epub文件。
参数:
buffer
: 包含epub文件内容的Buffer对象
返回:
EpubFile
: 解析后的epub对象
示例:
const buffer = fs.readFileSync("./example.epub");
const epubFile = epub.readBuffer(buffer);
EpubFile
EpubFile对象表示一个解析后的EPUB文档,包含文档的内容、样式和章节信息。该对象由readFile
或readBuffer
方法返回。
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
slice | 方法 | size: int | array: Object | 将文档切分为结构化数据 |
text | 方法 | 无 | String | 转纯文本 |
markdown | 方法 | 无 | String | 转md文档 |
slice
将文档切分为结构化数据。
参数:
size
: 每个切片的最大长度
返回:
array: Object
: 对象数组,每个对象包含以下属性:id
: 章节唯一标识符name
: 章节标题content
: 章节内容数组children
: 子章节对象数组
示例:
const epubFile = epub.readFile("./example.epub");
const objects = epubFile.slice(600);
示例输出:
[{
"id": "1",
"name": "章节标题",
"content": [...],
"children": [{
"id": "1.1",
"name": "子章节标题",
"content": [...],
"children": []
}]
}]
text
示例:
const epubFile = epub.readFile("./example.epub");
const text = epubFile.text();
console.log(text);
markdown
示例:
const epubFile = epub.readFile("./example.epub");
const mdText = epubFile.markdown();
console.log(mdText);
pdf 对象
import {pdf} from "doct";
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
readFile | 方法 | path: string | PdfFile | 从本地文件系统读取pdf文件 |
readBuffer | 方法 | buffer: Buffer | PdfFile | 从内存缓冲区读取pdf文件 |
readFile
从本地文件系统读取pdf文件。
参数:
path
: pdf文件的路径
返回:
PdfFile
: 解析后的pdf对象
示例:
const pdfFile = pdf.readFile("./example.pdf");
readBuffer
从内存缓冲区读取pdf文件。
参数:
buffer
: 包含pdf文件内容的Buffer对象
返回:
PdfFile
: 解析后的pdf对象
示例:
const buffer = fs.readFileSync("./example.pdf");
const pdfFile = pdf.readBuffer(buffer);
PdfFile
PdfFile对象表示一个解析后的PDF文档,包含文档的内容和结构化信息。该对象由readFile
或readBuffer
方法返回。
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
slice | 方法 | size: int | array: Object | 将文档切分为结构化数据 |
text | 方法 | 无 | String | 转纯文本 |
slice
将文档切分为结构化数据。
参数:
size
: 每个切片的最大长度
返回:
array: Object
: 对象数组,每个对象包含以下属性:id
: 页面或章节唯一标识符name
: 页面或章节标题content
: 页面或章节内容数组children
: 子页面或子章节对象数组
示例:
const pdfFile = pdf.readFile("./example.pdf");
const objects = pdfFile.slice(600);
示例输出:
[{
"id": "1",
"name": "页面标题",
"content": [...],
"children": []
}]
text
示例:
const pdfFile = pdf.readFile("./example.pdf");
const text = pdfFile.text();
console.log(text);
pptx 对象
import {pptx} from "doct";
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
readFile | 方法 | path: string | PptxFile | 从本地文件系统读取pptx文件 |
readBuffer | 方法 | buffer: Buffer | PptxFile | 从内存缓冲区读取pptx文件 |
readFile
从本地文件系统读取pptx文件。
参数:
path
: pptx文件的路径
返回:
PptxFile
: 解析后的pptx对象
示例:
const pptxFile = pptx.readFile("./example.pptx");
readBuffer
从内存缓冲区读取pptx文件。
参数:
buffer
: 包含pptx文件内容的Buffer对象
返回:
PptxFile
: 解析后的pptx对象
示例:
const buffer = fs.readFileSync("./example.pptx");
const pptxFile = pptx.readBuffer(buffer);
PptxFile
PptxFile对象表示一个解析后的PowerPoint文档,包含文档的幻灯片内容和样式信息。该对象由readFile
或readBuffer
方法返回。
方法
名称 | 类型 | 参数 | 返回值 | 说明 |
---|---|---|---|---|
slice | 方法 | size: int | array: Object | 将文档切分为结构化数据 |
text | 方法 | 无 | String | 转纯文本 |
markdown | 方法 | 无 | String | 转md文档 |
slice
将文档切分为结构化数据。
参数:
size
: 每个切片的最大长度
返回:
array: Object
: 对象数组,每个对象包含以下属性:id
: 幻灯片唯一标识符name
: 幻灯片标题content
: 幻灯片内容数组children
: 子幻灯片对象数组(通常为空)
示例:
const pptxFile = pptx.readFile("./example.pptx");
const objects = pptxFile.slice(600);
示例输出:
[{
"id": "1",
"name": "幻灯片标题",
"content": [...],
"children": []
}]
text
示例:
const pptxFile = pptx.readFile("./example.pptx");
const text = pptxFile.text();
console.log(text);
markdown
示例:
const pptxFile = pptx.readFile("./example.pptx");
const mdText = pptxFile.markdown();
console.log(mdText);