docreader/parser/__init__.py

"""
Parser module for WeKnora document processing system.

This module provides document parsers for various file formats including:
- Microsoft Word documents (.doc, .docx)
- PDF documents
- Markdown files
- Plain text files
- Images with text content
- Web pages

The parsers extract content from documents and can split them into
meaningful chunks for further processing and indexing.
"""

from .csv_parser import CSVParser
from .doc_parser import DocParser
from .docx2_parser import Docx2Parser
from .excel_parser import ExcelParser
from .image_parser import ImageParser
from .markdown_parser import MarkdownParser
from .parser import Parser
from .pdf_parser import PDFParser
from .text_parser import TextParser
from .web_parser import WebParser

# Export public classes and modules
__all__ = [
    "Docx2Parser",  # Parser for .docx files (modern Word documents)
    "DocParser",  # Parser for .doc files (legacy Word documents)
    "PDFParser",  # Parser for PDF documents
    "MarkdownParser",  # Parser for Markdown text files
    "TextParser",  # Parser for plain text files
    "ImageParser",  # Parser for images with text content
    "WebParser",  # Parser for web pages
    "Parser",  # Main parser factory that selects the appropriate parser
    "CSVParser",  # Parser for CSV files
    "ExcelParser",  # Parser for Excel files
]
init commit 2025-08-05 15:08:07 +08:00			`"""`
			`Parser module for WeKnora document processing system.`

			`This module provides document parsers for various file formats including:`
			`- Microsoft Word documents (.doc, .docx)`
			`- PDF documents`
			`- Markdown files`
			`- Plain text files`
			`- Images with text content`
			`- Web pages`

			`The parsers extract content from documents and can split them into`
			`meaningful chunks for further processing and indexing.`
			`"""`

feat: 新增 CSV、XLSX、XLS 文件类型解析支持 2025-11-19 17:27:17 +08:00			`from .csv_parser import CSVParser`
init commit 2025-08-05 15:08:07 +08:00			`from .doc_parser import DocParser`
feat: 新增文档模型类，调整配置与解析逻辑，优化日志及导入移除日志设置与冗余代码，优化导入、类型提示及OCR后端管理统一调整各文件模块导入路径为绝对导入调整导入路径，移除部分导入，优化日志及注释升级文档解析器为 Docx2Parser，优化超时与图片处理逻辑 2025-11-07 10:30:02 +08:00			`from .docx2_parser import Docx2Parser`
feat: 新增 CSV、XLSX、XLS 文件类型解析支持 2025-11-19 17:27:17 +08:00			`from .excel_parser import ExcelParser`
feat: 新增文档模型类，调整配置与解析逻辑，优化日志及导入移除日志设置与冗余代码，优化导入、类型提示及OCR后端管理统一调整各文件模块导入路径为绝对导入调整导入路径，移除部分导入，优化日志及注释升级文档解析器为 Docx2Parser，优化超时与图片处理逻辑 2025-11-07 10:30:02 +08:00			`from .image_parser import ImageParser`
init commit 2025-08-05 15:08:07 +08:00			`from .markdown_parser import MarkdownParser`
feat: 新增文档模型类，调整配置与解析逻辑，优化日志及导入移除日志设置与冗余代码，优化导入、类型提示及OCR后端管理统一调整各文件模块导入路径为绝对导入调整导入路径，移除部分导入，优化日志及注释升级文档解析器为 Docx2Parser，优化超时与图片处理逻辑 2025-11-07 10:30:02 +08:00			`from .parser import Parser`
			`from .pdf_parser import PDFParser`
init commit 2025-08-05 15:08:07 +08:00			`from .text_parser import TextParser`
			`from .web_parser import WebParser`

			`# Export public classes and modules`
			`__all__ = [`
feat: 新增文档模型类，调整配置与解析逻辑，优化日志及导入移除日志设置与冗余代码，优化导入、类型提示及OCR后端管理统一调整各文件模块导入路径为绝对导入调整导入路径，移除部分导入，优化日志及注释升级文档解析器为 Docx2Parser，优化超时与图片处理逻辑 2025-11-07 10:30:02 +08:00			`"Docx2Parser", # Parser for .docx files (modern Word documents)`
init commit 2025-08-05 15:08:07 +08:00			`"DocParser", # Parser for .doc files (legacy Word documents)`
			`"PDFParser", # Parser for PDF documents`
			`"MarkdownParser", # Parser for Markdown text files`
			`"TextParser", # Parser for plain text files`
			`"ImageParser", # Parser for images with text content`
			`"WebParser", # Parser for web pages`
			`"Parser", # Main parser factory that selects the appropriate parser`
feat: 新增 CSV、XLSX、XLS 文件类型解析支持 2025-11-19 17:27:17 +08:00			`"CSVParser", # Parser for CSV files`
			`"ExcelParser", # Parser for Excel files`
init commit 2025-08-05 15:08:07 +08:00			`]`