# 知乎博客HTML解析工具 ## 功能说明 该工具用于将下载的知乎博客HTML文件解析为标准Markdown格式,方便后续编辑和管理。 - 支持提取文章标题 - 支持提取正文内容(段落、图片、代码块等) - 支持将HTML元素转换为对应的Markdown格式 - 自动生成同名的.md文件 ## 安装依赖 在使用前,需要安装以下依赖库: ```bash pip install -r requirements.txt ``` 依赖库说明: - `beautifulsoup4` - 用于解析HTML结构 - `lxml` - 作为BeautifulSoup的解析器 - `markdownify` - 用于将HTML转换为Markdown ## 使用方法 ### 基本用法 ```bash python parse_blog.py ``` 例如: ```bash python parse_blog.py "(6 封私信 _ 14 条消息) 高质量Mesh体积光渲染 - 知乎.html" ``` ### 输出结果 执行命令后,工具会在同一目录下生成同名的.md文件,例如: - 输入:`(6 封私信 _ 14 条消息) 高质量Mesh体积光渲染 - 知乎.html` - 输出:`(6 封私信 _ 14 条消息) 高质量Mesh体积光渲染 - 知乎.md` ## 支持的元素 - 标题(h1-h6) - 段落(p) - 图片(img) - 代码块(pre code) - 引用块(blockquote) - 列表(ul, ol) - 链接(a) ## 注意事项 1. 该工具仅支持解析知乎博客HTML文件,其他网站的HTML可能无法正确解析 2. 为了获得最佳解析效果,建议使用浏览器的"保存页面为HTML"功能下载完整的HTML文件 3. 解析过程中可能会遇到一些特殊元素无法完全转换,此时会使用默认处理方式 ## 故障排除 如果遇到解析失败的情况,可以尝试以下方法: 1. 确保HTML文件是完整的,包含所有必要的结构 2. 检查是否已正确安装所有依赖库 3. 查看命令行输出的错误信息,根据提示进行修复 ## 示例 ### 输入输出示例 **输入**:知乎HTML文件 **输出**: ```markdown # 高质量Mesh体积光渲染 SpotLight是Unity里面常用的灯光类型,我们渲染它的时候按照生活常识来说需要渲染两个部分,一个是照亮东西的效果,如下图: ![image](https://pic1.zhimg.com/v2-ff65743535c522dc74d58b87a6cc0d85_r.jpg) 另外一个当然就是舞台上经常看到的光柱效果,学名叫体积光,如下图所示: ![image](https://pic1.zhimg.com/v2-5cb0ae88a5fcdd32f26c703f83655089_r.jpg) 这篇文章就主要讲一下如何实现高质量的体积光效果。 ``` ## 许可证 本工具采用MIT许可证,可自由使用和修改。