Files
XCDesktop/tools/blog/README.md
2026-03-08 01:34:54 +08:00

92 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 知乎博客HTML解析工具
## 功能说明
该工具用于将下载的知乎博客HTML文件解析为标准Markdown格式方便后续编辑和管理。
- 支持提取文章标题
- 支持提取正文内容(段落、图片、代码块等)
- 支持将HTML元素转换为对应的Markdown格式
- 自动生成同名的.md文件
## 安装依赖
在使用前,需要安装以下依赖库:
```bash
pip install -r requirements.txt
```
依赖库说明:
- `beautifulsoup4` - 用于解析HTML结构
- `lxml` - 作为BeautifulSoup的解析器
- `markdownify` - 用于将HTML转换为Markdown
## 使用方法
### 基本用法
```bash
python parse_blog.py <html_file_path>
```
例如:
```bash
python parse_blog.py "(6 封私信 _ 14 条消息) 高质量Mesh体积光渲染 - 知乎.html"
```
### 输出结果
执行命令后,工具会在同一目录下生成同名的.md文件例如
- 输入:`(6 封私信 _ 14 条消息) 高质量Mesh体积光渲染 - 知乎.html`
- 输出:`(6 封私信 _ 14 条消息) 高质量Mesh体积光渲染 - 知乎.md`
## 支持的元素
- 标题h1-h6
- 段落p
- 图片img
- 代码块pre code
- 引用块blockquote
- 列表ul, ol
- 链接a
## 注意事项
1. 该工具仅支持解析知乎博客HTML文件其他网站的HTML可能无法正确解析
2. 为了获得最佳解析效果,建议使用浏览器的"保存页面为HTML"功能下载完整的HTML文件
3. 解析过程中可能会遇到一些特殊元素无法完全转换,此时会使用默认处理方式
## 故障排除
如果遇到解析失败的情况,可以尝试以下方法:
1. 确保HTML文件是完整的包含所有必要的结构
2. 检查是否已正确安装所有依赖库
3. 查看命令行输出的错误信息,根据提示进行修复
## 示例
### 输入输出示例
**输入**知乎HTML文件
**输出**
```markdown
# 高质量Mesh体积光渲染
SpotLight是Unity里面常用的灯光类型我们渲染它的时候按照生活常识来说需要渲染两个部分一个是照亮东西的效果如下图
![image](https://pic1.zhimg.com/v2-ff65743535c522dc74d58b87a6cc0d85_r.jpg)
另外一个当然就是舞台上经常看到的光柱效果,学名叫体积光,如下图所示:
![image](https://pic1.zhimg.com/v2-5cb0ae88a5fcdd32f26c703f83655089_r.jpg)
这篇文章就主要讲一下如何实现高质量的体积光效果。
```
## 许可证
本工具采用MIT许可证可自由使用和修改。