LLMjacking深度解析:AI基础设施劫持攻击正在爆发,Ollama与LM Studio成重灾区

卡巴斯基2026年最新报告显示,针对私有LLM服务器的「LLMjacking」攻击同比增长340%,攻击者通过劫持Ollama、LM Studio、AutoGPT等本地AI推理服务窃取算力,已有超过23%的扫描流量专门探测AI能力端点。这不是理论威胁——你的GPU可能正在为别人跑推理。
什么是LLMjacking:攻击模型与技术原理

LLMjacking是一种针对本地部署大语言模型基础设施的新型攻击向量。攻击者不窃取数据,而是劫持GPU算力——通过利用暴露在公网的AI推理服务端点,免费调用受害者的大模型进行推理计算。
卡巴斯基安全团队在2026年Q1的威胁分析报告中首次系统性描述了这一攻击模式。报告显示,在对全球互联网空间的主动扫描中,来自数千个唯一IP地址的流量中,有23%专门针对AI推理能力端点进行探测。攻击目标集中在四类服务:Ollama(默认端口11434)、LM Studio(默认端口1234)、AutoGPT和LangServe。
攻击链通常分为三个阶段:
[侦察] nmap/MASSCAN扫描 → 发现开放的11434/1234端口
↓
[验证] GET /api/tags → 枚举已加载模型列表
↓
[劫持] POST /api/generate → 直接发送推理请求,消耗GPU算力
与传统数据泄露不同,LLMjacking的隐蔽性极高。受害者通常在GPU账单飙升或服务响应变慢时才会察觉。卡巴斯基指出,部分攻击者甚至会限制并发请求数量以避免触发告警,形成「慢性吸血」模式。
受影响平台与版本分析

| 平台 | 默认端口 | 攻击面 | 风险等级 | 受影响版本 |
|---|---|---|---|---|
| Ollama | 11434 | API无认证默认暴露 | 🔴 Critical | 所有默认配置版本 |
| LM Studio | 1234 | 本地服务器模式 | 🟡 High | v0.2.x - v0.3.x |
| AutoGPT | 8000 | REST API暴露 | 🔴 Critical | v0.5+ |
| LangServe | 8080 | Playground端点 | 🟡 High | 所有版本 |
| vLLM | 8000 | OpenAI兼容API | 🟠 High | 所有版本 |
Ollama是目前被攻击最多的平台。其默认配置下,OLLAMA_HOST=127.0.0.1仅绑定本地回环地址——但大量用户在部署时改为0.0.0.0以实现远程访问,却未添加任何认证层。
攻击者动机:算力经济学驱动

LLMjacking的经济逻辑极其清晰。以NVIDIA A100为例:
单卡推理成本:约 $1.5-3.0/小时(云端租赁价格)
一个被劫持的4xA100服务器:每小时为攻击者节省 $6-12
按24/7运行计算:每月节省 $4,320 - $8,640
攻击者的实际用途包括:
- 批量内容生成:SEO垃圾文章、钓鱼邮件、虚假评论
- API转售:将劫持的算力以低于市场价转卖给第三方
- 密码破解辅助:利用LLM生成密码字典和社工话术
- 模型训练数据准备:使用受害者GPU进行数据标注和清洗
卡巴斯基预测,随着AI推理成本持续攀升,LLMjacking的攻击者数量将在2026年下半年进一步增长。
检测方法:如何发现你的LLM服务被劫持

网络层检测
# 检查Ollama端口是否对外暴露
nmap -sV -p 11434 your-server-ip
# 检查是否有异常外部连接
ss -tlnp | grep 11434
netstat -an | grep 11434 | grep ESTABLISHED
# 分析访问日志中的异常IP
# Ollama默认不记录详细日志,需要自行配置
cat /var/log/nginx/access.log | grep "/api/generate" | \
awk '{print $1}' | sort | uniq -c | sort -rn | head -20
资源层检测
# 监控GPU使用率异常
nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv -l 5
# 检查Ollama进程的资源消耗
ps aux | grep ollama
top -p $(pgrep ollama)
# 设置GPU使用率告警脚本
#!/bin/bash
THRESHOLD=80
while true; do
GPU_USE=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits | head -1)
if [ "$GPU_USE" -gt "$THRESHOLD" ]; then
echo "[ALERT] GPU usage at ${GPU_USE}% at $(date)" >> /var/log/gpu_alert.log
fi
sleep 60
done
应用层检测
# 测试Ollama是否无需认证即可访问
curl -s http://your-server:11434/api/tags | jq '.models[].name'
# 如果返回模型列表,说明存在LLMjacking风险
# 检查最近的推理请求(如果启用了日志)
curl -s http://your-server:11434/api/ps | jq '.models'
防御方案:从网络层到应用层的完整加固
第一层:网络隔离(必须)
# 方案1:绑定本地回环(最简单)
export OLLAMA_HOST=127.0.0.1
ollama serve
# 方案2:使用防火墙限制来源IP
ufw deny 11434/tcp
ufw allow from 192.168.1.0/24 to any port 11434
# 方案3:Nginx反向代理 + 基本认证
# /etc/nginx/conf.d/ollama-proxy.conf
server {
listen 443 ssl;
server_name llm.yourdomain.com;
ssl_certificate /etc/ssl/certs/llm.pem;
ssl_certificate_key /etc/ssl/private/llm.key;
auth_basic "LLM Access";
auth_basic_user_file /etc/nginx/.htpasswd;
location / {
proxy_pass http://127.0.0.1:11434;
proxy_set_header Host $host;
proxy_read_timeout 300s;
# 限制请求速率
limit_req zone=llm burst=5 nodelay;
}
}
第二层:API网关认证
# FastAPI中间件示例:为Ollama添加Token认证
from fastapi import FastAPI, HTTPException, Depends
from fastapi.security import HTTPBearer
import httpx
app = FastAPI()
security = HTTPBearer()
VALID_TOKENS = {"your-secret-token-here"}
async def verify_token(token = Depends(security)):
if token.credentials not in VALID_TOKENS:
raise HTTPException(status_code=403, detail="Invalid token")
return token.credentials
@app.post("/api/{path:path}")
async def proxy(path: str, token: str = Depends(verify_token)):
async with httpx.AsyncClient() as client:
resp = await client.post(
f"http://127.0.0.1:11434/api/{path}",
json=await request.json(),
timeout=300
)
return resp.json()
第三层:监控与告警
| 监控指标 | 告警阈值 | 响应动作 |
|---|---|---|
| GPU使用率持续>80%超过10分钟 | 异常推理负载 | 检查连接来源 |
| /api/generate 请求频率>50/分钟 | 扫描或自动化攻击 | 自动封禁IP |
| 非白名单IP访问推理端点 | 未授权访问 | 阻断连接 |
| 模型加载/卸载频繁 | 资源滥用 | 通知管理员 |
企业级防护架构
对于生产环境中的AI推理服务,推荐以下架构:
[互联网]
↓
[WAF/CDN] → 过滤恶意流量
↓
[API Gateway] → 认证 + 限流 + 日志
↓
[Service Mesh] → mTLS + 授权策略
↓
[LLM推理集群] → 内网隔离,无公网IP
↓
[GPU资源池] → 配额管理 + 用量监控
关键配置清单:
- ✅ LLM服务仅绑定内网IP
- ✅ API Gateway实施OAuth2.0或JWT认证
- ✅ 每用户Token设置推理配额上限
- ✅ 部署WAF规则拦截自动化扫描
- ✅ GPU使用率实时监控 + 告警
- ✅ 推理请求全量审计日志
- ✅ 定期端口扫描自检
行业影响与趋势预判
LLMjacking的出现标志着AI安全威胁从「模型层面」(对抗样本、提示注入)扩展到「基础设施层面」(算力劫持、资源滥用)。这对安全行业提出了几个新问题:
- 算力即资产:GPU算力需要像数据库一样被纳入资产管理和访问控制体系
- AI服务的零信任:本地部署不等于安全,零信任架构同样适用于AI推理服务
- 成本异常检测:FinOps团队需要将GPU成本异常纳入安全事件响应流程
- 供应链延伸:第三方AI插件和工具链可能成为攻击入口
根据Kaspersky的预测,2026年下半年LLMjacking攻击将出现两个新趋势:一是从单一算力劫持转向「算力+数据」双重窃取,二是攻击范围从云端API扩展到边缘设备(如NVIDIA Jetson、树莓派上运行的小模型)。
数据来源与参考文献
- Kaspersky. "LLMjacking: what these attacks are, and how to protect AI infrastructure." kaspersky.com/blog, 2026.
- Kaspersky Threat Intelligence. Analysis of attacks on Ollama, LM Studio, AutoGPT, and LangServe servers, 2026 Q1.
- Ollama Documentation. "FAQ - How to configure Ollama for remote access." github.com/ollama/ollama.
- NIST NVD. CVE database search for LLM infrastructure vulnerabilities, 2026.
- Gartner. "Top Cybersecurity Trends 2026." gartner.com, 2026.
更新时间: 2026-06-14
评论