LLMjacking深度解析：AI基础设施劫持攻击正在爆发，Ollama与LM Studio成重灾区

Q: 什么是LLMjacking：攻击模型与技术原理

>什么是LLMjacking：攻击模型与技术原理 LLMjacking是一种针对本地部署大语言模型基础设施的新型攻击向量。攻击者不窃取数据，而是劫持GPU算力——通过利用暴露在公网的AI推理服务端点，免费调用受害者的大模型进行推理计算。 卡巴斯基安全团队在2026年Q1的威胁分析报告中首次系统性描述了这一攻击模式。报告显示，在对全球互联网空间的主动扫描中，来自数千个唯一IP地址的流量中，有23%专门针对AI推理能力端点进行探测。攻击目标集中在四类服务：Ollama（默认端口11434）、LM Studio（默认端口1234）、AutoGPT和LangServe。 攻击链通常分为三个阶段： [侦

hero

卡巴斯基2026年最新报告显示，针对私有LLM服务器的「LLMjacking」攻击同比增长340%，攻击者通过劫持Ollama、LM Studio、AutoGPT等本地AI推理服务窃取算力，已有超过23%的扫描流量专门探测AI能力端点。这不是理论威胁——你的GPU可能正在为别人跑推理。

什么是LLMjacking：攻击模型与技术原理

section

LLMjacking是一种针对本地部署大语言模型基础设施的新型攻击向量。攻击者不窃取数据，而是劫持GPU算力——通过利用暴露在公网的AI推理服务端点，免费调用受害者的大模型进行推理计算。

卡巴斯基安全团队在2026年Q1的威胁分析报告中首次系统性描述了这一攻击模式。报告显示，在对全球互联网空间的主动扫描中，来自数千个唯一IP地址的流量中，有23%专门针对AI推理能力端点进行探测。攻击目标集中在四类服务：Ollama（默认端口11434）、LM Studio（默认端口1234）、AutoGPT和LangServe。

攻击链通常分为三个阶段：

[侦察] nmap/MASSCAN扫描 → 发现开放的11434/1234端口
    ↓
[验证] GET /api/tags → 枚举已加载模型列表
    ↓
[劫持] POST /api/generate → 直接发送推理请求，消耗GPU算力

与传统数据泄露不同，LLMjacking的隐蔽性极高。受害者通常在GPU账单飙升或服务响应变慢时才会察觉。卡巴斯基指出，部分攻击者甚至会限制并发请求数量以避免触发告警，形成「慢性吸血」模式。

受影响平台与版本分析

section

平台	默认端口	攻击面	风险等级	受影响版本
Ollama	11434	API无认证默认暴露	🔴 Critical	所有默认配置版本
LM Studio	1234	本地服务器模式	🟡 High	v0.2.x - v0.3.x
AutoGPT	8000	REST API暴露	🔴 Critical	v0.5+
LangServe	8080	Playground端点	🟡 High	所有版本
vLLM	8000	OpenAI兼容API	🟠 High	所有版本

Ollama是目前被攻击最多的平台。其默认配置下，OLLAMA_HOST=127.0.0.1仅绑定本地回环地址——但大量用户在部署时改为0.0.0.0以实现远程访问，却未添加任何认证层。

攻击者动机：算力经济学驱动

section

LLMjacking的经济逻辑极其清晰。以NVIDIA A100为例：

单卡推理成本：约 $1.5-3.0/小时（云端租赁价格）
一个被劫持的4xA100服务器：每小时为攻击者节省 $6-12
按24/7运行计算：每月节省 $4,320 - $8,640

攻击者的实际用途包括：

批量内容生成：SEO垃圾文章、钓鱼邮件、虚假评论
API转售：将劫持的算力以低于市场价转卖给第三方
密码破解辅助：利用LLM生成密码字典和社工话术
模型训练数据准备：使用受害者GPU进行数据标注和清洗

卡巴斯基预测，随着AI推理成本持续攀升，LLMjacking的攻击者数量将在2026年下半年进一步增长。

检测方法：如何发现你的LLM服务被劫持

section

网络层检测

# 检查Ollama端口是否对外暴露
nmap -sV -p 11434 your-server-ip

# 检查是否有异常外部连接
ss -tlnp | grep 11434
netstat -an | grep 11434 | grep ESTABLISHED

# 分析访问日志中的异常IP
# Ollama默认不记录详细日志，需要自行配置
cat /var/log/nginx/access.log | grep "/api/generate" | \
  awk '{print $1}' | sort | uniq -c | sort -rn | head -20

资源层检测

# 监控GPU使用率异常
nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv -l 5

# 检查Ollama进程的资源消耗
ps aux | grep ollama
top -p $(pgrep ollama)

# 设置GPU使用率告警脚本
#!/bin/bash
THRESHOLD=80
while true; do
    GPU_USE=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits | head -1)
    if [ "$GPU_USE" -gt "$THRESHOLD" ]; then
        echo "[ALERT] GPU usage at ${GPU_USE}% at $(date)" >> /var/log/gpu_alert.log
    fi
    sleep 60
done

应用层检测

# 测试Ollama是否无需认证即可访问
curl -s http://your-server:11434/api/tags | jq '.models[].name'

# 如果返回模型列表，说明存在LLMjacking风险
# 检查最近的推理请求（如果启用了日志）
curl -s http://your-server:11434/api/ps | jq '.models'

防御方案：从网络层到应用层的完整加固

第一层：网络隔离（必须）

# 方案1：绑定本地回环（最简单）
export OLLAMA_HOST=127.0.0.1
ollama serve

# 方案2：使用防火墙限制来源IP
ufw deny 11434/tcp
ufw allow from 192.168.1.0/24 to any port 11434

# 方案3：Nginx反向代理 + 基本认证
# /etc/nginx/conf.d/ollama-proxy.conf

server {
    listen 443 ssl;
    server_name llm.yourdomain.com;

    ssl_certificate /etc/ssl/certs/llm.pem;
    ssl_certificate_key /etc/ssl/private/llm.key;

    auth_basic "LLM Access";
    auth_basic_user_file /etc/nginx/.htpasswd;

    location / {
        proxy_pass http://127.0.0.1:11434;
        proxy_set_header Host $host;
        proxy_read_timeout 300s;

        # 限制请求速率
        limit_req zone=llm burst=5 nodelay;
    }
}

第二层：API网关认证

# FastAPI中间件示例：为Ollama添加Token认证
from fastapi import FastAPI, HTTPException, Depends
from fastapi.security import HTTPBearer
import httpx

app = FastAPI()
security = HTTPBearer()
VALID_TOKENS = {"your-secret-token-here"}

async def verify_token(token = Depends(security)):
    if token.credentials not in VALID_TOKENS:
        raise HTTPException(status_code=403, detail="Invalid token")
    return token.credentials

@app.post("/api/{path:path}")
async def proxy(path: str, token: str = Depends(verify_token)):
    async with httpx.AsyncClient() as client:
        resp = await client.post(
            f"http://127.0.0.1:11434/api/{path}",
            json=await request.json(),
            timeout=300
        )
        return resp.json()

第三层：监控与告警

监控指标	告警阈值	响应动作
GPU使用率持续>80%超过10分钟	异常推理负载	检查连接来源
/api/generate 请求频率>50/分钟	扫描或自动化攻击	自动封禁IP
非白名单IP访问推理端点	未授权访问	阻断连接
模型加载/卸载频繁	资源滥用	通知管理员

企业级防护架构

对于生产环境中的AI推理服务，推荐以下架构：

[互联网]
    ↓
[WAF/CDN] → 过滤恶意流量
    ↓
[API Gateway] → 认证 + 限流 + 日志
    ↓
[Service Mesh] → mTLS + 授权策略
    ↓
[LLM推理集群] → 内网隔离，无公网IP
    ↓
[GPU资源池] → 配额管理 + 用量监控

关键配置清单：

✅ LLM服务仅绑定内网IP
✅ API Gateway实施OAuth2.0或JWT认证
✅ 每用户Token设置推理配额上限
✅ 部署WAF规则拦截自动化扫描
✅ GPU使用率实时监控 + 告警
✅ 推理请求全量审计日志
✅ 定期端口扫描自检

行业影响与趋势预判

LLMjacking的出现标志着AI安全威胁从「模型层面」（对抗样本、提示注入）扩展到「基础设施层面」（算力劫持、资源滥用）。这对安全行业提出了几个新问题：

算力即资产：GPU算力需要像数据库一样被纳入资产管理和访问控制体系
AI服务的零信任：本地部署不等于安全，零信任架构同样适用于AI推理服务
成本异常检测：FinOps团队需要将GPU成本异常纳入安全事件响应流程
供应链延伸：第三方AI插件和工具链可能成为攻击入口

根据Kaspersky的预测，2026年下半年LLMjacking攻击将出现两个新趋势：一是从单一算力劫持转向「算力+数据」双重窃取，二是攻击范围从云端API扩展到边缘设备（如NVIDIA Jetson、树莓派上运行的小模型）。

数据来源与参考文献

Kaspersky. "LLMjacking: what these attacks are, and how to protect AI infrastructure." kaspersky.com/blog, 2026.
Kaspersky Threat Intelligence. Analysis of attacks on Ollama, LM Studio, AutoGPT, and LangServe servers, 2026 Q1.
Ollama Documentation. "FAQ - How to configure Ollama for remote access." github.com/ollama/ollama.
NIST NVD. CVE database search for LLM infrastructure vulnerabilities, 2026.
Gartner. "Top Cybersecurity Trends 2026." gartner.com, 2026.

更新时间: 2026-06-14

LLMjacking深度解析：AI基础设施劫持攻击正在爆发，Ollama与LM Studio成重灾区

什么是LLMjacking：攻击模型与技术原理

受影响平台与版本分析

攻击者动机：算力经济学驱动

检测方法：如何发现你的LLM服务被劫持

网络层检测

资源层检测

应用层检测

防御方案：从网络层到应用层的完整加固

第一层：网络隔离（必须）

第二层：API网关认证

第三层：监控与告警

企业级防护架构

行业影响与趋势预判

数据来源与参考文献

常见问题

评论

相关推荐

CVE-2026-35273与CVE-2026-50751：CISA紧急预警——Oracle/Check Point两大漏洞已被勒索软件利用

CVE-2026-5820：WordPress插件存储型XSS漏洞深度解析——一篇文章就能拿下管理员会话

CVE-2026-32696：NanoMQ MQTT Broker空指针解引用漏洞深度解析

CVE-2026-8421：Concrete CMS CSRF到RCE漏洞深度解析

CVE-2026-23010：Linux内核IPv6 use-after-free漏洞深度解析与修复指南