CyberSecQwen-4B: 4Bパラメータで実現する特化型サイバーセキュリティモデル

Hugging Faceから新しいサイバーセキュリティ特化型の小規模言語モデル「CyberSecQwen-4B」がリリースされた。このモデルは防御的サイバーセキュリティ業務に特化し、わずか4Bパラメータで8Bの汎用モデルを上回る性能を実現している。

従来のフロンティアモデルは多様なタスクに対応できるが、APIコストが高く、すべてのプロンプトが外部データセンターに送信される。さらに、インシデント報告書や攻撃者レベルのペイロード、脆弱性開示ドラフトなど、実際の防御業務で扱う複雑なエッジケースを拒否するよう訓練されている。

特化型モデルの性能優位性

CyberSecQwen-4Bは、CTI-Benchでの評価において、Cisco の Foundation-Sec-Instruct-8B モデルと比較して優れた結果を示している。CTI-MCQ(2,500項目)では 0.5868 ± 0.0029 のスコアを記録し、8Bモデルの0.4996を +8.7ポイント 上回った。

CTI-RCM(1,000 CVE→CWE項目)では 0.6664 ± 0.0023 を記録し、8Bモデルの0.6850に対して97.3%の精度を維持している。パラメータ数が半分でありながら、この性能差はわずか1.9ポイントに留まっている。

この結果は、狭い領域に特化した4Bモデルが、汎用的な8Bモデルに匹敵する性能を発揮できることを実証している。(出典: CyberSecQwen-4B: Why Defensive Cyber Needs Small, Specialized, Locally-Runnable Models

AMD MI300Xでの単一GPU訓練

CyberSecQwen-4Bの訓練パイプライン全体は、AMD Instinct MI300X 192GB インスタンス1台で完結している。192GB HBM3メモリとROCm 7のvLLMスタックの組み合わせにより、量子化トリック、勾配チェックポイント、モデル分割などの複雑な最適化手法を使わずに済んでいる。

AMD Developer Cloud経由で提供されるこの環境では、訓練からアダプター統合、評価まで、すべての工程を単一のGPUインスタンスで実行できる。これにより、複数GPUクラスターの管理や分散訓練の複雑さを回避しながら、効率的な開発が可能になっている。

実用的な導入要件

CyberSecQwen-4Bは12GB消費者向けGPUカードで動作するよう設計されている。70B汎用モデルを4GPU構成でローカル実行する場合、「ローカル」ではあるが実際の導入は困難である。一方、4B汎用モデルを単一消費者向けGPUで実行する場合、導入は容易だが、実際に必要な作業において8B特化モデルに劣る性能しか発揮できない。

CyberSecQwen-4Bは、CWE分類、CVE-to-CWEマッピング、構造化CTI Q&Aなど、狭い範囲の脅威インテリジェンス業務において、慎重に調整された4B特化モデルが8B特化モデルに匹敵または上回る性能を発揮できることを証明している。(出典: CyberSecQwen-4B: Why Defensive Cyber Needs Small, Specialized, Locally-Runnable Models

まとめ

  • CyberSecQwen-4BをHugging Faceからダウンロードし、12GB GPU環境でローカル実行することで、外部APIコストなしにCTI分析業務を自動化できる
  • AMD MI300X環境を使用して独自の特化型4Bモデルを訓練すれば、特定ドメインにおいて大規模汎用モデルを上回る性能を実現できる
  • CTI-Benchの評価プロトコルを採用することで、自社のサイバーセキュリティモデルの性能を客観的に測定し、既存ソリューションとの比較検証が可能になる
  • ROCm 7のvLLMスタックを活用すれば、複雑な分散訓練設定なしに単一GPU上で効率的なモデル開発を実現できる