サイバーセキュリティ分野の機械学習の未来
機械学習 (ML) は現在ほぼすべての IT 分野でよく聞く言葉です。業績やプロセスの改善と予測 への活用を目的としたビッグデータ分析で多用されていますが、サイバーセキュリティなど他の用途でも大きな価値を証明しています。この記事では、サイバーセキュリティ分野で ML の重要性が大きく高まった理由と、この分野での応用に特有の課題をいくつか解説した上で、機械学習がもたらす未来をご紹介します。
サイバーセキュリティ分野で機械学習が不可欠になった理由
機械学習のニーズは複雑さに関係します。近年、多くの組織で所有する IoT ( モノのインターネット ) デバイスが増え続けていますが、そのすべてを IT 部門が把握・管理しているとは限りません。また、ハイブリッド クラウドとマルチクラウドがニュー ノーマルになったため、オンプレミス上で稼働していないデータやアプリケーションも存在します。さらに、リモート ワークが広く普及したことで、ユーザーが勤務時間の大部分をオフィスで過ごすことはなくなりました。
企業がシグネチャベースのマルウェア検出、ネットワーク トラフィック用の静的なファイアウォール ルール、セキュリティ ポリシーを定義するアクセス制御リスト (ACL) を普通に利用していたのは、そう昔の話ではありません。しかし、従来以上にデバイスと勤務場所が増えたことで、潜在的なセキュリティ リスクを検出するための旧来の手法は規模、範囲、複雑さに対応できなくなりました。
機械学習とは要するに、大量のデータから自動で学習するようにモデルを訓練する技術です。学習結果を基 にシステムがトレンドを見極めて異常を特定し、提案を行って最終的にアクションを実行します。組織が直 面する新たなセキュリティ課題をすべて解決するには、明らかに機械学習が必要です。サイバーセキュリティ 分野では、セキュリティ ソリューションのスケール アップ、未知の攻撃の検出、ポリモーフィック型マルウェ アなどの高度な攻撃の検出といった課題が増え続けています。こうした課題を解決できるのは機械学習だけです。高度なマルウェアは姿を変えて検出を回避する能力を持つため、従来のシグネチャベースのアプローチで検出するのは非常に困難です。ML はこうした攻撃に対する最善のソリューションになっています。
サイバーセキュリティ分野の機械学習の特徴
機械学習への理解は広まっており、さまざまな分野で広く導入されています。中でも特に知られているのが、認識用の画像処理と、人間の言葉や文章の意味の理解に役立つ自然言語処理 (NLP) です。
サイバーセキュリティ分野での機械学習の用途はいくつかの点で他分野と異なります。サイバーセキュリティ分野で機械学習 を利用する場合、特有の課題と要件が伴います。ここからは、サイバーセキュリティ分野での ML 利用に特有の 3 つの課題に加えて、一般的ではあるがサイバーセキュリティ分野で特に問題となる 3 つの課題を解説しましょう。
サイバーセキュリティ分野で機械学習を利用する際に特有の 3 つの課題
課題 1: 精度の要件が非常に厳しい。 たとえば、画像処理でシステムが犬と猫を間違えたとします。わずらわしいかもしれませんが、生死に関わる影響はまず生じません。しかし、機械学習システムが不正なデータ パケットを正規のデータ パケットと誤認し、病院や医療機器への攻撃が発生すると、分類ミスの影響は重大なものとなります。
また、組織では毎日大量のデータパケットがファイアウォールを通過します。機械学習で 0.1% のデータを 誤分類しただけでも、大量の正常なトラフィックを誤ってブロックすることになりかねず、事業に重大な影 響が生じるでしょう。初期の機械学習において、人間のセキュリティ リサーチャーと比べてモデルの精度 が劣ることを懸念する組織が存在したのも無理はありません。また、非常にスキルの高い人材と同等の精度まで実際に機械学習を訓練するには、時間に加えて膨大な量のデータが必要です。とはいえ、人間はスケリングできません。また、昨今の IT 業界で人材は最も希少な資源の 1 つです。サイバーセキュリティ ソリュションを効果的にスケール アップする目的で弊社は ML を利用しています。その上、ML は正常動作の基準を作成して基準から外れた異常をすべて検出できるため、人間には難しい未知の攻撃の検出にも有効です。
課題 2: 大量の訓練データ、特にラベル付きデータの入手。 機械学習ではモデルの作成と予測精度の向上に 大量のデータを必要とします。画像処理や NLP のデータ収集と比べると、マルウェア サンプルの収集はは るかに困難です。攻撃に関する十分なデータがない上、セキュリティ リスク データは機密情報でプライバシーの懸念から利用できないことが珍しくありません。
課題 3: グランド トゥルース ( 正解データ )。 画像分野とは異なり、セキュリティ分野ではグランド トゥルスが常に存在するとは限らず、固定とも限りません。サイバーセキュリティ環境は動的で常に変化します。いかなるマルウェア データベースも世界中のマルウェアを網羅しているとは言い切れず、新しいマルウェ アが常に生まれています。精度を判断する上で、何をグランド トゥルースとして比較対象にすべきなのでしょうか。
サイバーセキュリティ分野で特に問題となる ML の 3 つの課題
これ以外にも、どの分野の ML でも共有の課題だが、サイバーセキュリティ分野で特に問題となる課題が存在します。
課題 1: 機械学習モデルの説明可能性。 適切な行動に移れるかは、機械学習の結果を総合的に理解できるかどうかに左右されます。
課題 2: 人材不足。 いかなる分野でも ML を活用するにはドメイン知識と ML の専門知識を組み合わせる必要があります。ML とセキュリティどちらかの専門家でも不足しており、ML とセキュリティの両方に通じる人材はさらに希少です。この課題では、ML データ サイエンティストとセキュリティ リサーチャーの共通理解がなく、使用する手法、考え方、アプローチが異なるとしても、両者を確実に連携させることが欠かせないと考えます。互いに協力して働けるよう学ぶことが非常に重要です。2 つのグループの協力が、サイバーセキュリティ分野での ML の利用を成功させる鍵となります。
課題 3: ML 自体のセキュリティ。 各企業でサイバーセキュリティは重要な役割を果たしているため、サイバーセキュリティで使用する ML 自体の安全を確認することが輪をかけて重要です。学界ではこの分野の研究が行われています。また、弊社は ML モデルとデータのセキュリティに関する 業界の活動 を歓迎し貢献しています。パロアルトネットワークスはイノベーションを推進するとともに、弊社 ML のセキュリティを確保するためあらゆる措置を講じてまいります。
機械学習の目的は、労力の削減と未知の攻撃への対策に貢献するため、より効率的でスケーラブルなセキュリティを実現することです。数十億台のデバイスに合わせて手作業でスケール アップすることは困難ですが、機械学習なら簡単に実現できます。これこそがエスカレートする脅威環境の中で自社を守るために組織が求めるスケーリングのあり方です。また、多くの重要インフラで ML は未知の攻撃の検出にも欠かせません。生死に関わる可能性があるため、1 件の攻撃も許容できないためです。
機械学習が実現するサイバーセキュリティの未来とは
機械学習はさまざまな形で現代のサイバーセキュリティ ソリューションを支えています。各ソリューションは単体でも役に立ちますが、組み合わせることで、動的な脅威環境で強固なセキュリティ体制を維持する革新的なソリューションになります。
特定とプロファイリング : 企業ネットワークには新しいデバイスが絶え間なく接続されるため、そのすべてを IT 組織が把握するのは簡単ではありません。機械学習はネットワーク上のデバイスの特定とプロファイリングに使用できます。また、プロファイルを利用して特定のデバイスのさまざまな特徴や動作を判断できます。
異常の自動検出 : 機械学習を利用した既知の異常動作の迅速な特定は、セキュリティ分野の優れた応用事例です。最初にデバイスのプロファイリングを実施して正常な動作を把握すれば、機械学習で正常な動作と異常な動作を見分けられます。
ゼロデイ検出 : 従来のセキュリティで、ある活動が不正な活動かどうかを見分けるには、その活動を少なくとも 1 度は確認している必要がありました。これが、従来のシグネチャに基づくマルウェア検出の仕組みです。機械学習は前例のない未知の形態のマルウェアと攻撃を識別できるため、起こりうるゼロデイ攻撃から組織を保護する上で有効です。
大規模な知見 : データとアプリケーションがさまざまな場所に存在するため、大量のデバイスから傾向を見つけ出すのは人間の力では不可能です。人間には不可能でも機械学習なら可能であり、大規模な知見を得るための自動化を実現できます。
ポリシーの推奨 : 手作業に関する課題は尽きませんが、セキュリティ ポリシーの作成プロセスではしばしば大量の手作業が必要になります。機械学習を使用すると、存在するデバイスやその正常動作を把握し、ファイアウォールなどのセキュリティ デバイスにポリシーを推奨できます。さまざまなデバイスとネットワーク セグメントの競合するアクセス制御リストを手動で確認して回る必要がなくなり、自動化アプローチに適合した専用のポリシーを機械学習で推奨できるのです。
新たなデバイスと脅威が毎日オンライン上に出現している上、人材のセキュリティ リソースは不足しています。このような環境で複雑な状況とシナリオを大規模に整理し、現在と将来のサイバーセキュリティの課題への対処能力を獲得するには、機械学習が唯一の解決策です。