データはビジネスや組織にとって不可欠な要素であり、適切に構造化され効率的に管理されて初めて価値を発揮します。
統計によると、今日の 企業の 95% が 非構造化データの管理と構造化に問題があると感じています。
ここでデータ マイニングが登場します。これは、大規模な非構造化データ セットから意味のあるパターンと貴重な情報を発見、分析、抽出するプロセスです。
企業は、ソフトウェアを使用して大規模なデータ バッチのパターンを特定し、顧客とターゲット ユーザーについてさらに詳しく知り、売上を向上させコストを削減するためのビジネス戦略とマーケティング戦略を開発します。
この利点に加えて、不正行為と異常の検出はデータ マイニングの最も重要な用途です。
この記事では、異常検出について説明し、それがデータ侵害やネットワーク侵入を防止してデータ セキュリティを確保するのにどのように役立つかについてさらに詳しく説明します。
異常検出とその種類とは何ですか?
データ マイニングには、相互にリンクするパターン、相関関係、傾向を見つけることが含まれますが、ネットワーク内の異常または外れ値のデータ ポイントを見つけるには優れた方法です。
データ マイニングにおける異常とは、データセット内の他のデータ ポイントとは異なり、データセットの通常の動作パターンから逸脱しているデータ ポイントのことです。
異常は、次のような明確なタイプとカテゴリに分類できます。
- イベントの変化: 以前の通常の動作からの突然の、または体系的な変化を指します。
- 外れ値: データ収集において非体系的に現れる小さな異常なパターン。これらは、グローバル、コンテキスト、および集合的な外れ値にさらに分類できます。
- ドリフト: データセットにおける段階的で方向性のない長期的な変化。
したがって、異常検出は、不正取引の検出、高度な不均衡を伴うケーススタディの処理、および堅牢なデータ サイエンス モデルを構築するための病気の検出に非常に役立つデータ処理技術です。
たとえば、企業はキャッシュ フローを分析して、不正行為を検出し、さらなる調査を行うために、不明な銀行口座への異常な取引や繰り返し発生する取引を見つけたい場合があります。

異常検出の利点
ユーザーの行動の異常検出は、セキュリティ システムを強化し、より正確かつ正確にするのに役立ちます。
セキュリティ システムが提供するさまざまな情報を分析して理解して、ネットワーク内の脅威と潜在的なリスクを特定します。
企業にとっての異常検出の利点は次のとおりです。
- 人工知能 (AI) アルゴリズムが常にデータをスキャンして異常な動作を検出するため 、サイバーセキュリティの脅威とデータ侵害をリアルタイムに検出します 。
- これにより、 異常なアクティビティとパターンの追跡が手動による異常検出よりも迅速 かつ簡単になり、脅威の解決に必要な労力と時間が削減されます。
- 突然のパフォーマンスの低下などの運用エラーを発生前に特定することで、 運用リスクを最小限に抑えます 。
- 異常検出システムがなければ、企業は潜在的な脅威を特定するのに数週間から数か月かかる可能性があるため、異常を迅速に検出することで 重大なビジネス被害を排除するのに役立ちます 。
したがって、異常検出は、広範な顧客およびビジネス データ セットを保存している企業にとって、成長の機会を見つけ、セキュリティの脅威や運用上のボトルネックを排除するための大きな資産となります。
異常検出の技術
異常検出では、いくつかの手順と機械学習 (ML) アルゴリズムを使用してデータを監視し、脅威を検出します。
主な異常検出手法は次のとおりです。
#1. 機械学習テクニック
機械学習技術では、ML アルゴリズムを使用してデータを分析し、異常を検出します。異常検出のためのさまざまなタイプの機械学習アルゴリズムには次のものがあります。
- クラスタリングアルゴリズム
- 分類アルゴリズム
- 深層学習アルゴリズム
また、異常や脅威の検出に一般的に使用される ML 技術には、サポート ベクター マシン (SVM)、K 平均法クラスタリング、オートエンコーダーなどがあります。
#2. 統計的手法
統計手法では、統計モデルを使用してデータ内の異常なパターン (特定のマシンのパフォーマンスの異常な変動など) を検出し、期待値の範囲を超える値を検出します。
一般的な統計的異常検出手法には、仮説検定、IQR、Z スコア、修正 Z スコア、密度推定、箱ひげ図、極値分析、およびヒストグラムが含まれます。
#3. データマイニング技術

データ マイニング技術では、データ分類およびクラスタリング技術を使用して、データ セット内の異常を見つけます。一般的なデータ マイニング異常手法には、スペクトル クラスタリング、密度ベースのクラスタリング、主成分分析などがあります。
クラスタリング データ マイニング アルゴリズムは、これらのクラスターの外にあるデータ ポイントと異常を見つけるための類似性に基づいて、さまざまなデータ ポイントをクラスターにグループ化するために使用されます。
一方、分類アルゴリズムは、データ ポイントを特定の事前定義クラスに割り当て、これらのクラスに属さないデータ ポイントを検出します。
#4. ルールベースのテクニック
名前が示すように、ルールベースの異常検出技術は、事前に決定された一連のルールを使用してデータ内の異常を検出します。
これらの手法は比較的簡単に設定できますが、柔軟性に欠ける可能性があり、変化するデータの動作やパターンに適応するには効率的ではない可能性があります。
たとえば、特定の金額を超える取引に不正行為としてフラグを立てるルールベースのシステムを簡単にプログラムできます。
#5. ドメイン固有のテクニック
ドメイン固有の手法を使用して、特定のデータ システムの異常を検出できます。ただし、特定のドメインの異常を検出する場合には非常に効率的ですが、指定されたドメイン以外の他のドメインでは効率が低下する可能性があります。
たとえば、ドメイン固有の手法を使用すると、金融取引の異常を検出するための手法を設計できます。ただし、マシンの異常やパフォーマンスの低下を検出するには機能しない場合があります。
異常検出のための機械学習の必要性
機械学習は異常検出において非常に重要であり、非常に役立ちます。
現在、外れ値の検出を必要とするほとんどの企業や組織は、テキスト、顧客情報、トランザクションから画像やビデオ コンテンツなどのメディア ファイルに至るまで、膨大な量のデータを扱っています。
すべての銀行取引と秒ごとに生成されるデータをすべて手動で調べて、有意義な洞察を得るのは不可能に近いです。さらに、ほとんどの企業は、非構造化データを構造化し、データ分析に意味のある方法でデータを整理する際に課題や大きな困難に直面しています。
ここで、機械学習 (ML) などのツールやテクニックが、大量の非構造化データの収集、クリーニング、構造化、整理、分析、保存において大きな役割を果たします。
機械学習の技術とアルゴリズムは大規模なデータセットを処理し、さまざまな技術とアルゴリズムを使用および組み合わせて最良の結果を得る柔軟性を提供します。
さらに、機械学習は、現実世界のアプリケーションの異常検出プロセスを合理化し、貴重なリソースを節約するのにも役立ちます。
異常検出における機械学習の利点と重要性をさらにいくつか示します。
- 明示的なプログラミングを必要とせずにパターンと異常の識別を自動化することで 、スケーリング異常の検出が容易になります 。
- 機械学習アルゴリズムは、変化するデータ セット パターンに 高度に適応できる ため、時間の経過とともに非常に効率的で堅牢になります。
- 大規模で複雑なデータセットを簡単に処理できるため、 データセットが複雑であっても異常検出が効率的になります。
- 異常が発生したときに異常を特定することで、異常の早期特定と検出を確実にし 、時間とリソースを節約します。
- 機械学習ベースの異常検出システムは、従来の方法と比較して 、より高いレベルの異常検出の精度を 達成するのに役立ちます。
したがって、異常検出と機械学習を組み合わせることで、異常をより迅速かつ早期に検出し、セキュリティの脅威や悪意のある侵害を防ぐことができます。
異常検出のための機械学習アルゴリズム
分類、クラスタリング、相関ルール学習のためのさまざまなデータ マイニング アルゴリズムを利用して、データ内の異常値や外れ値を検出できます。
通常、これらのデータ マイニング アルゴリズムは 、教師あり学習アルゴリズムと教師なし学習アルゴリズムという 2 つの異なるカテゴリに分類されます。
教師あり学習
教師あり学習は、サポート ベクター マシン、ロジスティック回帰および線形回帰、マルチクラス分類などのアルゴリズムで構成される一般的なタイプの学習アルゴリズムです。このアルゴリズム タイプは、ラベル付きデータでトレーニングされます。つまり、そのトレーニング データ セットには、予測モデルを構築するための通常の入力データと、対応する正しい出力または異常な例の両方が含まれます。
したがって、その目標は、トレーニング データ セット パターンに基づいて、まだ見たことのない新しいデータの出力予測を行うことです。教師あり学習アルゴリズムのアプリケーションには、画像および音声認識、予測モデリング、自然言語処理 (NLP) などがあります。
教師なし学習
教師なし学習 ラベル付きデータでトレーニングされていません。代わりに、トレーニング アルゴリズムのガイダンスを提供せず、特定の予測を行うことなく、複雑なプロセスと基礎となるデータ構造を発見します。
教師なし学習アルゴリズムのアプリケーションには、異常検出、密度推定、データ圧縮などがあります。
次に、一般的な機械学習ベースの異常検出アルゴリズムをいくつか見てみましょう。
ローカル外れ値係数 (LOF)
Local Outlier Factor (LOF) は、局所的なデータ密度を考慮してデータ ポイントが異常かどうかを判断する異常検出アルゴリズムです。

アイテムの局所密度をその近隣アイテムの局所密度と比較して、同様の密度のエリアや、近隣アイテムより比較的密度が低いアイテム (異常または外れ値にすぎません) を分析します。
したがって、簡単に言えば、外れ値または異常なアイテムの周囲の密度は、その近隣のアイテムの周囲の密度とは異なります。したがって、このアルゴリズムは密度ベースの外れ値検出アルゴリズムとも呼ばれます。
K 最近傍 (K-NN)
K-NN は、実装が簡単な最も単純な分類および教師付き異常検出アルゴリズムであり、利用可能なすべての例とデータを保存し、距離メトリックの類似性に基づいて新しい例を分類します。

この分類アルゴリズムは、ラベル付けされたトレーニング データのみを保存し、トレーニング プロセス中に他には何も行わないため 、遅延学習器 とも呼ばれます。
新しいラベルなしトレーニング データ ポイントが到着すると、アルゴリズムは K 近傍または最近接トレーニング データ ポイントを調べて、それらを使用して新しいラベルなしデータ ポイントのクラスを分類および決定します。
K-NN アルゴリズムは、次の検出方法を使用して最も近いデータ ポイントを決定します。
- 連続データの距離を測定する ユークリッド距離 。
- ハミング距離は、 離散データの 2 つのテキスト文字列の近接性または「近さ」を測定します。
たとえば、トレーニング データ セットが 2 つのクラス ラベル A と B で構成されているとします。新しいデータ ポイントが到着すると、アルゴリズムは新しいデータ ポイントとデータ セット内の各データ ポイントの間の距離を計算し、ポイントを選択します。これは、新しいデータ ポイントに最も近い最大数です。
したがって、K=3 で、3 つのデータ ポイントのうち 2 つが A としてラベル付けされていると仮定すると、新しいデータ ポイントはクラス A としてラベル付けされます。
したがって、K-NN アルゴリズムは、頻繁なデータ更新要件がある動的環境で最もよく機能します。
これは、金融や企業で不正取引を検出し、不正検出率を高めるために応用されている、一般的な異常検出およびテキスト マイニング アルゴリズムです。
サポート ベクター マシン (SVM)
サポート ベクター マシンは、主に回帰問題や分類問題で使用される教師あり機械学習ベースの異常検出アルゴリズムです。
多次元超平面 を使用して、データを 2 つのグループ (新しいグループと通常のグループ) に分離します。したがって、超平面は、通常のデータ観測と新しいデータを分離する決定境界として機能します。
これら 2 つのデータ ポイント間の距離は マージンと呼ばれます。
目標は 2 点間の距離を広げることであるため、SVM は 2 つのクラス間の距離ができるだけ広くなるように 、最大のマージンを持つ最適な超平面 を決定します。
異常検出に関しては、SVM は超平面からの新しいデータ ポイント観測のマージンを計算して分類します。
マージンが設定されたしきい値を超える場合、新しい観測値は異常として分類されます。同時に、マージンがしきい値より小さい場合、観察は正常として分類されます。
したがって、SVM アルゴリズムは、高次元で複雑なデータ セットを処理する際に非常に効率的です。
孤立の森
Isolation Forest は、 ランダム フォレスト分類器の概念に基づいた教師なし機械学習の異常検出アルゴリズムです。
このアルゴリズムは、ランダムな属性に基づいて、データ セット内のランダムにサブサンプリングされたデータをツリー構造で処理します。観察を分離するためにいくつかの決定木を構築します。また、汚染率に基づいて特定の観測値がより少ない数の木に隔離されている場合、その観測値は異常であると見なされます。
したがって、簡単に言えば、分離フォレスト アルゴリズムは データ ポイントを異なる決定木に分割し 、各観測値が他の観測値から確実に分離されるようにします。
通常、異常はデータ ポイント クラスターから離れた場所に存在するため、通常のデータ ポイントと比べて異常を特定しやすくなります。
分離フォレスト アルゴリズムは、カテゴリ データと数値データを簡単に処理できます。その結果、トレーニングがより速くなり、高次元で大規模なデータセットの異常を検出する際に非常に効率的になります。
四分位範囲
四分位範囲または IQR は 、統計的変動または統計的分散を測定し、 データセット を四分位に分割してデータセット内の異常点を見つけるために使用されます。
このアルゴリズムはデータを昇順に並べ替え、セットを 4 つの等しい部分に分割します。これらの部分を区切る値は、Q1、Q2、および Q3 (第 1 四分位、第 2 四分位、および第 3 四分位) です。
これらの四分位数のパーセンタイル分布は次のとおりです。
- Q1 はデータの 25 パーセンタイルを意味します。
- Q2 はデータの 50 パーセンタイルを意味します。
- Q3 はデータの 75 パーセンタイルを意味します。
IQR は、3 番目 (75 番目) のパーセンタイル データセットと最初 (25 番目) のパーセンタイル データセットの差であり、データの 50% を表します。
異常検出に IQR を使用するには、データセットの IQR を計算し、異常を検出するためのデータの下限と上限を定義する必要があります。
- 下限: Q1 – 1.5 * IQR
- 上限: Q3 + 1.5 * IQR
通常、これらの境界外にある観測値は異常とみなされます。
IQR アルゴリズムは、データが不均一に分散しており、分布がよく理解されていないデータセットに効果的です。
最後の言葉
サイバーセキュリティのリスクとデータ侵害は、今後数年間は抑制されそうにありません。そして、この危険な業界は 2023 年にさらに成長すると予想されており、IoT サイバー攻撃だけでも 2025 年までに倍増する と予想されています。
さらに、サイバー犯罪は、 2025 年までに世界の企業や組織に年間 10 兆 3000 億ドル の損害を与えると推定されます。
このため、異常検出技術の必要性がますます普及しており、今日では不正検出とネットワーク侵入の防止に必要となっています。
この記事は、データ マイニングにおける異常とは何か、さまざまな種類の異常、および ML ベースの異常検出技術を使用してネットワーク侵入を防ぐ方法を理解するのに役立ちます。
次に、機械学習の混同行列についてすべてを調べることができます。