关于IT基础

↩ zhcn 技术 DevOps 非公開: 异常检测：防止网络入侵指南

异常检测：防止网络入侵指南

数据是任何企业或组织的重要组成部分，只有在正确构建和有效管理时才有价值。

统计数据显示，当今95% 的企业发现难以管理和构建非结构化数据。

这就是数据挖掘发挥作用的地方。它是从大型非结构化数据集中发现、分析和提取有意义的模式和有价值的信息的过程。

企业使用软件来识别大量数据中的模式，更多地了解其客户和目标受众，并制定业务和营销策略以增加销售额并降低成本。

除了这个好处之外，欺诈和异常检测是数据挖掘最重要的用途。

在本文中，我们将讨论异常检测，并详细了解它如何帮助防止数据泄露和网络入侵，以确保数据安全。

什么是异常检测及其类型？

数据挖掘涉及查找相互关联的模式、相关性和趋势，并且是查找网络内异常或离群数据点的好方法。

在数据挖掘中，异常是指与数据集中其他数据点不同并且偏离数据集正常行为模式的数据点。

异常可以分为不同的类型和类别：

事件改变：指从以前的正常行为突然或系统性的改变。
异常值：在数据收集中非系统性出现的微小异常模式。这些可以进一步分为全局异常值、上下文异常值和集体异常值。
漂移：数据集中逐渐、无方向、长期的变化。

因此，异常检测是一种数据处理技术，对于检测欺诈交易、处理高度不平衡的案例研究以及检测疾病以构建稳健的数据科学模型非常有用。

例如，企业可能希望分析现金流，以发现未知银行账户的异常或重复交易，以检测欺诈并进行进一步调查。

异常检测的优点

用户行为的异常检测可以帮助加强安全系统并使其更加准确和准确。

分析和了解安全系统提供的各种信息，以识别网络中的威胁和潜在风险。

异常检测为企业带来的好处包括：

随着人工智能 (AI) 算法不断扫描您的数据是否存在异常行为，实时检测网络安全威胁和数据泄露。
这使得跟踪异常活动和模式比手动异常检测更快、更容易，从而减少了解决威胁所需的工作量和时间。
通过在操作错误（例如性能突然下降）发生之前识别它们，最大限度地降低操作风险。
如果没有异常检测系统，企业可能需要数周或数月的时间才能识别潜在威胁，因此快速检测异常有助于消除重大业务损失。

因此，对于存储大量客户和业务数据集的公司来说，异常检测是一项巨大的资产，可以帮助他们寻找增长机会并消除安全威胁和运营瓶颈。

异常检测技术

异常检测使用多个步骤和机器学习 (ML) 算法来监控数据和检测威胁。

主要的异常检测技术有：

#1.机器学习技术

机器学习技术使用机器学习算法来分析数据并检测异常。用于异常检测的不同类型的机器学习算法包括：

聚类算法
分类算法
深度学习算法

此外，用于异常和威胁检测的常用 ML 技术包括支持向量机 (SVM)、K 均值聚类和自动编码器。

#2.统计方法

统计方法使用统计模型来检测数据中的异常模式（例如特定机器性能的异常变化）并检测超出预期值范围的值。

常见的统计异常检测技术包括假设检验、IQR、Z 分数、修改的 Z 分数、密度估计、箱线图、极值分析和直方图。

#3.数据挖掘技术

数据挖掘技术使用数据分类和聚类技术来查找数据集中的异常情况。常见的数据挖掘异常技术包括谱聚类、基于密度的聚类和主成分分析。

聚类数据挖掘算法用于根据不同数据点的相似性将其分组为簇，以查找这些簇之外的数据点和异常情况。

另一方面，分类算法将数据点分配给某些预定义的类别，并检测不属于这些类别的数据点。

#4.基于规则的技术

顾名思义，基于规则的异常检测技术使用一组预定的规则来检测数据中的异常。

尽管这些技术相对容易配置，但它们可能不灵活，并且可能无法有效地适应不断变化的数据行为和模式。

例如，您可以轻松地编写一个基于规则的系统，将超过一定金额的交易标记为欺诈。

#5.特定领域技术

特定领域的技术可用于检测特定数据系统中的异常。然而，虽然它在检测特定域中的异常方面非常有效，但在指定域之外的其他域中效率可能较低。

例如，特定领域的技术可用于设计用于检测金融交易中的异常的技术。但是，它可能无法检测机器异常或性能下降。

异常检测需要机器学习

机器学习在异常检测中非常重要且非常有用。

如今，大多数需要异常值检测的企业和组织都需要处理大量数据，从文本、客户信息和交易到图像和视频内容等媒体文件。

手动筛选每秒生成的所有银行交易和数据以获取有意义的见解几乎是不可能的。此外，大多数企业在构建非结构化数据并以有意义的方式组织数据进行数据分析方面都面临着挑战和重大困难。

这就是机器学习 (ML) 等工具和技术在收集、清理、结构化、组织、分析和存储大量非结构化数据方面发挥重要作用的地方。

机器学习技术和算法处理大型数据集，并提供使用和组合不同技术和算法的灵活性，以获得最佳结果。

此外，机器学习还可以帮助简化实际应用程序的异常检测过程并节省宝贵的资源。

以下是机器学习在异常检测中的更多好处和重要性。

通过自动识别模式和异常，无需显式编程，就可以更轻松地检测缩放异常。
机器学习算法能够高度适应不断变化的数据集模式，使其随着时间的推移变得高效且稳健。
它可以轻松处理大型且复杂的数据集，即使数据集很复杂，也可以高效地进行异常检测。
在发生异常时识别可确保及早识别和检测异常，从而节省时间和资源。
与传统方法相比，基于机器学习的异常检测系统可以帮助实现更高水平的异常检测精度。

因此，将异常检测和机器学习相结合可以帮助更快、更早地检测异常，防止安全威胁和恶意破坏。

用于异常检测的机器学习算法

您可以使用各种用于分类、聚类和关联规则学习的数据挖掘算法来检测数据中的异常和离群值。

通常，这些数据挖掘算法分为两个不同的类别：监督学习算法和无监督学习算法。

监督学习

监督学习是一种常见的学习算法，由支持向量机、逻辑回归和线性回归以及多类分类等算法组成。该算法类型是根据标记数据进行训练的。也就是说，其训练数据集既包括常规输入数据，也包括用于构建预测模型的相应正确输出或异常示例。

因此，其目标是根据训练数据集模式对新的、未见过的数据进行输出预测。监督学习算法的应用包括图像和语音识别、预测建模和自然语言处理 (NLP)。

无监督学习

无监督学习没有接受过标记数据的训练。相反，它发现复杂的过程和底层数据结构，而不提供训练算法的指导或做出具体的预测。

无监督学习算法的应用包括异常检测、密度估计和数据压缩。

接下来，我们来看看一些常见的基于机器学习的异常检测算法。

局部离群因子 (LOF)

局部异常因子 (LOF) 是一种异常检测算法，它考虑局部数据密度来确定数据点是否异常。

将项目的局部密度与其邻居的局部密度进行比较，以分析密度相似的区域或密度相对低于其邻居的项目（仅是异常或异常值）。

因此，简单地说，异常值或异常项周围的密度与其相邻项周围的密度不同。因此，该算法也称为基于密度的异常值检测算法。

K 最近邻 (K-NN)

K-NN 是最简单的分类和监督异常检测算法，易于实现，存储所有可用的示例和数据，并根据距离度量的相似性对新示例进行分类。

这种分类算法也称为惰性学习器，因为它只存储带标签的训练数据，在训练过程中不执行任何其他操作。

当新的未标记训练数据点到达时，算法会检查 K 个最近邻居或最近训练数据点，并使用它们来分类并确定新的未标记数据点的类别。

K-NN算法使用以下检测方法来确定最接近的数据点。

欧氏距离，测量连续数据之间的距离。
汉明距离测量两个离散数据文本字符串的接近度或“接近度”。

例如，假设您的训练数据集由两个类标签 A 和 B 组成。当新的数据点到达时，算法计算新的数据点与数据集中每个数据点之间的距离并选择该点。这是最接近新数据点的最大数字。

因此，假设 K=3，并且 3 个数据点中有 2 个被标记为 A，则新数据点将被标记为 A 类。

因此，K-NN算法在数据更新需求频繁的动态环境中效果最好。

它是金融和商业中常见的异常检测和文本挖掘算法，用于检测欺诈交易并提高欺诈检测率。

支持向量机（SVM）

支持向量机是一种基于监督机器学习的异常检测算法，主要用于回归和分类问题。

使用多维超平面将数据分成两组：新组和常规组。因此，超平面充当将常规数据观察与新数据分开的决策边界。

资料来源： www.analyticsvidhya.com

这两个数据点之间的距离称为边距。

由于目标是增加两点之间的距离，SVM 确定具有最大边距的最佳超平面，使得两类之间的距离尽可能宽。

对于异常检测，SVM 计算裕度并对超平面中的新数据点观测结果进行分类。

如果裕度超过配置的阈值，则新观察结果将被归类为异常。同时，如果余量小于阈值，则观察结果被分类为正常。

因此，SVM算法在处理高维复杂数据集时非常高效。

孤立的森林

隔离森林是一种基于随机森林分类器概念的无监督机器学习异常检测算法。

该算法根据随机属性处理树结构数据集中的随机二次采样数据。构建多个决策树来分离观察结果。此外，如果根据污染率将特定观察结果隔离到较少的树木，则该观察结果将被视为异常。

所以，简单来说，隔离森林算法将数据点分割到不同的决策树中，确保每个观测值与其他观测值隔离。

异常通常远离数据点簇，因此与常规数据点相比更容易识别。

隔离森林算法可以轻松处理分类数据和数值数据。其结果是训练速度更快，检测高维大规模数据集中异常的效率更高。

四分位距

四分位数范围或 IQR测量统计变化或离散度，用于将数据集划分为四分位数并查找数据集中的异常值。

该算法按升序对数据进行排序，并将数据集分为四个相等的部分。分隔这些部分的值是 Q1、Q2 和 Q3（第一四分位数、第二四分位数和第三四分位数）。

这些四分位数的百分位数分布为：

Q1 表示数据的第 25 个百分位。
Q2 表示数据的第 50 个百分位。
Q3 表示数据的第 75 个百分位。

IQR 是第三个（第 75 个）百分位数据集与第一个（第 25 个）百分位数据集之间的差值，代表 50% 的数据。

要使用 IQR 进行异常检测，您需要计算数据集的 IQR 并定义用于检测异常的数据的下限和上限。

下限：Q1 – 1.5 * IQR
上限：Q3 + 1.5 * IQR

这些边界之外的观察结果通常被视为异常。

IQR 算法对于数据分布不均匀且分布不太容易理解的数据集非常有效。

最后一句话

未来几年网络安全风险和数据泄露不太可能得到遏制。这个危险的行业预计将在 2023 年进一步增长，仅物联网网络攻击预计到 2025 年就会增加一倍。

此外，预计到 2025 年，网络犯罪每年会给全球企业和组织造成 10.3 万亿美元的损失。

因此，对异常检测技术的需求变得越来越普遍，现在是欺诈检测和网络入侵预防所需要的。

本文将帮助您了解数据挖掘中的异常是什么、异常的不同类型以及如何使用基于机器学习的异常检测技术来防止网络入侵。

然后你就可以了解机器学习中混淆矩阵的所有内容。

DevOps