所有文章 > 技术杂货铺 > 大数据安全的十大要点
大数据安全的十大要点

大数据安全的十大要点

在当今数据驱动的世界中,技术娴熟的开发人员因其能够构建满足组织大数据需求的应用程序的能力而备受追捧。大数据的规模、复杂性和多样性需要专门的应用程序和专用硬件来处理和分析这些信息,以发现原本无法获得的有用业务见解。 

但是,根据对 2021 年数据泄露事件的分析,共有50 亿条记录被泄露,对于参与大数据管道工作的每个人(从开发人员到 DevOps 工程师)来说,必须像对待他们试图满足的底层业务需求一样重视安全性。 

由于存在大量潜在敏感数据可供泄露,威胁行为者可能会将任何运行大数据工作负载的公司作为目标。请继续阅读,了解大数据安全性的基础知识,包括一些需要牢记的关键挑战和可操作的最佳实践。 

什么是大数据安全?

我喜欢大数据,我不会撒谎 meme

大数据安全是指在存储、处理和分析数据集的过程中,为保护数据免受恶意活动侵害而采取的任何措施,这些数据集太大、太复杂,无法由传统数据库应用程序处理。大数据可以采用结构化格式(组织成包含数字、日期等的行和列)或非结构化格式(社交媒体数据PDF 文件电子邮件图像等)。不过,据估计,高达90%的大数据是非结构化的。

大数据的力量在于它往往包含隐藏的见解,可以改善业务流程、推动创新或揭示未知的市场趋势。由于分析这些信息的工作量通常结合了敏感的客户或专有数据以及第三方数据源,因此适当的数据安全至关重要。声誉受损和巨额财务损失是大数据泄露和泄露的两个主要后果。  

在尝试保护大数据时,实际上有三个关键阶段需要考虑:

  1. 确保数据从源位置移动到存储或实时提取(通常在云端)时的安全传输
  2. 保护大数据管道存储层中的数据(例如 Hadoop 分布式文件系统)
  3. 确保输出数据(如报告和仪表板)的机密性,这些数据包含通过 Apache Spark 等分析引擎运行数据所收集的信息

这些环境中的安全威胁类型包括不适当的访问控制、分布式拒绝服务 (DDoS) 攻击、生成虚假或恶意数据的端点,或大数据工作负载期间使用的 库、框架和应用程序中的漏洞。

保护大数据的挑战 

由于涉及的架构和环境复杂性,大数据安全面临许多挑战。在大数据环境中,分布式计算环境中存在各种硬件和技术的相互作用。以下是一些挑战示例:

  • 使用Hadoop 等开源框架,其最初设计时并未考虑安全性
  • 依赖分布式计算来处理这些大型数据集意味着有更多系统可能出现问题
  • 确保从端点收集的 日志或事件数据的有效性和真实性
  • 控制内部人员对数据挖掘工具的访问并监控可疑行为 
  • 难以运行标准安全审计 
  • 保护非关系型NoSQL 数据库

这些挑战是对保护任何类型数据所面临的通常挑战的补充,而不是替代。 

十大大数据安全最佳实践 

在了解所涉及的挑战之后,让我们继续讨论一些加强大数据安全的最佳实践。 

1.加密

可扩展的静态数据和传输数据加密对于跨大数据管道实施至关重要。可扩展性是这里的关键点,因为除了 NoSQL 等存储格式外,您还需要跨分析工具集及其输出加密数据。加密的强大之处在于,即使威胁行为者设法拦截数据包或访问敏感文件,实施良好的加密过程也会使数据无法读取。 

加密

2.用户访问控制

正确控制访问可以有效防范一系列大数据安全问题,例如内部威胁和过度特权。基于角色的访问有助于控制对大数据管道多层的访问。例如,数据分析师应该有权访问 R 等分析工具,但他们可能不应该访问大数据开发人员使用的工具,例如 ETL 软件。最小特权原则是访问控制的一个很好的参考点,它仅将访问权限限制为执行用户任务所必需的工具和数据。 

3.云安全监控

大数据工作负载本身就需要巨大的存储量和处理能力,因此大多数企业都可以使用云计算基础设施和服务来处理大数据。但是,尽管云计算具有吸引力,但暴露的 API 密钥、令牌和错误配置都是值得认真对待的云风险。如果有人将 S3 中的AWS数据湖完全开放并可供互联网上的任何人访问,该怎么办?使用自动扫描工具可以快速扫描公共云资产以查找安全盲点,从而 更轻松地降低这些风险。

4.集中密钥管理

在复杂的大数据生态系统中,加密的安全性需要采用集中式密钥管理方法,以确保有效地以策略驱动的方式处理加密密钥。集中式密钥管理还可以控制从创建到密钥轮换的密钥治理。对于在云中运行大数据工作负载的企业来说,自带密钥 (BYOK) 可能是最佳选择,它允许集中式密钥管理,而无需将加密密钥创建和管理的控制权移交给第三方云提供商。 

5.网络流量分析

在大数据管道中,数据从许多不同的来源获取,包括来自社交媒体平台的流数据和来自用户终端的数据,因此流量不断流动。网络流量分析可以查看网络流量和任何潜在异常,例如来自物联网设备的恶意数据或正在使用的未加密通信协议。 

网络流量分析仪的主要功能

6.内部威胁检测

2021 年的一份报告发现,98%的组织感到容易受到内部攻击。在大数据背景下,内部威胁对敏感公司信息的机密性构成严重风险。有权访问分析报告和仪表板的恶意内部人员可能会向竞争对手透露见解,甚至出售其登录凭据。进行内部威胁检测的一个好方法是检查常见业务应用程序(例如 RDP、VPN、Active Directory 和端点)的日志。这些日志可以揭示值得调查的异常情况,例如意外的数据下载或异常的登录时间。  

7.威胁搜寻

威胁搜寻会主动搜索网络中未被发现的威胁。此过程需要经验丰富的网络安全分析师的技能,利用来自现实世界攻击、威胁活动的情报或关联来自不同安全工具的发现来制定有关潜在威胁的假设。具有讽刺意味的是,大数据实际上可以通过揭示大量安全数据中隐藏的见解来帮助改善威胁搜寻工作。但作为提高大数据安全性的一种方式,威胁搜寻会监控数据集和基础设施,以查找表明大数据环境受到威胁的工件。 

8. 事故调查

出于安全目的监控大数据日志和工具会产生大量信息,这些信息通常会出现在安全信息和事件管理 (SIEM) 解决方案中。鉴于大数据环境中通常会高速生成大量数据,SIEM 解决方案容易出现误报,分析师会被太多警报淹没。理想情况下,某种事件响应工具可以提供安全威胁的背景信息,从而实现更快、更高效的事件调查。 

9.用户行为分析

用户行为分析比内部威胁检测更进一步,它提供了一套专用的工具来监控用户在与之交互的系统上的行为。通常,行为分析使用评分系统来创建正常用户、应用程序和设备行为的基线,然后在偏离这些基线时向您发出警报。借助用户行为分析,您可以更好地检测内部威胁和受损的用户帐户,这些威胁到大数据环境中资产的机密性、完整性或可用性。 

对用户行为的担忧

10.数据泄露检测

未经授权的数据传输的可能性让安全主管夜不能寐,尤其是当数据泄露发生在大数据管道中时,因为大数据管道中可能复制大量潜在敏感资产。检测数据泄露需要深入监控出站流量、IP 地址和流量。首先要防止数据泄露,需要使用能够发现代码中的有害安全错误和错误配置的工具以及数据丢失防护和下一代防火墙。另一个重要方面是教育和提高组织内部的意识。

大数据安全始于代码层面

框架、库、软件实用程序、数据提取、分析工具和自定义应用程序 — 大数据安全始于代码级别。 无论您是否实施了上述成熟的安全最佳实践,代码中的有害安全错误都可能导致数据泄露。 

因此,如果您是负责组织大数据管道的开发人员或工程师,您需要一个解决方案来快速准确地扫描专有、自定义和开源代码,以查找环境中暴露的 API 密钥、令牌、凭据和错误配置。从安全的代码库开始,大数据安全的挑战就变得不那么可怕了。 

文章来源:10 Essentials for Big Data Security

#你可能也喜欢这些API文章!