大模型时代,网络空间安全有哪些新机遇?

大模型技术的迅猛发展，正在深刻改变网络空间安全领域的格局。本文分析了当前网络空间安全面临的挑战，详细探讨了大模型在自然语言理解、知识抽取整合、任务生成编排和意图识别判断等方面的能力，以及大模型在网络安全、数据安全和内容安全领域的潜在应用场景，并提出了未来大模型有望成为安全防护核心、引领安全工作模式变革的判断。

当前网络空间安全面临严峻挑战

人工智能（AI）技术的快速发展，尤其是大型语言模型的广泛应用，正在重塑网络空间安全领域。攻击者利用AI进行自动化漏洞扫描、智能化恶意软件开发和隐蔽的社会工程学攻击，使得传统安全措施难以应对。但与此同时，AI也能用于提升安全运营效率，如自动化告警研判和日志分析，降低误报率，缓解安全人员的“告警疲劳”。

网络攻击愈加隐蔽，难以准确检测

高级持续性威胁（APT）以其高度隐蔽性著称，攻击者通过深入侦察并改进攻击工具，规避反病毒软件的检测，从而导致传统基于签名的检测手段失效。在成功入侵后，APT攻击者会减少活动痕迹、运用合法系统工具等手段降低被检测的概率。传统安全产品缺乏对跨系统、跨时间安全事件进行深度关联分析的能力，因此难以发现潜藏的攻击线索。例如，2024年10月9日，名为GoldenJackal的APT黑客组织成功攻破了多个欧洲政府机构的物理隔离系统，窃取了包括政府部门的电子邮件、加密密钥、图像、档案等在内的大量敏感数据。

数据资产分布广泛，难以管理保护

当前，企业在数据安全领域面临诸多问题，如数据资产不清、管理混乱、泄露风险高等。数据资产广泛分布于异构环境中，因缺乏有效整合与统一管理，企业难以准确把握整体数据资产状况。同时，由于缺乏标准化的数据分类分级及全生命周期管理体系，数据精细化管理不足，敏感数据与非敏感数据混杂存放，数据的所有权、使用权及流转路径模糊不清，这些严重影响了数据使用的精准授权和可追溯性。此外，数据防泄露、数据脱敏等系统部署尚不完善，员工数据保护意识淡薄，存在使用明文传输、设置弱密码等不良操作习惯，极大地加剧了数据泄露的风险。例如，2023年2月12日，Telegram查询机器人被曝出泄露国内45亿条个人信息，这些数据主要来自各快递平台以及淘宝、京东等购物网站，包含用户真实姓名、电话与住址等内容。

违规信息逼真多样，难以自动审核

自媒体时代的来临，促使互联网信息爆发式增长，违规内容的表现形式愈发隐晦复杂、变化多端且传播范围广泛。虽然机器学习技术在内容审核领域已有进展，但在面对新型或变种的违规内容时，依旧存在误判和漏判的风险。大模型的兴起带来了新挑战，特别是深度伪造技术，如换脸视频和合成声音，它们以极高的仿真度模拟真实信息，令传统审核技术难以辨别真伪。此外，大模型还能低成本、高速度地自动生成谣言或违规内容，这进一步增加了审核工作的难度，也增加了信息安全审核的成本。例如，2024年2月，诈骗者利用深度伪造技术制造出伪冒视频，营造出多人参与视频会议的假象，先后要求一家跨国公司香港分公司的职员转账15次，涉案金额高达2亿港元。

安全人才培养周期长，难以满足需求

网络安全行业由于其技术的复杂性，以及攻防技术快速迭代的特性，对专业人才有着严苛的要求。网络安全涉及多学科的知识体系，掌握这些专业知识需要长期的系统学习和丰富的实践经验积累。从业者需在实战中深入理解各类攻击手法与防御策略，并持续应对不断演化的网络威胁，以此提升自身的安全防护能力。同时，从业人员需要保证知识库与技能树的持续更新，从而适应新兴的攻防技术。不过，优质培训资源的稀缺与成本高昂等问题，为培养高级网络安全人才增加了难度。教育部最新公布的数据显示，到2027年，我国网络安全人员缺口将达327万，而高校人才培养规模为每年3万人。因此，许多行业都面临着网络安全人才缺失的困境。

大模型有望化解网络空间安全瓶颈问题

大模型所具备的多模态信息理解、知识抽取整合、意图识别判断、任务生成编排、代码理解生成等能力，为解决隐蔽网络攻击检测、数据资产管理保护、违规内容识别发现等网络空间安全领域的瓶颈问题带来了新思路和新方法。

多模态信息理解能力

通过大规模无标注文本、图像、视频等多模态信息的自监督学习，大模型能够捕捉并理解信息中的深层次语义关系和上下文依赖，具备较好的语境感知能力。同时，大模型能够在未见过或仅有少量示例的情况下，迁移并泛化到新的任务场景中，展现出对未见过概念的理解和推理能力。在网络空间安全领域，大模型的多模态信息理解能力有助于其准确理解专业人员下达的安全指令含义，分析并理解各类数据资产，以及复杂的网络日志和告警信息等。

知识抽取整合能力

大模型的整编能力，是指其能够对大量复杂、异构的数据进行整合分析和深度理解，进而生成结构化、逻辑连贯且有价值的信息的能力。大模型可以对文本、图像、音频等多种类型的数据源展开综合分析，提取关键信息并将其整合为统一的理解框架，再通过学习大量的文本资料和其他数据，构建具有内在联系的知识图谱，在此基础上进行推理和演绎，从而形成对新信息或情境的理解。在网络安全防护等场景中，这种能力有助于系统迅速整理出有用信息，自动化精准生成威胁情报，助力安全专家制定防护策略和应急响应方案。

意图识别判断能力

大模型的意图识别能力，指的是模型能够从海量安全告警信息中，快速且准确地识别出潜藏攻击意图的能力。在网络空间安全领域，大模型能够处理大量的结构化和半结构化数据，诸如网络日志、行为日志、告警日志、报文和电子邮件等，并通过深度学习和自然语言理解技术，分析其中的语言模式、关键词和语义关联，进而识别出可能存在的威胁性信息。这种能力有助于构建更为智能的安全防御体系，通过自动化和智能化的方式提高对攻击意图的洞察力，及时预警并联动相关防御系统，实现高效应对。

任务生成编排能力

大模型的编排能力，是指其能够依据任务要求，动态生成并优化任务执行流程的能力。大模型可利用深度神经网络对大量历史数据进行学习，理解并预测不同任务之间的关联性和优先级，同时强化学习，通过不断试错和环境反馈优化任务调度策略。大模型能够动态调整优化任务执行顺序，以实现任务执行效率的最大化。在网络空间安全领域，大模型可针对复杂网络安全问题形成全面可行的解决方案与执行步骤，提升整个安全运营体系的协同效应和响应速度。

大模型赋能网络空间安全的潜力方向

大模型能力的有效应用将大幅提升现有网络空间安全技术体系的效能，大模型赋能网络空间安全的潜力方向如图1所示。结合行业实践情况，本文重点阐述大模型在网络安全、数据安全、内容安全三个领域的探索应用情况。在网络安全领域，大模型可应用于安全威胁识别、保护、检测、响应、恢复等多个环节中的关键场景；在数据安全领域，大模型可应用于数据分类分级、APP（SDK）违规处理个人信息检测等场景；在内容安全领域，大模型可应用于文本内容安全检测、图像视频内容安全检测和音频内容安全检测等场景。

大模型赋能网络安全

目前，大模型在网络安全领域已展现出巨大的应用潜力，有望显著提升网络安全整体防护水平及安全事件处置效率。从安全能力框架IPDRR来看，大模型在各环节已开展商业化应用探索。大模型在风险识别、安全检测环节展现出巨大的应用潜力，已在智能安全问答、智能威胁情报生成整合、自动化漏洞挖掘、智能报文检测、智能“钓鱼”邮件检测等场景中开展商业化应用，极大提升了网络安全的整体防护水平和事件处置效率。尽管大模型在安全防御、安全响应、安全恢复以及部分其他环节的应用尚处于探索阶段，但仍能为自动化代码审计、智能网络攻击溯源、智能未知威胁检测、动态策略管理、智能响应、智能事件报告生成和智能应急策略制定等提供支持，助力安全团队迅速应对潜在威胁。例如，清华大学网络研究院VUL337团队联合零一万物、华清未央推出的MLM大模型，能够对二进制程序等进行语义结构理解和逆向分析，从而实现恶意代码检测、漏洞挖掘、代码剽窃取证等。酷德啄木鸟研发的CodePecker源代码缺陷分析系统，是一款拥有自主知识产权的商用源代码检测产品,能够分析代码审计工具发现的问题是否为误报，在降低误报率的同时给出修复建议。

大模型赋能数据安全

大模型在数据安全领域的应用，显著提升了数据安全技术的普适性和易用性。借助深度学习和自然语言处理技术，大模型能够理解和分析复杂的非结构化数据，自动识别并提取关键特征，从而降低对人工分析的依赖程度。大模型的自学习能力使其能够不断从新的数据安全标准及样例集中学习，进而优化自身安全策略，且无需频繁的人工干预。这不仅提高了数据安全的适应度和响应速度，还使得数据分类分级等安全技术更易于普及和应用。

同时，大模型可在APP违规处理个人信息检测时，提供智能问答、个人信息识别、隐私政策分析等方面的有力支持，帮助开发者更好地遵循个人信息保护原则。例如，奇安天盾数据安全保护系统以奇安信“大禹”平台为底座，整合数据识别、威胁检测等能力，能够自动发现并识别内部网络的不同数据源（包括结构化和非结构化数据），帮助企业构建资产清单。大模型赋能内容安全大模型在内容安全领域的应用，显著提升了内容安全技术的鲁棒性和准确性。

大模型在多模态数据处理上具有显著优势，能够针对不同格式、风格和质量的内容保持稳定的检测性能，即使面对攻击者采用隐喻、漫画等形式刻意规避检测时，也能维持较高的识别率。大模型的自学习能力使其能够不断从新数据中学习，适应不断变化的虚假信息和深度伪造等网络威胁，从而提高检测的准确性，有效应对内容安全领域的复杂挑战。

目前，大模型在智能文本内容安全检测、智能视频内容安全检测、智能音频内容安全检测等场景均已开展商业化应用。例如，北京大学推出的多模态大模型框架FakeShield，能检测和定位图像伪造，评估图像的真实性，生成被篡改区域的掩码，提供基于像素级和图像级篡改线索的判断依据。西湖大学团队研发的Fast-DetectGPT，利用大模型和人类撰写文本在统计分布上的差异，以及人类和机器在给定上下文情况下对于词汇选择存在明显差异的特点，能够实现区分虚假新闻、辨别AI生成文章等功能。

未来展望

短期来看，大模型将显著提升现有安全技术的性能和智能化水平。得益于大模型在数据理解、意图识别、任务编排等方面的能力，在安全问答、安全运营、数据分类分级、违规处理个人信息检测、“音视图文”内容安全检测等关键网络空间安全场景中，大模型能够在大幅减少人工参与的同时，有效提升安全事件处理的效率和准确性。长期来看，大模型有潜力成为安全防护的核心，进而改变安全工作模式。当前，大模型主要充当安全从业人员的辅助工具，用于提高他们的工作效率和效能。未来，随着大模型自主研判和决策能力的提升，其有望进化为安全从业人员的合作伙伴，双方共同承担安全风险的识别、防御、检测、响应和系统恢复等一系列复杂工作。此外，大模型在数据安全、内容安全等领域也将发挥关键作用，引领安全工作模式的变革，从依赖安全人员调度和使用安全工具，转变为以大模型为核心进行智能化调度和使用智能安全工具。

*本文刊载于《通信世界》

总第956期 2024年11月25日第22期

原文标题：大模型时代的网络空间安全新机遇

END