悟了，终究是人性的弱点，在挑战算法的极限-数观天下

用户登录时输入的密码，是真的密码吗？
不是。
在计算机科学中，不经过任何处理直接送到服务器的字符，只是一个口令。
这个口令，通过密码运算得出的加密结果，支持验证用户身份时，才变成了密码。

根据NordPass 发布了一份2024年度《Top 200 Most Common Passwords》，“123456”，不出意料地多年位居弱口令榜首。

南开大学网络空间安全学院发表的《口令猜测研究进展》，详细挖掘了用户的脆弱口令行为, 分析用户口令构造规律。

本研究基于1.9亿已公开的口令泄露数据，总共包括 6 个中文和 7 个英文数据集, 涵盖了多种类型，如邮箱、社交网站、游戏论坛等。

一、人，是最大的脆弱性

用户创建口令的行为呈现出显著规律性，这些规律成为攻击者的突破口。

（一）短口令与简单序列主导

《口令猜测研究进展》中的数据分析显示：

超过75%的用户选择6-11位口令，且“123456”“password”等简单序列长期霸占流行榜。
中文用户尤其偏好纯数字组合（占比29%-64%），而英文用户则更多使用纯字母（占比25%-42%）。

这种差异源于语言习惯：中文用户更依赖数字记忆（如电话号码），而英文用户倾向于单词拼接。

（二）个人信息嵌入与语义关联

约12.8%-51.4%的用户直接使用姓名、生日、邮箱前缀等个人信息构造口令。

例如，中文用户常用“zhangsan1990”或“wang123”（姓氏+出生年份），而英文用户则倾向“Jessica1985”。

此外，语义模式（如日期“19900909”、键盘序列“qwerty”）占比高达26%-34%，攻击者可通过语义字典，快速缩小搜索范围。

（三）口令重用与微调行为普遍

研究显示，21%-51%的用户直接重用旧口令，26%-33%进行微调（如“Password1”→“Password2”）。

大规模泄露事件（如COMB数据集）显示，33.8%的用户在不同平台使用相同口令，10%的用户通过简单修改旧口令生成新口令。

攻击者利用此规律，可通过“旧口令+规则变换”快速破解新账户。

二、黑客破解，从经验驱动到智能生成

（一）初级：基于规则的启发式攻击

这种破解方法的核心，是通过预定义规则（如首字母大写、字符替换“a→@”）生成变体。

典型工具如Hashcat和John the Ripper支持GPU加速，每秒可生成数万猜测。

但也有着较大的局限性，它依赖人工规则设计，无法覆盖复杂语义模式。

例如，规则“添加后缀数字”可能生成“password1”，但无法捕捉“p@ssw0rd”这类混合替换。

（二）中级：统计学模型，结构分解与概率填充

1、PCFG（概率上下文无关文法）

将口令分解为字母段（L）、数字段（D）、特殊符号段（S），统计各段出现概率。

例如，“Password123!”解析为L8D3S1，通过训练集填充高频字段（如L8→“Password”）。

改进版Semantic-PCFG进一步融合语义标签（如“月份”“姓氏”），破解率提升15%-20%。

2、Markov模型

基于字符转移概率生成口令，例如，3阶Markov模型通过前缀“pas”预测下一个字符“s”的概率。

改进版Backoff模型引入回退机制，缓解数据稀疏问题，在长口令猜测中表现更优。

（三）进阶：深度学习，生成式模型的突破

1、PassGAN（生成对抗网络）

生成器学习真实口令分布，判别器区分生成口令与真实口令。

实验显示，PassGAN在生成10^10次猜测时破解率超过PCFG，但需更高算力支持。

2、PassBERT（Transformer模型）

利用掩码语言建模预测缺失字符，支持条件生成（如已知部分字符）。

在跨站猜测中，PassBERT的Top-100猜测成功率比传统方法高30%。

3、Chunk-Level模型

通过BPE算法将口令切分为语义块（如“p@ssw0rd”和“dever”），结合块级概率生成猜测，破解效率提升12%-18%。

三、用户口令，真的这么好破解吗

（一）口令强度评估工具的局限性

现有工具（如FLA-PSM）依赖单一模型，无法综合多场景威胁（如定向攻击）。

例如，口令“Zhang1990”在漫步猜测中强度中等，但在定向攻击（已知用户姓名和出生年份）中极易破解。

此外，客户端实时评估需轻量级模型，而多数深度学习工具计算开销过大。

（二）Honeywords技术的现实困境

生成诱饵口令（Honeywords）要求与真实口令分布一致，但攻击者可通过流行口令过滤（如剔除“123456”）降低误报。

此外，Honeywords系统需独立的安全模块存储真实口令索引，增加了部署成本和维护难度。

（三）用户接受度与策略矛盾

复杂口令策略（如强制特殊字符）导致用户采用“规律性合规”（如“Password1!”），反而降低安全性。

研究表明，仅增加口令长度或字符类型无法有效提升抗猜测性，需结合行为引导（如实时反馈）减少规律性。

四、三方博弈：用户 & 开发者 & 黑客

在可预见的未来，口令仍将是最主要的身份认证手段，无可替代。

近年来, 涌现了大量口令猜测算法，这些算法的应用主要集中在防御者的视角, 特别是更准确地建模口令的抗猜测性。

实际上，从理论到实践，隔了巨大鸿沟。

（一）掩码攻击防御

针对攻击者获取部分口令信息（如通过侧信道获取长度），需设计抗模板化策略。

例如，动态口令生成器可随机插入干扰字符（如“p@as-sw0rd”），打破固定结构。

（二）多模态身份认证融合

结合口令与行为生物特征（如输入节奏）、设备指纹等多因素，降低单一因素被攻破的风险。

例如，即使用户口令泄露，异常登录行为（如异地IP）可触发二次验证。

（三）隐私保护的猜测模型

利用联邦学习或差分隐私技术，在分散数据上训练模型，避免集中式数据泄露。

例如，各机构本地训练PCFG片段，中央服务器聚合模型参数，保护用户隐私。

（四）大模型与口令安全的博弈

DeepSeek等大模型可通过分析用户社交数据，如微信微博内容）生成个性化猜测，如宠物名+生日。

防御方需同步研发对抗生成技术，例如构建反生成模型检测AI生成口令。

对于密码学家而言，在未来，突破瓶颈的关键路径很有可能在大模型。

PIONT

口令安全，本质上是人性弱点与算法能力的对抗。

尽管深度学习大幅提升了攻击效率，但防御体系的创新仍需加强。

当下，我们的密码研究需跳出“猜测-防御”的循环，从身份认证范式层面寻求变革（如无口令认证），同时通过用户教育、策略优化和技术融合构建多层防御体系。

只有将安全融入用户体验的每一个细节，才能真正实现“可记忆性”与“抗猜测性”的平衡。

关注微信公众号“数观天下”，后台私信【弱口令】，获取《口令猜测研究进展》报告

文章版权归作者所有，未经允许请勿转载。

THE END

产业研究
# 密码算法 # 弱口令

悟了，终究是人性的弱点，在挑战算法的极限