用户登录时输入的密码,是真的密码吗?
不是。
在计算机科学中,不经过任何处理直接送到服务器的字符,只是一个口令。
这个口令,通过密码运算得出的加密结果,支持验证用户身份时,才变成了密码。
根据NordPass 发布了一份2024年度《Top 200 Most Common Passwords》,“123456”,不出意料地多年位居弱口令榜首。
![图片[1]-悟了,终究是人性的弱点,在挑战算法的极限-数观天下](https://pic2.zhimg.com/v2-8654d6b9982a7fbb3bd3dc1eab2ba94f_1440w.jpg)
南开大学网络空间安全学院发表的《口令猜测研究进展》,详细挖掘了用户的脆弱口令行为, 分析用户口令构造规律。
本研究基于1.9亿已公开的口令泄露数据,总共包括 6 个中文和 7 个英文数据集, 涵盖了多种类型,如邮箱、社交网站、游戏论坛等。
一、人,是最大的脆弱性
用户创建口令的行为呈现出显著规律性,这些规律成为攻击者的突破口。
(一)短口令与简单序列主导
《口令猜测研究进展》中的数据分析显示:
- 超过75%的用户选择6-11位口令,且“123456”“password”等简单序列长期霸占流行榜。
- 中文用户尤其偏好纯数字组合(占比29%-64%),而英文用户则更多使用纯字母(占比25%-42%)。
这种差异源于语言习惯:中文用户更依赖数字记忆(如电话号码),而英文用户倾向于单词拼接。
(二)个人信息嵌入与语义关联
约12.8%-51.4%的用户直接使用姓名、生日、邮箱前缀等个人信息构造口令。
例如,中文用户常用“zhangsan1990”或“wang123”(姓氏+出生年份),而英文用户则倾向“Jessica1985”。
此外,语义模式(如日期“19900909”、键盘序列“qwerty”)占比高达26%-34%,攻击者可通过语义字典,快速缩小搜索范围。
(三)口令重用与微调行为普遍
研究显示,21%-51%的用户直接重用旧口令,26%-33%进行微调(如“Password1”→“Password2”)。
大规模泄露事件(如COMB数据集)显示,33.8%的用户在不同平台使用相同口令,10%的用户通过简单修改旧口令生成新口令。
攻击者利用此规律,可通过“旧口令+规则变换”快速破解新账户。
二、黑客破解,从经验驱动到智能生成
(一)初级:基于规则的启发式攻击
这种破解方法的核心,是通过预定义规则(如首字母大写、字符替换“a→@”)生成变体。
典型工具如Hashcat和John the Ripper支持GPU加速,每秒可生成数万猜测。
但也有着较大的局限性,它依赖人工规则设计,无法覆盖复杂语义模式。
例如,规则“添加后缀数字”可能生成“password1”,但无法捕捉“p@ssw0rd”这类混合替换。
(二)中级:统计学模型,结构分解与概率填充
1、PCFG(概率上下文无关文法)
将口令分解为字母段(L)、数字段(D)、特殊符号段(S),统计各段出现概率。
例如,“Password123!”解析为L8D3S1,通过训练集填充高频字段(如L8→“Password”)。
改进版Semantic-PCFG进一步融合语义标签(如“月份”“姓氏”),破解率提升15%-20%。
2、Markov模型
基于字符转移概率生成口令,例如,3阶Markov模型通过前缀“pas”预测下一个字符“s”的概率。
改进版Backoff模型引入回退机制,缓解数据稀疏问题,在长口令猜测中表现更优。
(三)进阶:深度学习,生成式模型的突破
1、PassGAN(生成对抗网络)
生成器学习真实口令分布,判别器区分生成口令与真实口令。
实验显示,PassGAN在生成10^10次猜测时破解率超过PCFG,但需更高算力支持。
2、PassBERT(Transformer模型)
利用掩码语言建模预测缺失字符,支持条件生成(如已知部分字符)。
在跨站猜测中,PassBERT的Top-100猜测成功率比传统方法高30%。
3、Chunk-Level模型
通过BPE算法将口令切分为语义块(如“p@ssw0rd”和“dever”),结合块级概率生成猜测,破解效率提升12%-18%。
三、用户口令,真的这么好破解吗
(一)口令强度评估工具的局限性
现有工具(如FLA-PSM)依赖单一模型,无法综合多场景威胁(如定向攻击)。
例如,口令“Zhang1990”在漫步猜测中强度中等,但在定向攻击(已知用户姓名和出生年份)中极易破解。
此外,客户端实时评估需轻量级模型,而多数深度学习工具计算开销过大。
(二)Honeywords技术的现实困境
生成诱饵口令(Honeywords)要求与真实口令分布一致,但攻击者可通过流行口令过滤(如剔除“123456”)降低误报。
此外,Honeywords系统需独立的安全模块存储真实口令索引,增加了部署成本和维护难度。
(三)用户接受度与策略矛盾
复杂口令策略(如强制特殊字符)导致用户采用“规律性合规”(如“Password1!”),反而降低安全性。
研究表明,仅增加口令长度或字符类型无法有效提升抗猜测性,需结合行为引导(如实时反馈)减少规律性。
四、三方博弈:用户 & 开发者 & 黑客
![图片[2]-悟了,终究是人性的弱点,在挑战算法的极限-数观天下](https://pic1.zhimg.com/v2-29130f88a38962d2d25020f59a564c20_1440w.jpg)
在可预见的未来,口令仍将是最主要的身份认证手段, 无可替代。
近年来, 涌现了大量口令猜测算法,这些算法的应用主要集中在防御者的视角, 特别是更准确地建模口令的抗猜测性。
实际上,从理论到实践,隔了巨大鸿沟。
(一)掩码攻击防御
针对攻击者获取部分口令信息(如通过侧信道获取长度),需设计抗模板化策略。
例如,动态口令生成器可随机插入干扰字符(如“p@as-sw0rd”),打破固定结构。
(二)多模态身份认证融合
结合口令与行为生物特征(如输入节奏)、设备指纹等多因素,降低单一因素被攻破的风险。
例如,即使用户口令泄露,异常登录行为(如异地IP)可触发二次验证。
(三)隐私保护的猜测模型
利用联邦学习或差分隐私技术,在分散数据上训练模型,避免集中式数据泄露。
例如,各机构本地训练PCFG片段,中央服务器聚合模型参数,保护用户隐私。
(四)大模型与口令安全的博弈
DeepSeek等大模型可通过分析用户社交数据,如微信微博内容)生成个性化猜测,如宠物名+生日。
防御方需同步研发对抗生成技术,例如构建反生成模型检测AI生成口令。
对于密码学家而言,在未来,突破瓶颈的关键路径很有可能在大模型。
PIONT
口令安全,本质上是人性弱点与算法能力的对抗。
尽管深度学习大幅提升了攻击效率,但防御体系的创新仍需加强。
当下,我们的密码研究需跳出“猜测-防御”的循环,从身份认证范式层面寻求变革(如无口令认证),同时通过用户教育、策略优化和技术融合构建多层防御体系。
只有将安全融入用户体验的每一个细节,才能真正实现“可记忆性”与“抗猜测性”的平衡。
关注微信公众号“数观天下”,后台私信【弱口令】,获取《口令猜测研究进展》报告
暂无评论内容