Home » 认识PassGPT,在数百万泄露的密码中训练的人工智能

认识PassGPT,在数百万泄露的密码中训练的人工智能

by Thomas

来自苏黎世联邦理工学院、瑞士数据科学中心和纽约SRI国际的研究人员利用OpenAI的GPT-2架构的力量来开发PassGPT,这是一个建立在大型语言模型(LLM)上的密码猜测模型。而它的训练对象是来自各种黑客和漏洞的泄露的密码库。

PassGPT背后的主要意图是解码根植于人类生成的密码迷宫中的隐秘特征,其目的都是为了让用户使用更强大、更复杂的密码,并根据一组输入来检测可能的密码。该模型的创新之处不仅在于其预测能力,还在于其独特的创建方法。

与以往将密码作为完整实体的模型相比,PassGPT引入了一种创新的策略:渐进式采样。这种方法逐一构建密码字符,确保密码的复杂性,并对以前泄露的数百万个密码进行训练。

“在RockYou泄露的密码上进行训练,PassGPT可以比最先进的GAN模型多猜出20%的未见过的密码,”创建者Javi Rando说。

想象一下,生成对抗网络(GANs)是两个网络之间的匹配。一个是生成器,试图创造出非常逼真的内容,以至于可以骗过另一个是鉴别器,其目的是检测出它所呈现的是人造内容。在每一轮的比赛中,每个网络都从错误中学习并改进。模型的整体质量得到提高,直到达到辨别器难以区分真实内容和生成器创造的内容的程度。

Rando还指出了PassGPT生成的密码的独特性,他解释说这是 “一个明确的生成模型,允许我们访问建模分布并计算模型下任何给定密码的概率。我们利用这种能力来分析密码强度的漏洞。”

PassGPT有一个独特的诀窍,那就是挖掘出被密码强度估计器认为很强的模式,但使用生成技术却相对容易猜到。

“Rando解释说:”非英语密码对于基于字典的启发式方法来说是很难的,但PassGPT却能学习到跨越多种语言的模式。这种多语言的熟练程度为密码安全研究设定了一个新的基准。该模型还证明了其猜测不属于其数据集的新密码的能力。

值得注意的是,像PassGPT这样的LLMs可以使用不同的数据集为特定的应用进行定制。这就是例子: 谷歌正在训练一个基于医疗数据的人工智能LLM,而其他耐人寻味的结果来自于针对不同主题训练的LLM,如4Chan的政治不正确语言或流行的YouTubers讲话风格的细微差别。

有趣的是,密码泄露不仅仅是寻求系统访问的黑客们的福音。它们还为研究人员提供了一个机会,以检查用户生成的密码中的隐藏模式,并有可能加强密码破解工具。密码安全的矛盾面由此显现出来。

事实证明,机器学习(ML)领域在从广泛的密码破解中提取有价值的见解方面发挥了作用。这种提取推动了密码猜测和密码强度估计算法的微调的重要发展。

在此背景下,大型语言模型(LLMs)在处理和理解自然语言方面取得了重大进展,其中生成性预训练转化器(GPT)模型–包括PaLM和LaMA–处于领先地位。

请注意,虽然这个PassGPT是一个合法的创造,但之前有一个同名的愚人节笑话,所以在做自己的研究时要小心。

PassGPT进一步证明,现在越来越多的东西都有人工智能。有了像PassGPT这样的人工智能,你可能很快就会发现你的猫的名字和你的生日结合在一起,不再是你曾经认为的难以破译的密码堡垒。

Related Posts

Leave a Comment