Internet

TechCrunch Minute：Anthropic如何发现一种技巧，使AI给出它不应该给出的答案

北美时报 Monday, May 20 2024

如果你建造它，人们就会试图破坏它。有时甚至建造东西的人也可能是破坏者。Anthropic及其最新研究正展示了当前LLM技术中一个有趣的漏洞。更确切地说，如果你一直提问，你可以打破防护栏，最终让大型语言模型告诉你它们被设计不允许告诉你的东西。比如如何制造炸弹。

当然，考虑到开源AI技术的进展，你可以在本地启动自己的LLM并问它任何你想问的问题，但对于更消费级的问题，这是一个值得考虑的问题。如今AI的有趣之处在于它快速发展的步伐，以及我们作为一个物种在更好地理解我们所构建的东西方面表现如何。

如果你允许我发表一下看法，我想知道当LLMs和其他新的AI模型类型变得更智能、更庞大时，我们是否会看到更多类似Anthropic所概述的问题和挑战？这或许是我在重复自己。但我们越接近更通用的AI智能，它就应该越像一个思考实体，而不是我们可以程序化的计算机，对吧？如果是这样，我们可能会越来越难以找到边缘案例，直至那项工作变得不可行？无论如何，让我们讨论一下Anthropic最近分享的内容。

北美时报 3 weeks ago