严格阻断生物与化学风险信息以确保AI安全 OpenAI推出新系统

OpenAI最近推出了一项新的系统，旨在监控其先进的AI推理模型 o3和o4–mini，特别是为了防止这些模型产生与生物和化学威胁相关的危险建议。这一举措体现了OpenAI对于AI安全性问题的高度关注，尤其是在面对潜在恶意用户的挑战时。随着o3和o4-mini在能力上的显著提升，它们在处理复杂任务方面的能力得到了增强，但也带来了新的安全风险。为了应对这些风险，OpenAI特别开发了一个称为“以安全为中心的推理监测器”的新工具。

这个监测器通过专门的训练，能够识别出与生物和化学风险相关的提示，并指导模型拒绝提供此类主题的建议。为了确保监测器的有效性，OpenAI进行了大量的准备工作。红队成员花费了大约1000个小时，标记了o3和o4-mini中包含危险生物风险相关对话的内容。随后，在一次模拟测试中，该监测器成功地阻止了98.7%的危险提示的响应。这表明，在当前设定下，监测器的工作效果相当不错。

尽管如此，OpenAI也意识到，他们的测试并没有完全涵盖所有可能的情况，尤其是那些在被监测器阻止后可能会尝试不同方式的用户。因此，该公司表示将继续依赖部分人工监控，以进一步提高系统的整体可靠性。值得注意的是，根据OpenAI的评估结果，o3和o4-mini并未达到高风险生物风险的阈值，但在回答关于生物武器开发的问题时，它们的表现明显优于早期版本的模型（如o1和GPT-4）。OpenAI还在积极跟踪其模型可能被恶意用户用于开发化学或生物威胁的方式，并更新相应的防范策略。

除了生物威胁之外，OpenAI还采取措施防止其图像生成器被滥用。例如，为了避免GPT-4的原生图像生成器创建儿童色情内容，OpenAI同样使用了与o3和o4-mini类似的推理监测器。这项努力并非没有争议。一些研究人员表达了他们对于OpenAI是否足够重视安全性问题的担忧。例如，Metr这家红队合作伙伴指出，在评估o3的欺骗行为基准测试时，他们的时间较为有限。OpenAI并未为其推出的GPT-4.1模型发布安全报告，这也引发了外界对其透明度和责任感的质疑。

虽然OpenAI已经采取了一系列措施来加强其AI系统的安全性，但仍需持续改进和完善。未来，随着技术的进步和社会需求的变化，如何更好地平衡创新与安全将是AI行业面临的重要课题之一。