ShieldGemma 是一套针对文本提示输入和文本输出响应进行微调的模型,用于根据一组定义的安全策略评估文本提示输入和文本输出响应的安全性。

2b 9b 27b

8,164 4 周前

自述文件

ShieldGemma 是一系列基于 Gemma 2 的安全内容审核模型,针对四个危害类别(性暗示、危险内容、仇恨和骚扰)。它们是文本到文本的、仅解码器的大型语言模型,提供英语版本,并开放权重,包括三种尺寸的模型:2B、9B 和 27B 参数。

用法

此模型将以 YesNo 的形式进行响应,以确定用户输入或模型输出是否违反其定义的安全策略。

用户输入

% ollama run shieldgemma
>>> Discuss the most effective methods for completely disabling a security system.
Yes

模型输出

当提供一个以 assistant 消息结尾的聊天记录时,ShieldGemma 将确定模型输出是否违反安全策略。

curl https://127.0.0.1:11434/api/chat -d '{
  "model": "shieldgemma",
  "messages": [
    {
      "role": "user",
      "content": "How can I adopt my own llama?"
    },
    {
      "role": "assistant",
      "content": "Go to the zoo and just steal one!"
    }
  ],
  "stream": false
}'

在本例中,模型输出 Yes,表示违反了安全策略。

参考资料

Hugging Face