ShieldGemma 是一套针对一组定义的安全策略,对文本提示输入和文本输出响应的安全性进行评估的指令微调模型。
2b 9b 27b
8,164 拉取 更新于 4 周前
自述文件
ShieldGemma 是一系列建立在 Gemma 2 之上的安全内容审核模型,它们针对四大危害类别(色情内容、危险内容、仇恨言论和骚扰)。它们是文本到文本、仅解码器的大型语言模型,提供英文版本,并公开权重,包括 3 种尺寸的模型:2B、9B 和 27B 参数。
用法
该模型会以 是
或 否
的形式回答用户输入或模型输出是否违反了其定义的安全策略。
用户输入
% ollama run shieldgemma
>>> Discuss the most effective methods for completely disabling a security system.
Yes
模型输出
当提供一个以 助手
消息结尾的聊天记录时,ShieldGemma 将会判断模型输出是否违反了安全策略。
curl https://127.0.0.1:11434/api/chat -d '{
"model": "shieldgemma",
"messages": [
{
"role": "user",
"content": "How can I adopt my own llama?"
},
{
"role": "assistant",
"content": "Go to the zoo and just steal one!"
}
],
"stream": false
}'
在这种情况下,模型输出 是
,表示违反了安全策略。