Phi-3 Mini是由微软开发的轻量级3B前沿开放模型。于2024年7月更新。

3B

139 拉取 7周前更新

7周前

cd76c555fa88 · 7.6GB

readme

image.png

  • fp32 进行量化
  • 使用 i-matrix calibration_datav3.txt 进行校准

Phi-3 是微软开发的开源 AI 模型系列。

参数大小

上下文窗口大小

  • 4k ollama run mannix/phi3-mini-4k

Phi-3 Mini

Phi-3 Mini 是一个包含合成数据和经过过滤的公开可用网站数据(专注于高质量和推理密集型属性)的 3.8B 参数、轻量级的先进开源模型。

该模型经过了一个包括监督微调和直接偏好优化的后训练过程,以确保精确的指令遵从和鲁棒的安全措施。

在常识、语言理解、数学、代码、长时间和逻辑推理的基准测试中,Phi-3 Mini-4K-Instruct在参数少于13亿个的模型中展示了强大并处于行业领先水平的性能。

Phi-3 中型

Phi-3 中型是一个含有14亿参数的语言模型,其性能优于 Gemini 1.0 Pro。

image.png

使用说明

主要应用场景

该模型旨在用于英语的商务和研究,它适用于需要以下应用的场景
1) 记忆/计算受限的环境
2) 延迟限制的场景
3) 强大的推理(尤其是数学和逻辑)
4) 长时间上下文

我们的模型旨在加速语言和多模态模型的研究,作为具有生成AI功能的构建块的用途。

用例考虑因素

我们的模型不是专门针对所有下游用途设计或评估的。开发者在选择应用场景时,应考虑语言模型的常见限制,并在具体下游应用场景中使用之前,评估和缓解准确性、安全性和公平性,尤其是在高风险场景中。
开发者应注意并遵守与其用例相关的适用法律或法规(包括隐私、贸易合规法律等)。
本模型卡中包含的内容不应被解释为或视为对模型发行许可证的限制或修改。

负责任的AI考虑因素

与其他语言模型一样,Phi系列模型可能会以不公、不可靠或冒犯的方式行事。需要注意的一些限制行为包括

  • 服务质量:Phi模型主要在英语文本上训练。非英语语言将经历更差的性能。在训练数据中代表性较低的英语变体会比标准美式英语表现更差。

  • 危害的表示和刻板印象的延续:这些模型可能过分或不足地表示某些人群,抹去某些群体的代表,或强化贬低或负面的刻板印象。尽管进行过安全后训练,但由于不同群体的代表性水平不同或在训练数据中负面刻板印象的出现,这些限制仍然可能存在。

  • 不适当或冒犯性内容:这些模型可能会产生其他类型的不适当或冒犯性内容,在不进行特定于用例的缓解措施的情况下,这些内容可能不适合敏感情境。

  • 信息可靠性:语言模型可以生成无意义的内容或编造看似合理但实际上不准确或过时的内容。

  • 代码的范围有限:Phi-3的大部分训练数据基于Python,使用如“typing、math、random、collections、datetime、itertools”等常见包。如果模型生成的Python脚本使用了其他包或使用其他语言的脚本,我们强烈建议用户手动验证所有API使用。

开发者应应用负责任的AI最佳实践,并对其特定用例符合相关法律和法规(例如隐私、贸易等)负责。重要的考虑领域包括
+ 配额:模型可能不适合可能导致对法律地位、资源分配或生命机会产生重大影响的场景,除非进行进一步的评估和额外的去偏见技术。

  • 高风险场景:开发者应评估在高风险场景中使用模型的适用性,在这些场景中不公平、不可靠或冒犯性的输出可能会极其昂贵或导致伤害。这包括在敏感或专家领域提供咨询,这些领域准确性依赖性至关重要(例如法律或健康咨询)。应根据部署上下文在应用层实施额外的安全措施。

  • 误导性信息:模型可能会产生不准确的信息。开发者应遵循透明度最佳实践,并告知最终用户他们正在与AI系统交互。在应用层,开发者可以构建反馈机制和管道,以将响应建立在特定用例的上下文信息上,这种技术被称为检索增强生成(RAG)。

  • 生成有害内容:开发者应评估输出的上下文和使用场景,使用适用于其场景的安全分类器或定制解决方案。

  • 滥用:其他形式的滥用,如欺诈、垃圾邮件或恶意软件制造也可能发生,开发者应确保其应用程序不违反适用的法律和法规。

训练

模型

  • 架构:Phi-3 Mini具有38亿个参数,是一个密集型只解码Transformer模型。该模型通过监督微调(SFT)和直接偏好优化(DPO)进行微调,以确保与人类偏好和安全指南保持一致。
  • 输入:文本。它最适合使用聊天格式进行提示。
  • 上下文长度:128K个令牌
  • GPU:512 H100-80G
  • 训练时间:7天
  • 训练数据:3.3T个令牌
  • 输出:对输入的响应生成的文本
  • 日期:我们的模型是在2024年2月至4月期间训练的
  • 状态:这是一个基于截至2023年10月的离线数据集的静态模型。随着我们对模型进行改进,未来可能发布调整后的模型版本。

数据集

我们的训练数据包括各种来源,总共有3300亿个令牌,其中包括
1)经过严格质量筛选的公开可用文档,选择了高质量的教育数据,以及代码;
2)用于教学数学、编码、常识推理、世界通用知识(科学、日常活动、心智理论等)的目的而新创建的“教科书式”数据;
3)高质量聊天格式监督数据,涵盖各种话题,以反映人类对指令遵循性、真实性、诚实性、帮助性的不同方面的偏好。

软件

许可

该模型根据MIT许可发行

商标

本项目可能包含项目、产品或服务的商标或标志。授权使用微软商标或标志必须符合且必须遵循微软的商标和品牌指南。本项目修改版本中使用微软商标或标志不得造成混淆或暗示微软支持。任何第三方商标或标志的使用均受该第三方政策约束。

资源