Phi-3 Mini是微软的一个3B轻量级前沿开源模型。更新于2024年7月。

3B

139次pull 更新于7周前

自述文件

image.png

  • fp32的量化
  • 使用i-matrix calibration_datav3.txt进行校准

Phi-3是微软开发的开源AI模型系列。

参数大小

上下文窗口大小

  • 4k ollama run mannix/phi3-mini-4k

Phi-3 Mini

Phi-3 Mini是一个3.8B参数,重量级,是最先进的开源模型,它是使用Phi-3数据集训练的,包括合成数据和对公众可用的过滤网页数据的筛选,重点是高质量和推理密集型属性。

该模型经过后训练过程,结合了监督微调和直接偏好优化,以确保精确遵循指令和采取稳健的安全性措施。

当与评估常识、语言理解、数学、代码、长上下文和逻辑推理的基准测试相比较时,Phi-3 Mini-4K-Instruct在参数小于13亿的模型中展示了强大的先进性能。

Phi-3 中型

Phi-3 中型是一个14B参数的语言模型,其性能优于Gemini 1.0 Pro。

image.png

预期用途

主要用例

该模型旨在用于英语的商业和研究用途。该模型适用于需要以下应用的场合:
1) 存储或计算受限的环境
2) 延迟受限的场景
3) 强大的推理能力(特别是数学和逻辑)
4) 长上下文

我们的模型旨在加速语言和跨模态模型的研究,作为基于生成人工智能功能的构建块。

用例 considerations

我们的模型不是专门为所有下游用途设计的或评估的。开发者在选择用例时应考虑语言模型的常见局限性,并在特定下游用例中使用之前评估和减轻准确性、安全性和公平性,特别是在高风险场景中。
开发者应了解并遵守与其用案相关的适用法律或法规(包括隐私、贸易合规法律等)。
本模型卡片中包含的内容不应被理解为或认为是对该模型发布的许可的任何限制或修改。

负责任的AI考虑

类似于其他语言模型,Phi系列模型可能会表现出不公平、不可靠或冒犯性的行为。应警惕的一些限制行为包括

  • 服务质量:Phi模型主要由英语文本训练。除英语以外的语言可能会经历更差的表现。在训练数据中代表性较低的非标准美式英语可能会表现出比标准美式英语更差的表现。

  • 危害的表征和刻板印象的持续:这些模型可能过度或不足地代表某些人群,消除某些群体的代表性,或加强贬低或消极的刻板印象。尽管经过安全后训练,由于不同群体表征水平的不同或训练数据中反映了现实世界模式和 societal biases的负面刻板印象例子的普遍性,这些限制可能仍然存在。

  • 不适当或冒犯性内容:这些模型可能会产生不适当或冒犯性的其他内容,这可能在没有额外的针对特定用例的缓解措施的情况下,使得在敏感环境中部署不适当。

  • 信息可靠性:语言模型可以生成无意义的内容或在看似合理但实际上不准确或过时的内容中造假。

  • 代码范围的限制:Phi-3的大部分训练数据基于Python,使用常见包如“typing、math、random、collections、datetime、itertools”。如果模型生成利用其他包或不同语言的脚本的Python脚本,我们强烈建议用户手动验证所有API的使用。

开发者应应用负责任的AI最佳实践,并负责确保特定用例符合相关的法律法规(例如隐私、贸易等)。重要考虑领域包括
+ 分配:在没有进一步评估和附加去偏见技术的情况下,模型可能不适合可能对法律地位、资源分配或生活机会有重大影响的场景(例如:住房、就业、信贷等)。

  • 高风险场景:开发者在评估使用模型于高风险场景的适用性时,应考虑不公平、不可靠或不适当的输出可能造成极大损失或造成伤害。这包括在准确性、可靠性至关重要的敏感或专家领域中提供建议(例如:法律或健康建议)。应根据部署环境在应用级别实施额外的保障措施。

  • 虚假信息:模型可能生成不准确的信息。开发者应遵循透明度最佳实践,并告知最终用户它们正在与一个AI系统互动。在应用层面,开发者可以构建反馈机制和管道,以使用案特定、情境信息来定位响应,这种技术称为检索增强生成(RAG)。

  • 有害内容的生成:开发者应评估输出的情境并使用适合其用例的安全分类器或自定义解决方案。

  • 滥用:其他形式的滥用,如欺诈、垃圾邮件或恶意软件生产也可能是可能的,开发者应确保其应用不违反适用的法律和法规。

培训

模型

  • 架构:Phi-3 Mini具有3.8B个参数,是一个密集型仅变换器模型。模型通过监督微调(SFT)和直接偏好优化(DPO)进行微调,以确保与人类偏好和安全指南保持一致。
  • 输入:文本。它最适合用于聊天格式的提示。
  • 上下文长度:128K个标记
  • GPU:512 H100-80G
  • 训练时间:7天
  • 训练数据:3.3T个标记
  • 输出:对输入的响应生成的文本
  • 日期:我们的模型是在2024年2月至4月之间训练的
  • 状态:这是一个基于离线数据集且有截止日期为2023年10月的静态模型。随着模型的发展,未来可能发布调整模型的版本。

数据集

我们的训练数据包括广泛的来源,总共有3.3万亿个标记,是以下内容的组合:
1) 经过严格质量筛选的公开可用文档,选择了高质量的受教育数据、代码;
2) 为教学数学、编码、常识推理、世界一般知识(科学、日常生活、心智理论等)目的而创建的新造(interval)的、“教科书”式(style)数据;
3) 包含各种主题的高质量聊天格式监督数据,以反映人类对不同方面的偏好,如指令遵循、真实性、诚实和有益性。

软件

许可证

该模型根据MIT许可证授权。

商标

本项目可能包含项目、产品或服务的商标或徽标。Microsoft商标或徽标的授权使用必须遵循和遵守Microsoft的商标和品牌指南。对修改后此项目中的Microsoft商标或徽标的使用不应引起误导或暗示Microsoft的赞助。任何第三方商标或徽标的使用均受第三方政策约束。

资源