最新的70B参数模型。Llama 3.3 70B 的性能与 Llama 3.1 405B 模型相似。
278 次拉取 5 个标签 更新于 2分钟前
QwQ 是一款实验性研究模型,专注于提升 AI 的推理能力。
33.9K 次拉取 5 个标签 更新于 6天前
Llama 3.2 Vision 包含一系列经过指令微调的图像推理生成模型,参数规模分别为 11B 和 90B。
210K 次拉取 9 个标签 更新于 4周前
Meta 的 Llama 3.2 推出了参数规模较小的 1B 和 3B 模型。
4M 次拉取 63 个标签 更新于 2个月前
Llama 3.1 是 Meta 推出的最新最先进的模型,参数规模分别为 8B、70B 和 405B。
12.1M 次拉取 93 个标签 更新于 5天前
Meta Llama 3:目前为止功能最强大的公开可用大型语言模型。
6.9M 次拉取 68 个标签 更新于 6个月前
Mistral AI 发布的 7B 参数模型,已更新至 0.3 版本。
6.3M 次拉取 84 个标签 更新于 4个月前
一个高性能的开放式嵌入模型,具有较大的token上下文窗口。
500万 次下载 3 个标签 更新于 9个月前
Gemma是由Google DeepMind构建的一系列轻量级、最先进的开放模型。已更新至1.1版本。
420万 次下载 102 个标签 更新于 8个月前
Qwen 1.5是由阿里云推出的一系列大型语言模型,参数量从0.5B到110B不等。
410万 次下载 379 个标签 更新于 7个月前
Qwen2是阿里巴巴集团推出的一系列新型大型语言模型。
400万 次下载 97 个标签 更新于 2个月前
Phi-3是由微软推出的系列轻量级最先进的开放模型,包括3B(小型)和14B(中型)两种。
270万 次下载 72 个标签 更新于 4个月前
Llama 2是一系列基础语言模型,参数量从7B到70B不等。
250万 次下载 102 个标签 更新于 11个月前
Qwen2.5模型是在阿里巴巴最新的超大规模数据集上预训练的,包含多达18万亿个token。该模型支持最多128K个token,并支持多语言。
230万 次下载 133 个标签 更新于 2个月前
Google Gemma 2 是一款高性能、高效的模型,提供三种尺寸:2B、9B 和 27B。
210万 次下载 94 个标签 更新于 4个月前
🌋LLaVA 是一款新颖的端到端训练的大型多模态模型,它结合了视觉编码器和 Vicuna,用于通用的视觉和语言理解。已更新至 1.6 版本。
200万 次下载 98 个标签 更新于 10个月前
一个可以使用文本提示生成和讨论代码的大型语言模型。
150万 次下载 199 个标签 更新于 4个月前
最新系列的代码专用 Qwen 模型,在代码生成、代码推理和代码修复方面都有显著改进。
77.5万 次下载 196 个标签 更新于 3周前
Mistral AI 与 NVIDIA 合作构建的先进 12B 模型,上下文长度为 128k。
64.6万 次下载 17 个标签 更新于 4个月前
来自 mixedbread.ai 的最先进的大型嵌入模型。
59.7万 次下载 4 个标签 更新于 7个月前
TinyLlama 项目是一个开放的项目,旨在在一个包含 3 万亿个词元的数据库上训练一个紧凑的 11 亿参数的 Llama 模型。
525.4K 拉取请求 36 标签 更新于 11个月前
Mistral AI发布的一组专家混合(MoE)模型,参数规模为8x7b和8x22b,权重公开。
494.3K 拉取请求 69 标签 更新于 4个月前
StarCoder2是下一代透明训练的开放代码大型语言模型,共有三个尺寸:3B、7B和15B参数。
450.3K 拉取请求 67 标签 更新于 3个月前
基于Mixtral专家混合模型的未经审查的8x7b和8x22b微调模型,擅长编码任务。由Eric Hartford创建。
448.2K 拉取请求 87 标签 更新于 7个月前
CodeGemma是一组功能强大、轻量级的模型,可以执行各种编码任务,例如中间代码填充、代码生成、自然语言理解、数学推理和指令遵循。
433.7K 拉取请求 85 标签 更新于 4个月前
一个开源的专家混合代码语言模型,在特定代码任务中的性能可与GPT4-Turbo媲美。
423.5K 拉取请求 64 标签 更新于 3个月前
Phi-2:微软研究院的2.7B语言模型,展现了卓越的推理和语言理解能力。
412.5K 拉取请求 18 标签 更新于 11个月前
DeepSeek Coder是一个强大的编码模型,其训练数据包含两万亿个代码和自然语言标记。
380.1K 拉取次数 102 标签 更新于 11个月前
George Sung和Jarrad Hope提供的未经审查的Llama 2模型。
377.3K 拉取次数 34 标签 更新于 13个月前
基于Mistral的未经审查的Dolphin模型,擅长编码任务。已更新至2.8版本。
280.7K 拉取次数 120 标签 更新于 8个月前
微软AI提供的最先进的大型语言模型,在复杂的聊天、多语言、推理和代理用例方面性能有所提升。
272.4K 拉取次数 22 标签 更新于 7个月前
Snowflake提供的一套文本嵌入模型,针对性能进行了优化。
258.5K 拉取次数 16 标签 更新于 7个月前
Yi 1.5是一个高性能的双语语言模型。
249.5K 拉取次数 174 标签 更新于 6个月前
Dolphin 2.9是Eric Hartford基于Llama 3开发的新模型,大小分别为80亿和700亿参数,拥有各种指令、对话和编码技能。
249.5K 拉取次数 53 标签 更新于 6个月前
Command R是一个大型语言模型,针对对话交互和长文本任务进行了优化。
247.5K 次拉取 32 个标签 更新于 3个月前
一款通用模型,参数量从30亿到700亿不等,适用于入门级硬件。
241K 次拉取 119 个标签 更新于 13个月前
Zephyr是Mistral和Mixtral模型的一系列微调版本,经过训练可以充当有帮助的助手。
226.5K 次拉取 40 个标签 更新于 7个月前
一个基于Llama 3 Instruct微调的LLaVA模型,在多个基准测试中取得了更好的成绩。
226.3K 次拉取 4 个标签 更新于 7个月前
一个轻量级的AI模型,拥有38亿参数,其性能超越了同等规模甚至更大规模的模型。
188.6K 次拉取 17 个标签 更新于 3个月前
基于非常大的句子级数据集的嵌入模型。
175.3K 次拉取 10 个标签 更新于 7个月前
Codestral是Mistral AI的首个代码模型,专为代码生成任务而设计。
174.1K 次拉取 17 个标签 更新于 3个月前
StarCoder是一个代码生成模型,它使用80多种编程语言进行训练。
172.1K 次拉取 100 个标签 更新于 13个月前
基于Llama和Llama 2的通用聊天模型,上下文大小为2K到16K。
164.9K 次拉取 111 个标签 更新于 13个月前
Mistral OpenOrca 是一个拥有 70 亿参数的模型,它基于 Mistral 7B 模型,并使用 OpenOrca 数据集进行了微调。
161.6K 次拉取 17 个标签 更新于 14个月前
IBM 推出的一系列用于代码智能的开放基础模型。
161K 次拉取 162 个标签 更新于 3个月前
🪐 一系列小型模型,参数分别为 1.35 亿、3.6 亿和 17 亿,训练数据集为全新高质量数据集。
153K 次拉取 94 个标签 更新于 3个月前
Wizard Vicuna Uncensored 是一个基于 Llama 2 的模型,由 Eric Hartford 去除审查机制,参数分别为 70 亿、130 亿和 300 亿。
147.7K 次拉取 49 个标签 更新于 13个月前
基于 Llama 2 的模型,经过微调以提高中文对话能力。
140.2K 次拉取 35 个标签 更新于 13个月前
一个适用于 AI 软件开发场景的多功能模型,包括代码补全。
127.1K 次拉取 17 个标签 更新于 5个月前
一系列在各种数据上训练的开源模型,在多个基准测试中超越了 ChatGPT。已更新至 3.5-0106 版本。
121.1K 次拉取 50 个标签 更新于 11个月前
Cohere 发布的 Aya 23 是一个新的最先进的多语言模型系列,支持 23 种语言。
120.4K 次拉取 33 个标签 更新于 6个月前
BGE-M3是BAAI的一个新模型,其多功能性、多语言性和多粒度性使其脱颖而出。
120.3K 次拉取 3 个标签 更新于 4个月前
CodeQwen1.5是一个在大规模代码数据上预训练的大型语言模型。
118.2K 次拉取 30 个标签 更新于 5个月前
Nous Research推出的强大模型系列,擅长科学讨论和编码任务。
116.8K 次拉取 33 个标签 更新于 11个月前
Command R+是一个功能强大、可扩展的大型语言模型,专为胜任现实世界的企业用例而构建。
113K 次拉取 21 个标签 更新于 3个月前
最先进的代码生成模型
109.2K 次拉取 67 个标签 更新于 11个月前
Stable Code 3B是一个编码模型,具有指令和代码补全变体,与Code Llama 7B等规模大2.5倍的模型不相上下。
108.6K 次拉取 36 个标签 更新于 8个月前
一个实验性的11亿参数模型,由Eric Hartford基于TinyLlama训练,并使用新的Dolphin 2.8数据集。
108.4K 次拉取 18 个标签 更新于 10个月前
OpenHermes 2.5是由Teknium使用完全公开的数据集在Mistral上微调的7B模型。
10.6万 拉取请求 35 标签 更新于 11个月前
Mistral Large 2是Mistral的新旗舰模型,在代码生成、数学和推理方面能力显著增强,拥有128k上下文窗口,并支持数十种语言。
10.6万 拉取请求 32 标签 更新于 13天前
Qwen2 Math是一系列基于Qwen2大型语言模型构建的专业数学语言模型,其数学能力显著优于开源模型,甚至超过一些闭源模型(例如,GPT4o)。
10.5万 拉取请求 52 标签 更新于 3个月前
一个强大的多语言通用语言模型,性能与Llama 3具有竞争力。
10.2万 拉取请求 32 标签 更新于 5个月前
Stable LM 2是一个最先进的语言模型,拥有16亿和120亿参数,使用英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语的多语言数据进行训练。
9.98万 拉取请求 84 标签 更新于 7个月前
BakLLaVA是一个多模态模型,由Mistral 7B基础模型增强LLaVA架构构成。
9.94万 拉取请求 17 标签 更新于 11个月前
一个高性能模型,使用称为反射微调的新技术进行训练,该技术教会LLM检测其推理中的错误并纠正方向。
9.81万 拉取请求 17 标签 更新于 2个月前
一个高级语言模型,使用2万亿双语标记进行训练。
92.8K 次拉取 64 个标签 更新于 12个月前
该模型将LLama-3 8B的上下文长度从8k个token扩展到超过100万个token。
92K 次拉取 35 个标签 更新于 7个月前
专注于数学和逻辑问题的模型
92K 次拉取 64 个标签 更新于 11个月前
基于Mistral的微调模型,具有良好的领域和语言覆盖率。
85.1K 次拉取 50 个标签 更新于 11个月前
moondream2是一个小型视觉语言模型,旨在高效运行于边缘设备。
84.9K 次拉取 18 个标签 更新于 7个月前
基于Llama 3的NVIDIA模型,擅长会话式问答(QA)和检索增强生成(RAG)。
80.5K 次拉取 35 个标签 更新于 6个月前
基于Llama 2的会话模型,在各种基准测试中表现出色。
80.3K 次拉取 80 个标签 更新于 13个月前
SQLCoder是一个代码补全模型,基于StarCoder微调,用于SQL生成任务。
79.7K 次拉取 48 个标签 更新于 10个月前
基于Llama和Llama 2的Nous Research通用模型。
7.8万 拉取请求 63 标签 更新于 13个月前
基于Code Llama的代码生成模型。
76.8万 拉取请求 49 标签 更新于 11个月前
Llama 2的扩展版本,支持高达128k个token的上下文。
74.9万 拉取请求 67 标签 更新于 13个月前
基于StarCoder2的Dolphin模型家族的7B和15B无审查版本,擅长编码。
74.2万 拉取请求 35 标签 更新于 8个月前
基于Llama 2的通用模型。
73.5万 拉取请求 73 标签 更新于 13个月前
一个强大、经济高效的专家混合语言模型。
70.9万 拉取请求 34 标签 更新于 5个月前
Starling是一个大型语言模型,通过强化学习和人工智能反馈进行训练,专注于提高聊天机器人的帮助能力。
63.9万 拉取请求 36 标签 更新于 8个月前
一个在哲学、心理学和人际关系方面接受过训练的伴侣助手。基于Mistral。
63.4万 拉取请求 49 标签 更新于 13个月前
一个由技术创新研究所 (TII) 建立的大型语言模型,用于摘要、文本生成和聊天机器人。
62.7K 次下载 38 个标签 更新于 13个月前
一款紧凑而强大的107亿参数大型语言模型,专为单轮对话设计。
62.7K 次下载 32 个标签 更新于 11个月前
InternLM2.5 是一个具有 70 亿参数的模型,专为实际场景而设计,具有出色的推理能力。
61.9K 次下载 65 个标签 更新于 3个月前
Yi-Coder 是一系列开源代码语言模型,在参数少于 100 亿的情况下,提供了最先进的编码性能。
61.9K 次下载 67 个标签 更新于 2个月前
Hermes 3 是Nous Research公司旗舰Hermes系列大型语言模型的最新版本。
61.2K 次下载 49 个标签 更新于 3个月前
Orca 2 由微软研究院构建,是 Meta 的 Llama 2 模型的微调版本。该模型特别擅长推理。
58.4K 次下载 33 个标签 更新于 12个月前
Athene-V2 是一个拥有 720 亿参数的模型,擅长代码补全、数学和日志提取任务。
57.9K 次下载 17 个标签 更新于 2周前
一个基于Phi 3 Mini微调的新的小型LLaVA模型。
56.2K 拉取次数 4 标签 更新于 7个月前
基于Llama 2模型,在Orca风格的数据集上微调。最初名为Free Willy。
56.1K 拉取次数 49 标签 更新于 13个月前
Eric Hartford发布的27亿参数的未经审查的Dolphin模型,基于微软研究院的Phi语言模型。
51.5K 拉取次数 15 标签 更新于 11个月前
Mistral Small是一款轻量级模型,旨在以经济高效的方式用于翻译和摘要等任务。
50.1K 拉取次数 17 标签 更新于 2个月前
Wizard LM模型的未经审查版本。
48.1K 拉取次数 18 标签 更新于 13个月前
一系列为视觉语言理解而设计的跨模态大型语言模型 (MLLM)。
47K 拉取次数 17 标签 更新于 2周前
Mistral的扩展版本,支持64K或128K的上下文窗口。
43K 拉取次数 33 标签 更新于 13个月前
Llama 2的扩展版本,专注于整合通用的语言理解和特定领域的知识,尤其是在编程和数学领域。
42.8K 拉取次数 33 标签 更新于 11个月前
NVIDIA发布的一款商业友好型小型语言模型,针对角色扮演、RAG问答和函数调用进行了优化。
42.8K 拉取 17 标签 更新于 2个月前
基于开源医学数据集,微调Llama 2模型以回答医学问题。
40.7K 拉取 17 标签 更新于 13个月前
将Llama 2模型适配到医学领域,一个开源的医学大型语言模型。
40.2K 拉取 22 标签 更新于 12个月前
来自Groq的一系列模型,代表了开源AI在工具使用/函数调用能力方面的一项重大进步。
39.4K 拉取 33 标签 更新于 4个月前
Nexus Raven是一个经过130亿参数指令微调的模型,用于函数调用任务。
39.1K 拉取 32 标签 更新于 10个月前
Llama-3.1-Nemotron-70B-Instruct是由NVIDIA定制的大型语言模型,旨在提高LLM对用户查询的响应帮助性。
37.8K 拉取 17 标签 更新于 7周前
Nous Research的Nous Hermes 2模型,现在基于Mixtral进行训练。
35.8K 拉取 18 标签 更新于 10个月前
基于Llama2的优秀的代码生成模型。
34.4K 拉取 19 标签 更新于 13个月前
SmolLM2是一个紧凑型语言模型系列,包含三种尺寸:1.35亿、3.6亿和17亿参数。
33.7K 拉取请求 49 标签 更新于 5周前
基于未经审查的Llama2模型,支持16K上下文窗口。
32.8K 拉取请求 18 标签 更新于 11个月前
🎩 Magicoder是一个包含70亿参数的模型家族,使用7.5万个合成指令数据和OSS-Instruct进行训练,这是一种利用开源代码片段来改进大型语言模型的新方法。
29.7K 拉取请求 18 标签 更新于 12个月前
一个轻量级的聊天模型,能够在无需高端硬件的情况下提供准确且快速的输出。
29K 拉取请求 17 标签 更新于 11个月前
通过合并两个现有的代码模型创建的高性能代码指令模型。
28.7K 拉取请求 16 标签 更新于 13个月前
Falcon2是由TII构建的110亿参数因果解码器模型,在5万亿个token上进行训练。
28.2K 拉取请求 17 标签 更新于 6个月前
Wizard Vicuna是由MelodysDreamj训练的基于Llama 2的130亿参数模型。
27.5K 拉取请求 17 标签 更新于 13个月前
IBM Granite 2B和8B模型旨在支持基于工具的使用场景和检索增强生成(RAG),从而简化代码生成、翻译和错误修复。
27.2K 拉取请求 33 标签 更新于 2周前
MistralLite是基于Mistral的微调模型,增强了处理长上下文的能力。
27.1K 拉取请求 17 标签 更新于 13个月前
由MotherDuck和Numbers Station创建的70亿参数文本转SQL模型。
26.2K 拉取请求 17 标签 更新于 10个月前
MathΣtral:Mistral AI 设计的用于数学推理和科学发现的70亿参数模型。
25.3K 拉取请求 17 标签 更新于 4个月前
MegaDolphin-2.2-120b 是通过将 Dolphin-2.2-70b 模型与自身交错而创建的转换模型。
23.8K 拉取请求 19 标签 更新于 11个月前
一个使用高质量数据微调的顶级专家混合模型。
22.8K 拉取请求 18 标签 更新于 11个月前
Solar Pro 预览版:一个先进的大型语言模型 (LLM),拥有 220 亿参数,设计为可安装在单个 GPU 上。
22.6K 拉取请求 18 标签 更新于 2个月前
一个使用高质量数据微调,并基于 Zephyr 的 70 亿参数聊天模型。
22.1K 拉取请求 18 标签 更新于 11个月前
Open Orca OpenChat 模型和 Garage-bAInd Platypus 2 模型的合并。旨在用于聊天和代码生成。
22K 拉取请求 17 标签 更新于 13个月前
一个通过将两个微调后的 Llama 2 70B 模型组合成一个模型而创建的语言模型。
21.8K 拉取请求 16 标签 更新于 12个月前
一系列将HTML内容转换为Markdown内容的模型,这对于内容转换任务很有用。
21.7K 次拉取 33 个标签 更新于 2个月前
IBM Granite 1B 和 3B 模型是 IBM 设计的首批用于低延迟应用的专家混合 (MoE) Granite 模型。
18.1K 次拉取 33 个标签 更新于 2周前
基于 Phi-3,在一个私有的高质量合成数据集上微调的 38 亿参数模型,用于信息提取。
17.8K 次拉取 17 个标签 更新于 4个月前
DBRX 是 Databricks 创建的一个开放的、通用的 LLM。
16.8K 次拉取 7 个标签 更新于 7个月前
Cohere For AI 训练的语言模型,可在 23 种不同的语言中表现出色。
16.2K 次拉取 33 个标签 更新于 6周前
基于 Llama 3 的开放权重函数调用模型,其功能调用能力可与 GPT-4o 媲美。
15.3K 次拉取 17 个标签 更新于 4个月前
来自 BAAI 的嵌入模型,用于将文本映射到向量。
14.4K 次拉取 3 个标签 更新于 4个月前
一个强大的对话模型,设计用于聊天和指令使用场景。
13.6K 次拉取 7 个标签 更新于 12个月前
阿里巴巴国际数字商业集团 (AIDC-AI) 推出的一种用于解决现实世界问题的开放大型推理模型。
12.2K 次拉取 5 个标签 更新于 2天前
DeekSeek-V2 的升级版本,集成了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的通用能力和编码能力。
11.7K 拉取次数 7 标签 更新于 2 个月前
Bespoke Labs 开发的先进事实核查模型。
11.4K 拉取次数 17 标签 更新于 2 个月前
ShieldGemma 是一套针对指令微调的模型,用于根据一组定义的安全策略评估文本提示输入和文本输出响应的安全。
11.3K 拉取次数 49 标签 更新于 8 周前
Llama Guard 3 是一系列针对大型语言模型输入和响应的内容安全分类而微调的模型。
10.7K 拉取次数 33 标签 更新于 8 周前
可用于聚类或语义搜索等任务的 Sentence-transformers 模型。
9,258 拉取次数 3 标签 更新于 4 个月前
OpenCoder 是一个开放且可复现的代码大型语言模型家族,包括 1.5B 和 8B 模型,支持英语和中文聊天。
9,057 拉取次数 9 标签 更新于 2 周前
Tülu 3 是一个领先的指令遵循模型家族,由艾伦人工智能研究所提供完全开源的数据、代码和方案。
3,768 拉取次数 9 标签 更新于 2 周前
IBM Granite Guardian 3.0 2B 和 8B 模型旨在检测提示和/或响应中的风险。
2,414 拉取次数 10 标签 更新于 2 周前
Snowflake 的前沿嵌入模型。Arctic Embed 2.0 在不牺牲英语性能或可扩展性的前提下增加了多语言支持。
614 次拉取 3 个标签 更新于 昨天
Sailor2 是一款面向东南亚的多语言模型。提供 1B、8B 和 20B 参数规模的模型。
458 次拉取 13 个标签 更新于 两天前