王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署
衡宇 金磊 发自 凹非寺
量子位 | 公众号 QbitAI
就在刚刚,王小川的开源大模型又有了新动作——
百川智能,正式发布130亿参数通用大语言模型(Baichuan-13B-Base)。
并且官方对此的评价是:
性能最强的中英文百亿参数量开源模型。
与此一同出道的,还有一个对话模型Baichuan-13B-Chat,以及它的INT4/INT8两个量化版本。
但更重要的一点是(划重点),完全开源!免费可商用!
就在不久前的6月15日,百川智能才刚刚发布其第一款70亿参数量的中英文语言模型Baichuan-7B。
当时的版本便已经拿下多个世界权威Benchmark榜单同量级测试榜首;同样作为开源大模型,据说清华北大都已经用上了。
仅仅时隔25天,更大、更强的版本再次袭来,不得不说,王小川在技术上的动作是有够紧锣密鼓的了。
那么这次号称的“最强开源大模型”,具体表现又是怎样呢?
多领域超越ChatGPT
老规矩,先提纲挈领地说一下Baichuan-13B的基本个“模”资料:
中英双语大模型,130亿参数,在1.4万亿token数据集上训练,完全开源、免费可商用。
1.4万亿ztoken这个训练数据量,超过LLaMA-13B训练数据量的40%,是当前开源的13B尺寸模型世界里,训练数据量最大的模型。
此外,Baichuan-13B上下文窗口长度为4096——这就不得不提到其与7B版本完全不同的编码方式。
7B版本采用RoPE编码方式,而13B使用了ALiBi位置编码技术,后者能够处理长上下文窗口,甚至可以推断超出训练期间读取数据的上下文长度,从而更好地捕捉文本中上下文的相关性,让预测或生成更准确。
作为一款中英文双语大模型,Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料,从而在中英两种语言上都有不俗表现。
△主流百亿参数13B开源模型benchmark成绩
来看看Baichuan-13B在中文领域的测评成绩。
在评测集C-EVAl上,Baichuan-13B在自然科学、医学、艺术、数学等领域领先LLaMA-13B、Vicuna-13B等同尺寸的大语言模型。
社会科学和人文科学领域,水平比ChatGPT还要好上一点。
英文领域的表现也算不错,能比同尺寸的其他开源模型,如LLaMA-13B、Vicuna-13B都有更好的表现。
通常而言,非专业用户和有具体需求的企业,对有对话功能的对齐模型有更重的好奇心。
鉴于这个情况,百川智能此次在发布与训练模型底座Baichuan-13B-Base的同时,还发布了其对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。
来看看对话模型的实际表现效果——
让它写个商品介绍邮件,它能写出酱婶儿的:
数据推理能力如何?
也浅测了一番:
至于互联网上远古或新近流行的各种梗,Baichuan-13B-Chat好像也没在怕的:
官方介绍,为了保证模型的纯净度,Baichuan-13B-Base和Baichuan-13B-Chat没有针对任何benchmark测试进行专项优化,具有更高的效能和可定制性。
为什么要完全开源、可商用?
正如我们刚才提到的,这次百川智能推出的Baichuan-13B-Base是对学术研究完全开放。
不仅如此,所有开发者均可通过邮件向百川智能申请授权,在获得官方商用许可后即可免费商用。
而且据官方的说法,百川智能是为了降低使用的门槛,才同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本。
这样一来,在近乎无损的情况下,便可以将模型部署在如3090等消费级显卡上。
想必很多小伙伴就要问了,百川智能为什么要走这么一条路?
其实如果看下Meta在大模型上的开源之路,便可窥知一二。
我们都知道大模型在训练的成本极高,因此像OpenAI和谷歌两大科技巨头最初选择的是闭源的“路数”,它们为的就是以此保证自己的优势。
而Meta后来所推出的LLaMa则与之“背道而驰”,但所迸发出来的潜力却是有目共睹——
迅速吸引大批开发者,在LLaMa基础上迭代出了各种ChatGPT的替代品,甚至在性能的表现上是可以匹敌GPT-3.5的那种。
加之业界对大模型未来发展态势已经达成了一个共识:
类似安卓和iOS,将会是开源和闭源共存的状态。
因此,开源在大模型的发展中已然成为一股不可或缺的中坚力量。
……
那么你对于王小川的新大模型,有何看法呢?
【HuggingFace】
预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
【GitHub】
https://githuB.com/Baichuan-inc/Baichuan-13B
【Model Scope】
预训练模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/
— 联系作者 —
— 完 —
「AIGC+垂直领域社群」
招募中!
欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!
请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里👇关注我,记得标星哦~
-
DeepSeek 一体机:开启智算新时代,融合知识库与智能体的创新力量
在当今人工智能飞速发展的时代,技术的创新与融合正以前所未有的速度重塑着各个行业。其中,DeepSeek 一体机凭借其卓越的性能和独特的设计,成为了推动人工智能应用落地的关键力量。它不仅集成了强大的 DeepSeek-R1 大模型,还在本地化部署、与知识库及智能体的融合等方面展现出巨大优势,为企业和开发者提供了高效、便捷且安全的智算解决方案。同时,随着市场对其需求的增长,如何正确购买 DeepSeek 一体机也成为了关注焦点。
넶0 2025-04-30 -
RAG、知识库与智能体:n8n、coze、dify、fastgpt、mcp 驱动的智能生态新变革
在当今人工智能蓬勃发展的时代,新技术、新应用层出不穷,不断重塑着各个行业的格局。其中,RAG(Retrieval-Augmented Generation,检索增强生成)、知识库与智能体技术正逐渐成为推动智能化发展的关键力量,而 n8n、coze、dify、fastgpt、mcp 等平台和工具则为这些技术的落地与创新应用提供了有力支撑,共同构建起一个充满活力的智能生态体系。
넶0 2025-04-30 -
InfiniBand 组网与 GPU 池化管理:英伟达与迈络思携手构建高效算力调度体系
在当今数字化浪潮中,随着人工智能、大数据分析、科学模拟等数据密集型应用的迅猛发展,对算力的需求呈指数级增长。为了满足这一需求,构建高效的计算架构成为关键。其中,InfiniBand(IB)组网、GPU 池化管理以及算力调度技术,在提升计算效率、优化资源利用方面发挥着核心作用,而英伟达与迈络思的深度合作更是为这一领域带来了创新的解决方案。
넶0 2025-04-30 -
PICO 与 HTCVIVE 引领大空间多人互动新潮流,解锁数字人动作捕捉新体验
在科技飞速发展的当下,虚拟现实(VR)技术正以前所未有的速度改变着我们的生活与娱乐方式。从最初简单的头戴式设备体验,到如今能够实现大空间多人互动的沉浸式环境,VR 技术不断突破边界。而在这一发展浪潮中,PICO 与 HTCVIVE 作为行业的佼佼者,正引领着新的潮流,尤其是在大空间多人互动以及数字人动作捕捉领域,展现出了强大的技术实力与无限的应用潜力。
넶0 2025-04-30 -
算力租赁市场崛起:英伟达 H20 驱动的 GPU 集群与 AI 服务器新变革
在当今数字化时代,数据量呈爆炸式增长,人工智能(AI)技术的应用也日益广泛。从智能语音助手到图像识别系统,从自动驾驶汽车到医疗诊断辅助工具,AI 技术正深刻改变着我们的生活和工作方式。而这一切的背后,强大的算力支撑起着至关重要的作用。算力,作为推动 AI 发展的核心动力,其需求正随着 AI 应用的不断拓展而急剧攀升。在此背景下,算力租赁市场应运而生,并逐渐成为行业关注的焦点。
넶0 2025-04-30 -
DeepSeek 一体机:开启智能体、知识库与大模型本地化部署新篇
在人工智能技术日新月异的当下,企业与开发者对高效、便捷且安全的 AI 解决方案需求愈发迫切。DeepSeek 一体机的出现,宛如一场及时雨,为智能体应用开发、知识库搭建以及大模型本地化部署带来了全新的可能。它与 n8n 工作流平台的潜在协同,更是为构建全面智能生态系统提供了强大助力。
넶4 2025-04-29