百川大模型官网网址:https://www.baichuan-ai.com/
“生活在二十一世纪初是如此幸运,波澜壮阔的互联网***
还没有谢幕,通用人工智能时代又呼啸而来。AI成功将语言
转化成了数学模型,语言承载的知识、思考、沟通和文化,
也成为了数学问题。这不仅将重塑现有行业,更将创造前所
未有的价值和机遇。我***动心的是,能和一群有理想的人,
用***致的技术驱动创造出颠覆性的智能产品,帮助大众轻
松、普惠地获取世界知识和专业服务。我们渴求来自中国的
领军人物、行业专家以及远在美国的同仁加入,把自己的智
慧注入AI,做新时代的开创者,繁荣和延续人类文明。
百川智能***人王小川
百川智能,共赴山海
今天我正式宣布,创建“百川智能”,一家研发并提供通用人工智能服务的中国公司。
生活在二十一世纪初是如此幸运,波澜壮阔的互联网***还没有谢幕,通用人工智能时代又呼啸而来。多年前我曾断言,机器掌握语言,通用人工智能时代就来了;我也有畅想,搜索的未来是问答。ChatGPT的腾空出世,地动山摇,这***都开始成为现实。ChatGPT发布到今天,仅仅131天,每天都有扑面而来的新进展、新突破。131天恍如隔世!
大半个世纪以来,科学家们前赴后继,努力创造通用智能机器。这***终于到来,我们找到了一条巧妙的路径,用AI成功将语言转化成了数学模型。语言是知识、思考、沟通和文化的载体。维特根斯坦说,语言的边界就是世界的边界。当AI掌握了语言后,就开始认知世界,成为有知识、能思考、善表达、会学习的智能体。我把这样的智能体称为“语言AI”。
人类个体总有消亡的***,但能够将毕生的知识通过语言记录下来供新生命学习、继承,文明因此延续。人类协作也需要个体之间通过语言沟通。掌握了沟通和世界知识的语言AI不再只是人类的“工具”,而将成为我们的伙伴和***助理,成为人类文明的一部分。
智能时代会改写互联网时代的范式。‘连接’会被‘陪伴’取代,‘信息服务’会被‘知识服务’取代,‘免费与广告’会被‘付费与高品质’取代。
智能时代也会改写自工业时代以来的范式。曾经是专业化社会分工带来规模效应与效率提升,而未来会是逆专业化分工:之前需要很多公司协作完成的工作,会因为AI的赋能‘端到端’的完成。
智能时代将再一次开启“文艺复兴”。每个人都会因为AI的助力而变得更加强大。用好AI,一个人就可能做一个公司,解决之前难以解决的难题,也更容易成为自己想成为的人。社会也会更加扁平,以前少数人才能享有的智力服务,也能更普惠。
告别搜狗后,我已开启新的远征:立志往后二十年,为生命科学和医学的发展尽一份力,为大众健康做出一点贡献,核心路径是构建生命健康数学模型,并已经付诸行动。ChatGPT的出现,也将成为新远征的重要助力。
不仅如此,ChatGPT是我过往经历的延续和升华。2019年我将搜狗的使命升级为“让表达和获取知识更简单”,愿景定义为“帮助每个人轻松地对话和书写。便捷地获得知识和服务,提升工作效率和生活品质”。
搜狗输入法和搜狗搜索的数据制备和产品形态,也与ChatGPT接近。它们都是把互联网上的全部语言数据收集、清洗,压缩成数据库并构建***产品。随着深度学习的发展,这些产品都多次选代升级,全面用上了Transformer/Bert等技术。输入法猜你想说什么,搜索猜你想要什么。而ChatGPT把这些能力推到了一个全新的高度,是输入法、搜索之外,第三个把全网数据转化成语言服务的***产品。搜狗未尽的使命在机器掌握了语言后终于可以实现。
很多朋友认可我的技术理想主义和技术驱动的创业经验,鼓励和支持我做中国的OpenAI。也有很多搜狗和非搜狗的技术大拿,得知我有做大模型的想法,主动申请参与组队,甚至“带资入组”。
我***动心的是,能和一群有理想的人,用***致的技术驱动创造出颠覆性的智能产品。这一次,百川智能将借助语言AI的突破,构建中国***的大模型底座,并在搜索、多模态、教育、医疗等方面增强,帮助大众轻松、普惠的获取世界知识和专业服务。
筹建百川智能不到两个月,已有多位技术合伙人和领军人物的加入。到这个月底将会有近50人规模的精英团队。大模型的训练也已经启动,进展顺利。按照现在的进度,争取年内发布国内***的大模型和颠覆性的产品。
我们是中国公司,但我们并不希望只是“中国的OpenAI”,而是能建立***的视野和技术品质,让中国享有***的产品,产生有世界影响力的技术的突破,进而服务海外。百川本意是众多的河流汇集奔赴海洋,象征着众多数据、行业知识汇聚成为一个强大的智能体系,生生不息。百川也象征着集百家智慧,更多人与我一道共赴山海。我们呼唤中国的领军人物、行业产品经理和远在美国的同仁的加入。
同志们,请通过如下邮箱联系我们:
80@baichuan-inc.com
90@baichuan-inc.com
95@baichuan-inc.com
00@baichuan-inc.com
oier@baichuan-inc.com
通用人工智能时代刚刚开启,我们作为***批跨入新时代的人类,带着焦虑和好奇去拥抱它,思考和探索“我是谁?”我们还可以把自己的智慧注入它,做新时代的开创者,让后代们有一个更美好的未来,繁荣和延续人类文明。
百川智能CEO 王小川
2023年4月10日
百川智能成立于2023年3月24日,由前搜狗公司CEO王小川创立。公司以帮助大众轻松、普惠地获取世界知识和专业服务为使命,致力于通过语言AI的突破,构建中国***秀的大模型底座。公司核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI***人才组成。百川智能成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型,且在多个权威评测榜单均名列前茅,下载量突破百万
LYY | 工程师
“我们是一个以技术和创新为驱动的团队,在百川我有机会参与***的人工智能项目,不断挑战自我,不断学习成长。与志同道合的同事们一起攻克技术难关,解决现实问题,让我觉得工作充满了价值。”
小熊 | 产品经理
“作为AI产品经理,我既会与技术大牛紧密协作,深入前沿技术,也会从用户视角去思考AI,贴近真实需求。在通往AGI的旅途上,能与优秀的同事们并肩同行、探索未来,我感到无比幸运。”
KK | 技术专家
“我想用‘翻山越岭,披荆披棘’来形容过去的数月,但这个词也太贫乏了。我们在构建一个智能世界的路上,带着创新的火炬,寻找未知的独角兽。与公司共同奋斗的日子,就像马拉松,跑的是耐力,赢的是信念。”
SX | 行政小姐姐
“加入这个大家庭已经快三个月了,这段时间里发觉自己努力许多,进步不少,在这个团队里,让我学到了许多以前没有学过的东西,人之所以能,是因为相信能!投入才会深入,付出才会杰出,用心才会开心!”
以下是豆包分析的: 百川大模型的优缺点分析
引言
在人工智能快速发展的当下,大模型已成为推动各领域变革的关键力量。百川大模型作为众多大模型中的一员,自诞生以来就备受关注。它由百川智能公司开发,在自然语言处理等领域有着广泛应用。深入剖析百川大模型的优缺点,对于我们更好地理解和应用这一技术具有重要意义。接下来,我们将从多个维度对百川大模型展开分析。
百川大模型的优点
强大的语言处理能力
语言理解深度:百川大模型基于深度学习架构,特别是 transformer 架构,通过自注意力机制能够深入捕捉输入序列中的依赖关系。这使得它在理解语言时,无论上下文的距离有多远,都能精准把握语义。例如在处理一篇长文章时,它可以准确理解复杂句子结构中词汇之间的关联,像分析文学作品中隐晦的隐喻和象征意义时,能给出较为深刻和准确的解读,相比一些传统模型,在语言理解的深度上有了质的飞跃。
语言生成自然度:在语言生成方面,百川大模型表现出色。它经过大规模语料库的训练,生成的文本自然流畅,逻辑连贯。以撰写新闻稿件为例,它生成的内容不仅语法正确,而且在语言风格上也符合新闻的客观性和简洁性要求,语句之间的过渡自然,能够像专业记者撰写的稿件一样通顺易懂。
高度的灵活性与扩展性
模块化设计优势:百川大模型采用模块化设计,这使得它能够根据不同的需求进行定制和扩展。在智能客服领域,企业可以根据自身业务特点,对百川大模型进行模块调整,使其更精准地理解客户的问题,并提供针对性的回答。比如电商企业可以将商品信息查询、售后服务等功能模块与百川大模型相结合,打造出专属于电***景的智能客服系统,提升客户服务效率和质量。
多领域适应性:由于其灵活的扩展性,百川大模型可以轻松适应不同领域和场景的需求。在医疗领域,它可以协助医生进行病历分析、疾病诊断建议等工作;在金融领域,能够进行风险评估、投资策略制定等。它就像一个多面手,通过适配不同领域的数据和业务逻辑,为各行业提供定制化的人工智能解决方案 。
高效的性能
数据处理速度:百川大模型具有高效的性能,能够快速处理大量的文本数据。在内容创作领域,当需要生成大量的文案时,如广告文案批量生成、小说章节创作等,它可以在短时间内完成任务,大大提高了内容生产的效率。相比一些处理速度较慢的模型,百川大模型能够满足企业和创作者对于快速产出内容的需求。
推理速度快:在面对用户的问题时,百川大模型能够迅速进行推理并给出答案。以智能问答系统为例,用户提问后,它能在***短的时间内理解问题、搜索相关知识并组织答案,实现即时回复,为用户提供流畅的交互体验,这在实时性要求较高的场景中具有重要优势。
丰富的知识储备与准确的回答
知识覆盖广度:通过大规模的语料库训练,百川大模型掌握了大量科学、文化、艺术等领域的知识。无论是历史事件、科学原理还是文学作品赏析,它都能提供丰富的信息。当用户询问关于古代历史文化的问题时,它可以详细介绍相关的历史背景、人物事迹、文化特点等,涵盖多个方面的知识,满足用户对知识广度的需求。
回答准确性:在回答用户问题时,百川大模型凭借其强大的语言理解和知识储备能力,能够提供准确的答案。对于常识性问题和专业领域的问题,它都能依据所学知识进行准确解答。在专业领域的问题上,如医学、法律等,它给出的答案经过了严格的知识推理和验证,具有较高的可信度,能够为专业人士提供一定的参考。
持续的学习和进化能力
模型优化更新:百川大模型可以通过不断学习和优化,提升自身的能力和性能。开发团队会持续收集新的数据,对模型进行训练和更新,使其能够适应不断变化的语言环境和用户需求。例如随着新的科学研究成果、社会热点事件的出现,模型能够及时学习相关知识,在回答用户问题时提供***、***准确的信息。
适应新场景和任务:随着技术的发展和应用场景的拓展,百川大模型能够不断进化以适应新的任务和挑战。在新兴的人工智能应用场景中,如智能物联网设备的交互控制、虚拟现实中的智能对话等,百川大模型通过技术升级和优化,逐渐具备在这些新场景中发挥作用的能力,持续为用户提供更好的服务。
多模态能力
视觉与语言融合:百川大模型具备行业***的多模态能力,能够实现视觉与语言的融合。在处理图像相关的任务时,它不仅能够识别图像中的物体,还能对图像内容进行描述和分析,实现从图像到文字的转换。比如输入一张风景照片,它可以描述出照片中的景色特点、色彩氛围等,并且还能根据图像内容进行创意性的文字创作,如撰写一首关于该风景的诗歌。
音频与语言融合:在音频与语言融合方面,百川大模型可以实现语音识别和语音合成功能。它能够准确识别用户的语音指令,并将其转换为文本进行处理,然后再将生成的文本内容转换为自然流畅的语音输出。在智能语音助手场景中,用户可以通过语音与百川大模型进行交互,实现语音搜索、语音问答等功能,提升了用户交互的便捷性和自然性。
低推理成本
经济实惠的调用价格:以 baichuan4-air 模型为例,百川首创 pri 架构的 moe 模型,并针对企业场景专项优化,大幅降低了推理成本,调用单价仅为 0.98 厘 / 千 token。对于企业用户来说,这意味着在使用百川大模型进行大规模数据处理和应用时,可以有效控制成本。相比一些推理成本较高的模型,百川大模型在***性能的同时,为企业节省了大量的资金投入,使得更多企业能够负担得起大模型技术的应用。
部署成本优势:百川大模型在部署方面也具有成本优势。它能够高效适配英伟达 4090/a/h 系列、华为昇腾、寒武纪、高通、mtk、天数等多种主流芯片,企业无需为了适配模型而进行大规模的硬件更换或升级,降低了硬件采购和维护成本。同时,百川智能提供的一站式大模型商业化解决方案,也简化了模型部署的流程,减少了企业在部署过程中的人力和时间成本投入。
开源与免费商用
推动技术共享:百川智能发布了 baichuan-7b、baichuan-13b 两款开源可免费商用的中文大模型,这一举措***大地推动了人工智能技术的共享和发展。开源社区的开发者可以基于这些模型进行二次开发和优化,促进了技术的创新和应用的拓展。例如一些小型创业公司可以利用这些开源模型快速搭建自己的人工智能应用,降低了技术研发门槛,激发了市场的创新活力。
多领域应用助力:这些开源模型在多个权威评测榜单均名列前茅,在中文和英文的 benchmark 上都取得了同尺寸***的效果。它们被广泛应用于教育、科研、文化等多个领域。在教育领域,教师可以利用这些模型开发智能教学辅助工具,帮助学生更好地学习语言知识和解决问题;在科研领域,研究人员可以基于模型进行自然语言处理相关的研究,推动学术的进步。
百川大模型的缺点
参数数量与训练成本
训练时间长:百川大模型的参数数量庞大,这使得模型训练需要消耗大量的时间。在训练过程中,需要对海量的数据进行处理和学习,每一次参数的更新都需要经过复杂的计算。对于一些对时间要求较高的应用场景,长时间的训练可能导致模型无法及时适应新的数据和需求。例如在新闻资讯领域,需要模型能够快速学习***的新闻事件和知识,以提供准确的新闻***和解读,但较长的训练时间限制了模型的实时性。
计算资源需求大:为了完成大规模的模型训练,百川大模型需要大量的计算资源,包括高性能的服务器、GPU 集群等。这不仅增加了硬件设备的采购成本,还需要投入大量的电力资源来维持设备的运行。对于一些资源有限的企业和研究机构来说,高昂的计算资源成本成为了应用百川大模型的一大障碍。例如小型科研团队可能无法承担如此大规模的计算资源投入,从而无法充分利用百川大模型进行研究工作。
泛化能力有待提升
特定场景适应性不足:尽管百川大模型在很多通用场景下表现出色,但在一些特定场景和任务中,其泛化能力可能不如一些更先进的模型。在一些专业性***强的领域,如航空航天领域的复杂工程问题、量子物理领域的前沿研究问题等,百川大模型可能无法准确地将已有的知识和能力应用到这些特殊场景中,需要进一步优化和训练才能更好地适应。
新任务学习能力有限:当面对一些全新的、未在训练数据中充分体现的任务时,百川大模型的学习和适应能力相对有限。例如在新兴的跨学科研究领域,涉及到多个领域知识的融合和创新应用,百川大模型可能需要更多的时间和数据来学习和掌握新的任务模式,在初期可能无法快速给出准确有效的解决方案。
存在一定的幻觉问题
回答准确性干扰:在某些情况下,百川大模型可能会产生幻觉问题,即生成一些看似合理但实际上与事实不符的回答。在知识问答中,对于一些模糊或复杂的问题,模型可能会基于已有的知识进行推测和联想,但这种推测可能会偏离实际情况,给出错误的答案。这在对回答准确性要求***高的场景中,如医疗诊断建议、法律咨询等,可能会带来严重的后果。
内容可靠性影响:在内容创作方面,幻觉问题也会影响生成内容的可靠性。例如在撰写科普文章时,如果模型出现幻觉,可能会传播错误的科学知识,误导读者。虽然百川大模型通过高质量数据体系和搜索增强等方式,在一定程度上降低了幻觉问题,但目前仍然无法***消除。
数据偏见风险
训练数据局限性:百川大模型的训练数据来源于大量的文本语料库,这些数据可能存在一定的偏见。如果训练数据中某些领域或群体的信息被过度代表或不足代表,模型在学习过程中可能会吸收这些偏见,并在回答问题或生成内容时表现出来。例如在性别、种族等社会议题上,如果训练数据存在偏见,模型可能会生成带有歧视性或片面性的观点,这在社会公平和多元性方面可能会产生负面影响。
决策公正性影响:在一些基于百川大模型的决策系统中,数据偏见可能会导致决策的不公正。例如在招聘筛选、信用评估等场景中,如果模型受到数据偏见的影响,可能会对某些群体产生不公平的评价和决策,损害这些群体的利益,违背了公平公正的原则。
可解释性差
模型内部机制难以理解:作为一种基于深度学习的大模型,百川大模型的内部机制较为复杂,难以被人类直观地理解。它通过大量的参数和复杂的神经网络结构进行学习和推理,对于模型如何做出决策、如何生成特定的回答,缺乏清晰的解释路径。这在一些对模型决策过程需要透明化的场景中,如金融风险评估、医疗诊断决策支持等,可能会限制模型的应用。
用户信任度影响:由于模型的可解释性差,用户可能对百川大模型的回答和决策结果缺乏信任。在面对重要的决策或问题时,用户往往希望能够了解模型的推理过程和依据,以便判断结果的可靠性。但百川大模型目前难以满足这一需求,导致用户在使用过程中可能存在疑虑,影响了模型的推广和应用。
结论
百川大模型作为人工智能领域的重要成果,具有强大的语言处理能力、高度的灵活性、高效的性能等众多优点,在智能客服、内容创作、智能制造、智慧金融、智能教育等多个领域展现出了巨大的应用***,为各行业的发展带来了新的机遇和变革。然而,它也存在一些缺点,如参数数量与训练成本问题、泛化能力有待提升、存在幻觉问题、数据偏见风险以及可解释性差等。
随着技术的不断发展和研究的深入,相信百川大模型的开发团队会不断优化和改进模型,逐步解决这些问题。未来,百川大模型有望在模型规模、效率、可解释性等方面取得更大的突破,进一步提升其性能和应用价值,为推动人工智能技术的发展和社会的进步做出更大的贡献。同时,我们也需要在应用百川大模型的过程中,充分认识到其优缺点,合理利用其优势,规避其不足,以实现更好的应用效果。
百川智能的百川大模型与百度没有直接关联,二者是相互独立的竞争关系,具体如下:
公司层面:百川智能成立于 2023 年 4 月 10 日,由前搜狗公司 CEO 王小川创立,核心团队由来自搜狗、百度、华为、微软、字节跳动、腾讯等知名科技公司的 AI ***人才组成。而百度是一家于 2000 年 1 月 1 日由李彦宏、徐勇创立于北京中关村的中国互联网公司,主要经营搜索引擎服务。两家公司在股权结构、公司治理等方面没有交集。
模型技术层面:百川大模型和百度的文心一言等模型都是各自公司独立研发的成果。百川智能自 2023 年 6 月起陆续发布了多款大模型,如 Baichuan-7B、Baichuan-53B、Baichuan2 系列、Baichuan4 系列等。百度则早在 2019 年就发布了文心大模型,后续推出了基于此的文心一言等产品。它们在模型架构、训练数据、优化算法等方面都有各自的特点和技术路线,不存在技术上的继承或关联。
市场竞争层面:二者在人工智能大模型领域存在竞争关系。例如,2023 年 8 月 31 日,百度和百川智能的大模型同时宣布通过《生成式人工智能服务管理暂行办法》备案,面向公众开放。此外,在市场推广、用户获取、应用场景拓展等方面,百川智能和百度也都在积***竞争,争取在人工智能市场中占据更大的份额。
Baichuan4-Turbo新发布
企业场景优化
高性价比
更快速度
针对企业高频场景优化,可用性相对Baichuan4提升10%+;部署和推理成本低,价格仅为GPT-4o的80%;首token响应速度和token流速大幅提升。
加入体验
Baichuan4-Air新发布
首创MoE架构
***致性价比
***快速度
百川首创PRI架构的MoE模型,并针对企业场景专项优化;大幅降低推理成本,调用单价仅为0.98厘/千token;模型性能业界***,时效性大幅***国际主流MoE模型。
加入体验
Baichuan4
Search Agent
长窗口
多模态
SuperCLUE评测,模型能力国内***。在知识百科、长文本、生成创作等中文任务上超越国外主流模型。还具备行业***的多模态能力,多项权威评测基准表现优异。
加入体验
基准测试
Baichuan2-13B
Baichuan2-7B
Baichuan-13B
Baichuan-7B
Baichuan2-13B相比上一代13B模型,数学能力提升49%,代码能力提升46%,安***力提升37%,逻辑推理能力提升25%,语义理解能力提升15%
baichuan13B-表格
国际中/英文权威评测数据集(2023年9月6日)
学术支持
Baichuan2 技术报告
报告整理了模型训练细节和优化方案,对Baichuan2 数据、模型结构、目标函数的优化、以及分布式计算系统、模型动态评估等做了详细说明,以促进大模型研究技术发展
查看报告
Baichuan2 公开全过程切片
百川将训练的中间过程,从200B 到2640B 数据的全训练过程中间权重全部开源,推动社区和科研机构更好地探索模型内部的动态过程,更深入的研究大语言模型的内在机理
Checkpoints 下载
学术界寄语
基于行业***的基础大模型研发和创新能力,百川智能收获了张钹院士、郑纬民院士等学术界权威人士高度认可和支持
Baichuan-M1-preview 来啦!聚齐三大核心推理能力+解锁医疗循证模式
百川大模型 百川大模型
2025年01月24日 12:24 北京
我们的新模型来啦!
本次发布的模型共有两款,分别是:
国内首个全场景深度思考模型Baichuan-M1-preview
行业首个开源医疗增强大模型Baichuan-M1-14B
Baichuan-M1-preview是国内目前***同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测中,Baichuan-M1-preview的表现均超越了o1-preview。
图片
此外,它还解锁了“医疗循证模式”,实现了从证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题。
图片
并且Baichuan-M1-preview发布即可用。现已正式上线到了百小应中,感兴趣的朋友登录百小应即可体验。
在深度思考模式下百小应不仅能准确解答数学、代码、逻辑推理等问题。
图片
即使面对复杂医疗问题,也可以像资深医疗专家一样,通过深度思考构建严谨的医学推理过程,为用户提供全面的疾病分析和个性化健康建议。
图片
而Baichuan-M1-14B则是Baichuan-M1-preview的小尺寸版本,同时也是行业首个开源的医疗增强大模型,它的医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。
Github:https:https//github.com/baichuan-inc/Baichuan-M1-14B
Huggingface(base):https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base
Huggingface(Instruct):https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct
NPU版本支持BF16推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base
Baichuan-M1-preview:多项能力超越o1-preview,解锁医疗循证模式
作为国内首个能力全面的全场景深度思考模型,Baichuan-M1-preview具备强大的语言推理、视觉推理及搜索推理能力。
图片
语言推理方面,其在AIME 和 Math 等数学基准测试,以及 LiveCodeBench 代码任务上的成绩均超越了o1-preview等模型。
图片
视觉推理能力方面,在MMMU-val、MathVista等权威评测中的成绩,超越了GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等模型。
众所周知,成立以来我们一直专注于AI医疗领域。模型的医疗能力也一直是我们的强项,本次的Baichuan-M1-preview也不例外,除了推理能力全面之外,相比其他模型,它还有一大亮点——“医疗循证模式”。
那么什么是“医疗循证模式”呢?简单来说就是,在医学问题推理上借鉴了“循证医学”的理念,在面对复杂医学问题时,Baichuan-M1-preview会将专业可靠的医疗知识作为推理依据,帮助用户做出***的医疗决策。
虽然听起来很简单,但是要想实现这一模式必须得先有海量可靠的“专业医学知识”,让模型有“据”可循。
对此,我们自建了涵盖亿级条目的循证医学知识库,囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容,并以天为单位进行动态更新,及时收录医疗领域的新突破、新进展。
但有了循证医学知识库还不够,医学知识磅礴复杂,其中有很多医学知识、医学理论等信息并不一致,甚至有些是冲突的,尤其在互联网上,权威医疗信息和医疗谣言真假难辨,想要问答结果准确,必须要解决“证据”可靠性的问题。
这就不得不提到,医疗循证模式的另一个能力“证据分级”。它能运用医学知识和证据评估标准,对证据进行多层分级,并对不同权威等级的证据进行专业分析与整合,识别各类权威信息的来源和可信度,避免因信息混杂导致的误判,从而形成全面、连贯的医学结论。
图片
解决了以上两个问题之后,遇到复杂的医疗问题时,Baichuan-M1-preview便能够自主调用搜索能力,在循证医学知识库中和互联网上实时获取权威医学证据、临床指南和研究进展,然后通过丰富医学证据进行可靠、准确的医学推理,***终为用户提供可信赖的医疗答案。
无论是医生面对复杂病案,还是患者寻求权威建议,它都能通过“摆事实、讲道理”的循证方式提供言之有物、有理有据的解答。
不仅能在临床场景中帮助医生提升诊疗效率,在医学科研场景中大幅缩短科研探索时间,还能帮助普通用户更好地理解自身健康状况,帮助患者科学管理生活方式,提升治疗效果。
Baichuan-M1-14B:行业首个开源医疗增强通用大模型 ,医疗能力超越Qwen2.5-72B
一花独放不是春,百花齐放春满园。AI医疗是一项事关大众健康,利国利民,涉及技术领域众多,需要全社会共同努力的伟大事业。
为了推动AI技术在医疗领域的创新发展,增强AI医疗技术的透明度和可信性,提高医疗服务的可及性,繁荣AI医疗生态,我们开源了Baichuan-M1的小尺寸版本模型Baichuan-M1-14B。
图片
作为行业首个医疗增强开源模型,Baichuan-M1-14B的表现***优异,不仅在cmexam、clinicalbench_hos、clinicalbench_hos、erke等权威医学知识和临床能力评测的成绩超越了更大参数量的Qwen2.5-72B-Instruct,与o1-mini也相差无几。
为了提升Baichuan-M1-14B的医疗能力,我们多管齐下做了大量的优化、创新工作。
图片
数据收集方面:面向细分医疗场景,收集了万亿级 token 的严肃医疗数据,涵盖了千万级的中/英文专业医疗论文、院内真实中/英文医疗病例,亿级的医疗问答、医疗问诊、临床数据等,还对全网数据进行了包括医疗科室、医疗内容以及医疗价值在内的分类评估,确保模型能学习到有价值且全面的医疗知识。
合成数据方面:针对病例、医学教材、医学指南等不同类别的高质量医疗数据,生成了超100B token包含了医疗复杂决策推理链条、决策依据以及问答对形式的多样化数据,进一步强化了Baichuan-M1-14B的医学知识能力和医疗推理能力。
图片
模型训练阶段:我们运用行业首创的多阶段领域提升方案,将整个训练分为通识提升、医疗基础知识提升、医疗进阶知识提升三阶段,依次提升基础语言、高阶及疑难病症应对等能力。此外还在 CoT 训练框架中创新的引入了ELO 强化学习法,优化思维链路径,避免传统奖励模型偏差,有效提升了模型的生成质量与逻辑推理能力。
图片
Baichuan-M1-preview是我们在AI医疗领域的又一次重要突破,让我们在实现“造医生、改路径、促医学”愿景的道路上又迈出了坚实的一步。而Baichuan-M1-14B开源模型也将为中国AI医疗健康生态建设提供强大助力。
我们不仅希望加速AI技术在医疗领域的广泛应用,更旨在激发更多创新力量,共同推动中国医疗健康生态的持续进步,助力实现更公平、更高效的高质量医疗服务。
开源全模态模型Baichuan-Omni-1.5上线,多项能力跑赢GPT-4o mini
专注医疗的 百川大模型
2025年01月26日 13:40 北京
两天前,我们发布了全场景深度推理模型Baichuan-M1-preview和医疗增强开源模型Baichuan-M1-14B。
今天,我们再接再厉,上线Baichuan-Omni-1.5开源全模态模型。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini,而在多模态医疗应用领域,它的***优势则更为突出。
Baichuan-Omni-1.5通过完善的数据抓取、清洗、合成流程得到大量不同模态的数据以及全面的多模态交错数据,并且设计了多阶段的训练流程,很好完成了多个模态间对齐,加上合理的模型结构优化,从而实现一个模型在多个模态能力均达到***的效果,解决了多模态模型的“模型降智”难题。
Baichuan-Omni-1.5不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。
此次,我们不仅开源了GPT-4o级别的全模态基座Baichuan-Omni-1.5-Base,同时还开源了两个评测集OpenMM-Medical、OpenAudioBench,促进全模态模型领域的研究发展。
GitHub:
https://github.com/baichuan-inc/Baichuan-Omni-1.5
模型权重:
Baichuan-Omni-1.5:
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omni-1.5-Base:
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base
技术报告:
https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf
全模态理解生成统一模型,多项能力超越GPT-4o mini
全模态模型能够处理文本、图像、语音、视频等各类数据,从而实现更全面、精准的信息理解和表达,对提升模型的理解能力及拓展应用范围等方面具有重要意义。
Baichuan-Omni-1.5在多项评测中表现优异,在MMBench-dev、MM-Vet等通用图片评测中***GPT4o-mini,在医疗图片评测集GMAI-MMBench、Openmm-Medical中更是大幅超越GPT4o-mini。
图片
Baichuan-Omni-1.5在音频技术领域采用了业界***的端到端解决方案,不仅能够支持多语言对话,还拥有强大的端到端音频合成能力,并且可以实现ASR(自动语音识别)和TTS(文本转语音)功能,同时支持视频与音频的实时交互。
图片
在视频理解能力方面,Baichuan-Omni-1.5通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,其整体性能大幅超越GPT-4o-mini。
图片
全流程优化解决“降智”难题,真正实现理解生成统一
理解和生成的统一是当前多模态研究领域中的一大热点和难点。在全模态理解模型中加入语音token生成后,通常会导致模型理解能力的显著下降,特别是在数学能力和逻辑推理方面,这种现象被称为“模型降智”。
目前,所有开源的全模态模型都面临着这一问题,这也是该领域需要重点解决的关键挑战。Baichuan-Omni-1.5通过模型结构、训练策略和训练数据等多个方面的深入优化,成功地解决了这一问题。
模型结构方面,Baichuan-Omni-1.5的模型输入部分支持各种模态通过相应的Encoder/Tokenizer输入到大型语言模型中。
而在模型输出部分,Baichuan-Omni-1.5采用了文本-音频交错输出的设计,通过Text Tokenizer和Audio Decoder同时生成文本和音频。
其中,Audio Tokenizer是在Whisper基础上经过增量训练得到的,它不仅具备***语义抽取能力,还能实现音频的高保真重建。
至于Visual Encoder,则采用了能够处理任意分辨率图片的NaViT,其***高分辨率可达4K(2048×2048)并支持多图推理,从而能够更全面地提取图片信息。
图片
训练数据方面,我们设计了一套专门的流程来确保数据的质量和多样性。***终构建了一个包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库。在SFT阶段,我们还使用了1700万条精心构建的全模态数据。
训练流程方面,我们在预训练和SFT阶段均设计了多阶段训练方案,整体提升了模型效果。
图片
我们同时还开源了两个评测:OpenMM-Medical、OpenAudioBench。
OpenMM-Medical:
为了更全面的评估模型医疗多模态能力,我们构建了OpenMM-Medical,包含来自 42 个公开医学图像的数据集,例如 ACRIMA(眼底图像)、BioMediTech(显微镜图像)和 CoronaHack(X 射线),总共包含 88,996 张图像。
下载地址:
https://huggingface.co/datasets/baichuan-inc/OpenMM_Medical
OpenAudioBench:
为了更高效地评估模型“智商”,我们构建了OpenAudioBench。这是一个包含5个音频端到端理解子评测集的平台,包括4个公开评测集(Llama Question、WEB QA、TriviaQA、AlpacaEval)以及我们自建的语音逻辑推理评测集,共有2701条数据。这些评测集能够综合反映模型的“智商”水平。
下载地址:
https://huggingface.co/datasets/baichuan-inc/OpenAudioBench
随着人工智能技术的迅猛发展,大模型已经从单一模态进化到全模态阶段。全模态融合技术赋予了大型语言模型视觉、听觉和语言表达的能力,使其能够更加精准地理解和传递信息。
特别是在医疗领域,全模态模型能够整合医学影像(如X光、CT等)、检查报告和病历等多元信息,协助医生进行疾病诊断,显著提升诊断的准确性和效率。
我们此次开源全模态模型及数据、评测集,也是希望激发行业内更多的创新力量,促进中国AI医疗健康生态的持续进步,助力实现更加普惠的高质量医疗服务。