当前位置:商业频道首页 > 财讯 > 正文

上海布局“类脑大模型”颠覆性创新项目,交大教授挑战大模型主流架构(2)

模拟人脑,是创新大模型架构的一条路径,因为作为大自然进化的产物,人脑就是一种通用人工智能体。“2016年,加州大学伯克利分校团队在《自然》杂志发表了一篇论文,他们发现,大脑皮层的不同区域可编码特定的语义内容。”赵海向记者介绍了这项脑科学成果。大模型架构可否模拟大脑的语义编码机制?2023年9月,这位交大教授有了创新灵感,打算颠覆Transformer架构,研发一种“脑启发大语言模型”。

于是,他自筹科研经费,租借GPU服务器,带领团队走进了类脑智能领域的“无人区”。当时,用于训练大模型的GPU服务器处于价格高位,赵海团队每月要花18万元租金。至于研发能否成功,完全是个未知数。面对双重压力,他选择了坚持,因为他相信:通用人工智能的真正基石隐藏在人类大脑中。

新范式模拟人脑全局机制

今年3月,150亿参数的“脑启发大语言模型”(BriLLM)问世,交大团队开源发布了这个中文大模型的代码和模型权重。5月,他们发布了“脑启发大语言模型”中文、英文压缩版,其大小分别为20亿和10亿参数,但性能与150亿参数大模型相当。测试显示,这3个非Transformer架构类脑大模型的生成能力达到GPT-1水平,引起了华为公司Fellow蔡华等专家的关注。

“BriLLM是首个在宏观尺度上模拟人脑全局机制的大语言模型,对机器学习范式做了颠覆性创新。”赵海介绍,它采用“信号全连接流动”机制,以取代Transformer架构的自注意力机制。这种新的机器学习范式模拟大脑皮层编码特定语义的方式,将词元(token)直接映射为“有向全连接图”模型架构上的一个个节点,让每个节点对应一个语义单元。它还模拟脑电波的传播方式,让信号沿着“最小阻力”路径,在“有向全连接图”上不断传播,选择性地激活一些语义单元节点,使大模型生成准确的文字内容。

热点推送

本周关注

MORE