北航、人大和九坤投资共同撰写的论文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。 在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。
“如今,我们正处在孕育新一代计算范式的关键节点。在不久的将来,虚拟世界和现实世界的边界会不断消弭,计算会像电力一样无处不在。新的计算范式将赋能人类生活和工作的方方面面,给各行各业带来颠覆性的变革,也将催生众多新的机遇。 面对科技发展 ...