研究团队发现了一个有趣的现象:当人们只看代码文本时,很难判断哪段代码更好。但是当代码真正运行起来,显示出实际效果时,优劣立判。就好比两个厨师都声称自己做的菜更美味,但真正品尝后才知道高下。这个发现推动研究团队建立了一个全新的代码评测平台,让AI生成的 ...