【新智元导读】Anthropic发布了Programmatic Tool ...
作者:欧皇小涛12138上周写一门课的课程报告,正好遇到dnf噩梦循环的例子,就以这个为例子写了报告。用了多重背包的思想(0-1背包,一个物品选或者不选;分数背包,一个物品可以拆成分数选择;完全背包,一个物品可以选择的次数无上限;多重背包,一个物品可 ...
打开交易图表,堆上十个技术指标,然后对着屏幕发呆不知道下一步怎么操作——这场景对交易员来说太熟悉了。如果把历史数据丢给计算机,告诉它“去试错”。赚了有奖励,亏了有惩罚。让它在不断的尝试和失败中学习,最终迭代出一个不说完美、但至少能逻辑自洽的交易策略。