大模型学习日记-第一周计划
4篇论文
看懂公式为主
实验:具体参数,如层数、宽度、学习率、数据大小
附录
代码方面?
评论