LLM的Scaling Law: 模型参数量N、数据集规模D和计算量C增加可以使语言模型的能力稳定地提升;且在另外两个因素没有瓶颈的条件下,每个因素和模型的表现程power-law关系。 只要我们同时扩展N和D,性能就能可预测地提升,但是如果其中一个保持固定而另一个增加,性能将进入收益递减的阶段。保持N^0.74/D(模型规模增加8倍,数据量提高5倍就可以实现收益不递减) 时就可以避免收益递减;
LLM的能力很大程度上受惠于NLP众多任务中样本共享同一个表示空间;
不同类别的图具有独特的特征空间和结构空间;一个广泛的共识是:在特定类别的图中,存在更高级别、更抽象的可共享的模式;如在经典网络科学中的同质性、小世界现象、power-law分布等。
构建很多(图-文)pair ; 难以收集大量数据;
把图转化成自然语言; 容易丢失内在结构信息、忽略图的归纳偏置;
找一个中间表示,比如隐藏层空间;可解释性差、难以找到graph和文字共享的表示空间;(让图模型和经典的图算法行为对齐,可以进一步的提高图模型的可解释性, 这方面的研究被称为:algorithmic reasoning)
简言之,不够多;