1.期望大图模型能够做到:

  1. “规模定律”:图大模型的表现应该能够随着参数规模、数据集规模、训练时的计算量的增加而增加,即“涌现”能力。
  2. 通用:能够处理不同domain的不同任务;
  3. 上下文学习和理解:理解图的上下文、cross tasks、novel datasets、fewer samples in test, no need to modify the model or change paradigms in test. related to few-/zero-shot, ood generalization, multi-task;
  4. 图推理:感知基础的图结构(度分布、聚类系数等)、多跳邻居推理(类似思维链)、全图的理解和分析(分子性质预测)等。

LLM的Scaling Law: 模型参数量N、数据集规模D和计算量C增加可以使语言模型的能力稳定地提升;且在另外两个因素没有瓶颈的条件下,每个因素和模型的表现程power-law关系。 只要我们同时扩展N和D,性能就能可预测地提升,但是如果其中一个保持固定而另一个增加,性能将进入收益递减的阶段。保持N^0.74/D(模型规模增加8倍,数据量提高5倍就可以实现收益不递减) 时就可以避免收益递减;

Untitled

2. Graph的表示空间

LLM的能力很大程度上受惠于NLP众多任务中样本共享同一个表示空间;

不同类别的图具有独特的特征空间和结构空间;一个广泛的共识是:在特定类别的图中,存在更高级别、更抽象的可共享的模式;如在经典网络科学中的同质性、小世界现象、power-law分布等。

尝试和自然语言对齐:

  1. 构建很多(图-文)pair ; 难以收集大量数据;

  2. 把图转化成自然语言; 容易丢失内在结构信息、忽略图的归纳偏置;

  3. 找一个中间表示,比如隐藏层空间;可解释性差、难以找到graph和文字共享的表示空间;(让图模型和经典的图算法行为对齐,可以进一步的提高图模型的可解释性, 这方面的研究被称为:algorithmic reasoning

3. 图数据

简言之,不够多;