1.期望大图模型能够做到：

“规模定律”：图大模型的表现应该能够随着参数规模、数据集规模、训练时的计算量的增加而增加，即“涌现”能力。
通用：能够处理不同domain的不同任务；
上下文学习和理解：理解图的上下文、cross tasks、novel datasets、fewer samples in test, no need to modify the model or change paradigms in test. related to few-/zero-shot, ood generalization, multi-task;
图推理：感知基础的图结构（度分布、聚类系数等）、多跳邻居推理（类似思维链）、全图的理解和分析（分子性质预测）等。

LLM的Scaling Law：模型参数量N、数据集规模D和计算量C增加可以使语言模型的能力稳定地提升；且在另外两个因素没有瓶颈的条件下，每个因素和模型的表现程power-law关系。只要我们同时扩展N和D，性能就能可预测地提升，但是如果其中一个保持固定而另一个增加，性能将进入收益递减的阶段。保持N^0.74/D（模型规模增加8倍，数据量提高5倍就可以实现收益不递减）时就可以避免收益递减；

2. Graph的表示空间

LLM的能力很大程度上受惠于NLP众多任务中样本共享同一个表示空间；

不同类别的图具有独特的特征空间和结构空间；一个广泛的共识是：在特定类别的图中，存在更高级别、更抽象的可共享的模式；如在经典网络科学中的同质性、小世界现象、power-law分布等。

尝试和自然语言对齐：

构建很多（图-文）pair ；难以收集大量数据；
把图转化成自然语言；容易丢失内在结构信息、忽略图的归纳偏置；
找一个中间表示，比如隐藏层空间；可解释性差、难以找到graph和文字共享的表示空间；（让图模型和经典的图算法行为对齐，可以进一步的提高图模型的可解释性，这方面的研究被称为：algorithmic reasoning）

3. 图数据

简言之，不够多；