2025-05-04
不同垂直领域的数据占比:互联网数据 vs. 物理数据

公开资料显示 GPT-3 模型的训练数据几乎都是来自互联网的数据。而大模型要走向垂直行业领域,从训练数据角度自然需要引入大量的来自垂直行业的数据,尤其是物理数据。

附图来自甲子光年的判断。我们认为此图表还遗漏了一个领域,就是企业的内部数据。每家企业无论大小,都有自己的私有数据。