因为根据元素特性推导材料性质,这类模型的数据量很稀疏,数据、算力和算法三要素里,对数据和算法的依赖远高于算力。”
Pony对人工智能也颇为了解,腾讯每年从ai领域挖来的大牛不计其数,哪怕此时ChatGPT还没有横空出世,他希望从林燃这了解更多信息,好为后续开展工作提供方向:“林生,你仔细说说。”
林燃进一步解释道:“这是因为材料科学领域的数据非常非常有限,数据共享也好获取也好都面临着空前的障碍。
不同实验室产出的实验数据除非刊登到论文里,不然各家的数据是不会进同一个池子,当然他们想要进同一个池子,也会有各种各样的担心。
因为你很难保证,所有研究机构提供的数据不会污染数据库。
有人数据造假,就会污染整个数据源。
目前就我了解到的情况,类似研究数据非常稀缺,最多的数据也要少于4000个样本。
特征工程是AI模型成功的关键,但其设计在材料属性预测中尤为复杂。
物理元素性质,像原子量、电负性这些和材料结构,像晶格类型、键长这些,都要转化为数值特征,提供给模型学习。
其中特征选择直接影响模型准确性,错误选择可能导致性能下降。
内容未完,下一页继续阅读