因为根据元素特性推导材料性质,这类模型的数据量很稀疏,数据、算力和算法三要素里,对数据和算法的依赖远高于算力。”

        Pony对人工智能也颇为了解,腾讯每年从ai领域挖来的大牛不计其数,哪怕此时ChatGPT还没有横空出世,他希望从林燃这了解更多信息,好为后续开展工作提供方向:“林生,你仔细说说。”

        林燃进一步解释道:“这是因为材料科学领域的数据非常非常有限,数据共享也好获取也好都面临着空前的障碍。

        不同实验室产出的实验数据除非刊登到论文里,不然各家的数据是不会进同一个池子,当然他们想要进同一个池子,也会有各种各样的担心。

        因为你很难保证,所有研究机构提供的数据不会污染数据库。

        有人数据造假,就会污染整个数据源。

        目前就我了解到的情况,类似研究数据非常稀缺,最多的数据也要少于4000个样本。

        特征工程是AI模型成功的关键,但其设计在材料属性预测中尤为复杂。

        物理元素性质,像原子量、电负性这些和材料结构,像晶格类型、键长这些,都要转化为数值特征,提供给模型学习。

        其中特征选择直接影响模型准确性,错误选择可能导致性能下降。

        内容未完,下一页继续阅读