随着新一波AI浪潮的到来,一场全新的、数字化的转型升级正在各行各业上演。对数字化进程已行至“深水区”的石油化工行业而言,如何借这波浪潮向下“深潜”,推动行业向高质量发展转型,成为业内专家在日前举行的2024华为全联接大会上深入研讨的话题。
“我们需要把常规的化工知识,还有设计规则、实验规律都结合起来,设计制造化工领域的AI大模型。”中国科学院大连化学物理研究所研究员叶茂说。
自2023年ChatGPT面世起,AI大模型技术在全球兴起。大模型的能力和应用快速演进,但对于强知识性、重经验积累的化工行业来说,依托现有的通用大模型,设计开发化工垂直领域的AI模型,仍是行业拥抱AI的重点。
叶茂认为,现有的通用大模型相当于接受完整通识教育的“高中生”,学习能力很强,什么知识都知道一点,但并不太专业。而通过知识数据训练的专业模型就相当于化工专业的“本科生”,对化工知识的运用能力更强,但还不能直接去工厂或者设计院“上岗”,需要更进一步将专业模型训练为在垂直领域应用的智能体模型。
据介绍,目前中国科学院大连化学物理研究所已经和华为合作开发出了面向化工工艺流程研发的智能化工大模型1.0版本,基本能够实现化工知识的快速检索、反应动力学的自动生成以及工艺流程的制度化设计,未来还将推出包含三级工厂生成和智能中试系统的2.0版本。
“不是每个企业都要建设大规模AI算力,也不是每个企业都要训练自己的基础大模型。”华为副董事长、轮值董事长徐直军表示,并非所有的应用都要追求“大”。从华为盘古模型在不同行业的实践来看,十亿参数模型可以满足科学计算、预测决策等业务场景的需求,比如降雨预测、药物分子优化、工艺参数预测;而百亿参数模型就可以初步满足面向自然语言处理(NLP)、计算机视觉(CV)、多模态的需求,比如在特定领域场景的知识问答、代码生成、安全检测。而更加复杂的,面向NLP、多模态的任务如信贷评估、中枢调度、智能投资顾问等,可以用千亿参数模型来完成。”
他指出,AI服务器特别是AI算力集群,对供电、散热等数据中心机房环境要求极高,且随着大模型越来越大,AI算力也将走向更大规模,而且变化节奏快。随着AI服务器快速升级换代,数据中心机房面临要么浪费、要么满足不了需求的困境。同时,训练出基础大模型的关键是数据,而准备足够多的高质量数据是很大挑战。
“企业应用场景的多样性,决定了我们必须构建起多模态、多尺寸的模型,实现场景与模型的最优匹配,满足企业对大模型经济性和专业性的需求。”华为常务董事、华为云CEO张平安说。
在实际应用中,通用大模型、专业大模型、垂直领域大模型并非是简单的递进关系,而是需要多种模型互相协作,构成专业的智能体“团队”。
中国化工学会副秘书长胡杰认为,化工行业实现智能化需要多模态大模型与专业模型协同进化,建立复杂系统在垂直领域的大模型。具体来说,首先是基于大数据的智能方法,以自动化策略驱动建立虚拟化学实验室;然后借助知识蒸馏技术,将大模型的能力传递给专业模型;再利用大语言模型获取多模态数据,利用小科学(专业)模型提高精准性,由大数据生成多个专业模型;最后再由专业模型作为“教师”,帮助大模型快速收敛。
“我们希望未来能够通过多个智能体的协同,承担开发和设计工程师的部分功能,快速生成数字化工厂设计,并与现有的工厂数据进行功能对比。或者,通过智能体对数据的挖掘和分析,将实体工厂变成数字化的虚拟工厂。”叶茂说。