秘书之家—全网资源每日更新 www.mishuzj.com人工智能时代如何维护文化主体性当前,以大语言模型技术为核心的人工智能技术正飞速迭代和加速演进。大模型通过海量数据的预训练,形成千亿级别参数的复杂网络结构,能够实现强大的上下文理解和多模态内容生成能力,并在很大程度上体现出了通用性和推理能力,能够有效解决当前社会生产生活中存在的一些具体问题,提升全社会的生产效率。围绕大模型的广泛应用,正在形成新的科研范式、创新范式、人机协同工作范式,解构了传统的代际知识传承方式和教育方式,催生出新的人类信息和知识获取模式,重塑未来经济生活形态。但是,当我们看到人工智能带给人类新纪元曙光的同时,也必须看到当前的大模型在涉及文化判断和价值取向的领域,输出结果仍不尽如人意,存在着与主流认知之间的差异,在一定程度上存在着“胡说”“乱说”“胡写”“乱画”的现象,干扰了人们对社会主流价值观念的认同与判断、对中华优秀传统文化的认知和理解,也对人工智能时代的薪火赓续形成了新的挑战。因此,亟须在积极推进大模型产业应用的前提下多措并举,以社会主义核心价值观为引领,把中华文化主体性融入到大模型的建设和产业应用中,让大模型更具“中国特色、中国风格、中国气派”。当前的大模型在涉及文化安全的领域,存在着如下问题和挑战。从训练数据角度看,全球互联网中的英文语料占比高达 59.8%,中文语料占比仅为 1.3%,使得大模型在训练生成时就缺乏丰富的中文知识。比如,chatgpt 训练数据所使用的中文数据占比就不足 0.1%。这种数据分布结构性的缺秘书之家—全网资源每日更新 www.mishuzj.com陷导致了大模型在认知中文世界时存在先天不足。与此同时,互联网公开信息来源复杂,存在大量未经认证的虚假和错误信息,“以讹传讹、三人成虎”的现象在互联网中屡见不鲜,并形成了大量基于误导信息的语料。这就导致大模型对于真实信息的识别能力下降,进而影响输出结果的正确性。除此之外,互联网经过近三十年的发展,“数字鸿沟”问题依然存在,数据在地域、领域和人群分布上极其不均衡,“马太效应”严重,互联网是强势地区、活跃领域、活跃人群的发声地,互联网数据无法全面代表全球不同人群的价值观和世界观,扭曲了大模型最终的价值判断和文化取向。从大模型本身的技术架构角度来看,大模型存在着极其复杂的网络结构,内部工作机制一直被认为是个黑箱,输出逻辑不可理解,输出结果难以预测,可解释性是目前大模型应用中的重要技术难点。因此,一旦出现大模型针对某些领域的输出异常,难以判断是来自模型内部的技术缺陷,还是来自模型外部的人为操作。难以区分“别有用心”和“无心之举”,也就限制了相应对策和措施的应用此外,大模型在极力追求通用性和泛化能力时,会过度依赖统计规律,导致非强势文化在内容生成时出现明显失真。从外部操作角度看,在大模型的创制过程中,算力成为第一制约要素。但是算法和数据依然对于大模型生成有着直接而重要的作用。模型训练数据的取舍、清洗、标注质量检测,模型参数的调优、对齐、反馈强化学习、能力评价,都有着大量人类智力活动的主动参与,有着主观能动性的发挥空间。业界常说的“有多少人工,就有多少智能”,对于大模型的应用落地依然有效,那么从业者本身的价值判断和审美取向,也会通过其工作带到大模型中。人的主观能动性也在潜移默化中影响着大模型的输出结果。因此,为了应对上述风险和挑战,需要从系统思维的角度,展开以下工作。秘书之家—全网资源每日更新 www.mishuzj.com第一,加强人工智能时代广义标准体系建设。总而言之,就是要用“标准来约束过程,用数据集来约束结果”具体来讲,一是要建立“国家—行业—社会—企业”的多层级标准体系。通过标准的建设,纲举目张,执本末从,将大模型的数据建设、参数调优、能力评估、人员准入等问题,以标准的形式加以约束和指导,将价值判断和意识形态融入到大模型的建设过程中。二是要加快人文社科领域各类权威数据集的建设。权威数据集在大模型时代中的作用,犹如定海神针。有了各个细分领域的权威数据集,就可以要求大模型的输出结果能够和权...
发表评论取消回复