老辰光

老辰光

当前位置: 首页 > 时代 > 杂谈 >

生成式人工智能视阈下方志资源数智化转型的范式重构

时间:2026-03-30来源:《社会科学报》 作者:马海兵、陈畅 点击:
生成式人工智能视阈下方志资源数智化转型的范式重构 马海兵、陈畅 国有史,地有志,家有谱。地方志作为中华民族特有的文化基因与历史记忆载体,其价值不仅在于存史,更在于资政与教化。随着十五五规划的前瞻布局与新质生产力理论的提出,数字技术对传统文化
国有史,地有志,家有谱。地方志作为中华民族特有的文化基因与历史记忆载体,其价值不仅在于存史,更在于资政与教化。随着“十五五”规划的前瞻布局与新质生产力理论的提出,数字技术对传统文化的赋能已不再局限于物理介质的迁移,而是向着知识生产方式的根本性变革迈进。在这一宏观背景下,重新审视方志资源的属性,应当将其界定为一种具备全域性、全时空特征的高置信度地情数据要素。然而,面对浩如烟海的方志典籍,传统的人工检索与简单的关键词匹配已无法应对日益复杂的知识挖掘需求。生成式人工智能的崛起,为打破这一瓶颈提供了新的契机。本文以上海地方志的数智化转型探索为例,探讨如何利用前沿AI技术重构方志资源的治理范式,推动地方志工作从被动的资源保藏向主动的知识计算转型,从而在数字文明时代焕发出新的生命力。 
一、转型逻辑:从资源汇聚到数据要素化的时代必然 
地方志的数字化转型,本质上是一场关于知识生产与消费的供给侧结构性改革。审视当前的发展阶段,既要客观评估既有建设的基座效应,更要敏锐洞察制约价值跃升的深层矛盾,从而确立以数据要素化为核心的转型逻辑。
(一)现状审视:物理基座的坚实与语义认知的跨越阶段
1.一期工程的历史性贡献:坚实的物理底座。上海地方志经过一期工程的持续建设,已构建完成上海数字方志一体化系统。这一阶段的历史性贡献在于实现了方志资源的汇聚与物理可达。通过大规模的数字化扫描与基础文本识别,汗牛充栋的实体志书被转化为触手可及的数字镜像,彻底解决了传统方志藏在深闺人未识的传播困境。在一期工程的建设过程中,前瞻性地搭建了四大核心平台,构建了完整的数字化生态系统。后台管理平台实现了标签管理、方志词库及大事管理等基础数据治理功能,其标签体系涵盖篇、章、节、目四级篇目结构标签,特别是在要素标签层面,通过对人、事、物、时间、地点的五维界定,为后续的语义化处理奠定了坚实的分类基础。方志智库平台不仅提供了基础与高级查询功能,还支持电子书阅览及原始稿件查阅,初步实现了从物理库存向数字仓库的转型,确保了地情资料有库可查。方志智造平台集成了框架结构、总述、大事记及人物传记等志书编纂辅助小工具,为修志人提供了高效的数字化协同环境。方志智服平台则通过云游沪上方志场景等,实现了方志资源面向社会公众的多维展示。这些基于物理迁移的数字化成果,是二期工程增量赋能的重要基石。
2.语义解构的待垦区:从有库向有智跃升的必然挑战。然而,站在机器认知和生成式AI(人工智能)的视角审视,一期工程完成的是数字化,而非智能化。目前的数字化产物主要以PDF或离散文本形式存在,对于大语言模型而言,它们与一堆扫描图片并无本质区别——字符可见,语义不可达。无论是新方志中记录经济社会发展的海量统计表格,还是古方志中蕴含复杂关系的传记文本,在缺乏深度语义解析的情况下,仅仅是数字字符的堆砌而非可计算的知识。这种现状导致大模型在面对跨文本逻辑推理的高阶咨询时,如分析近代上海工业空间布局演变或跨世纪气候灾害统计,往往显得支撑力不足。顺应国家数据要素×行动的要求,推动方志资源从非结构化的电子文献向结构化的数据要素跃升,已成为打破应用天花板、释放新质生产力的必由之路。
(二)认知革命:生成式AI作为新质生产力的介入
1.认知主体的重构:从人读志向AI读志的进阶。要理解这场变革的实质,需要回到一个基本问题:谁来读志书?传统模式下,人类专家受限于阅读速度与记忆容量,难以在短时间内穷尽全量史料。大模型改变了这个前提。作为第一读者,它具备全量吞吐与多模态理解能力,能够以毫秒级的速度通读亿万字志书,并在此基础上建立跨文本的关联索引。这种介入并非取代人类,而是通过AI的预读与预处理,将专家从繁琐的翻检工作中解放出来,使其更专注于价值研判。我们建议将这一垂域大模型命名为“申知·沪志”,以求在方志中了解上海、认知上海。2.价值形态的重构:从静态文献向动态知识图谱的活化。在数据要素×的视角下,方志资源不再是静止的陈列品,而是可以被GIS(地理信息系统)系统调用、被BI(商业智能)工具分析的活态数据源。通过AI的深度介入,能够将叙述性的文本转化为结构化的时间轴、地理坐标与实体关系网。但这里有一个关键约束:方志领域对幻觉零容忍。不同于通用大模型可以在不确定中给出概率性回答,方志垂域大模型生成的每一条知识都必须溯源至确切的志书页码——无出处不生成,这是算史区别于聊天的底线。检索增强生成(RAG)技术为此提供了工程化路径。这种范式重构,将彻底激活沉睡的方志资源,使其成为赋能城市治理与文化传承的高能级资产。 
二、理论框架:构建兼容古今异构的数智化三维坐标 
一期工程的贡献在于完成了方志资源的物理迁移,这是数字化的必经之路,但也仅仅是起点。生成式AI近两年的爆发,尤其是视觉语言模型与图检索增强生成技术的成熟,开启了一种全新的可能:不再满足于把志书搬进数据库,而是将其重构为一个可计算的三维知识空间,时间轴、地理坐标、语义网络在其中交织贯通。上海方志的独特价值恰恰在于它的复杂性:千年古籍与当代新志并存,文言竖排与现代表格共处。这种古今异构的张力,要求设计一套双轨并行的治理范式,不是权宜之计,而是方志数智化的通用解法。(一)资源层:双轨并行的多模态治理策略1.古方志的版面语义理解与逻辑还原。方志数据呈现出显著的二元结构特征。一类是1949年以前的古籍善本,其特点是文言晦涩、版面复杂。传统OCR在这里遇到的不是识别精度问题,而是认知框架问题,它遵循线性扫描逻辑,把双行夹注、眉批与正文一视同仁地串成字符流,原书的版面语义在这一过程中被彻底抹平。引入视觉语言模型(Vision-Language Model, VLM),建立基于版面语义一体化的理解机制,将成为破解这一难题的关键路径。VLM的优势在于它把页面当作图像来理解,而非字符序列来扫描,系统可以直接识别页面中的栏线、版心与阅读顺序,精准还原大字正文、小字夹注的层级关系,从而在实现数字化的同时,完整保留史料的原始风貌与逻辑。
2.新方志表格数据的深度激活与考古式挖掘。另一类是1949年以后的新方志,其特点是数据密集、体例规范,其中最大的价值洼地在于数以万计的统计表格,这些表格记录了上海数十年经济社会的量化轨迹,却因跨页断裂、多级表头嵌套等结构化难题,长期处于不可计算状态。对计算机而言,一张跨页的GDP统计表和一张风景照片并无区别,都是像素矩阵。对此,构建专门的表格智能体(Table-Agent)将是解决问题的核心方案。Table-Agent的本质是一个视觉-逻辑混合推理器:它不仅具备视觉重构能力以修复物理断裂,更具备逻辑推演能力,能够理解多级表头的嵌套关系,自动补全单元格的属性路径。通过这一路径,原本锁死在图片中的统计数据将被还原为标准的数据库格式,支撑起历时性的趋势分析。
(二)知识层:历时性本体与语义空间的跨时空映射在完成了资源层的双轨治理后,方志数智化转型面临着最为核心的挑战,古今概念漂移导致的语义鸿沟。这个问题比表面看起来更棘手。中国地方志跨越千载,不仅是语言形态从文言向白话的演变,更是社会制度、经济结构与地理形态的根本性变迁。如果知识图谱无法建立精密的概念对齐机制,用户问“上海百年税收演变”,系统却无法理解厘金、关税、增值税本质上是同一类事物在不同时代的表现形态,所谓的算史就沦为关键词匹配的游戏。1.古今概念漂移的深度解构与典型案例实证。为了确保方志大模型能够理解历史演进的连续性,应该构建一套动态的语义映射体系。以下三组案例展示了这一问题的复杂性及其解决逻辑:教育机构的演化脉络。以著名的上海龙门书院为例,其作为晚清上海最高学府,在制度上承袭了传统书院的讲学特质,但在十九世纪末的戊戌维新背景下,逐渐向近代学堂(如南洋公学,今上海交通大学前身)转型,并最终演变为现代意义上的学校。
这三个概念,书院、学堂、学校,在功能上具有教育传承的等价性,但在组织形态、招生机制、课程体系上存在质的差异。知识图谱要做的,是建立功能等价但形态演化的演化链,让系统能够响应“上海高等教育百年空间位移”这样的深层课题,而非简单地返回包含“教育”二字的条目。财税制度的概念变迁。古代志书中的厘金记录了晚清商品流通的税收细节(厘金制度创设于咸丰三年即1853年,初为镇压太平天国的军费筹措手段),这与近代的关税以及现代的增值税在税基、税率与征收逻辑上各不相同,但本质上都属于商品流转环节的资源要素配置。通过在图谱中建立税制本体的上下位关系,系统能够实现对上海百年财税收入的标准化换算,从而支撑起长周期的经济趋势研究。度量衡的单位映射。古代志书中常见的里(明清时期约合576米)、步、亩与现代的公里、平方米、公顷之间存在复杂的换算关系,且不同朝代的里长度略有差异。系统在处理历史地理数据时,必须自动识别时间切片并应用相应的换算系数。例如,明代松江府至上海县的距离描述,与现代松江区至黄浦区的空间跨度,需在标准化后方可进行逻辑比对。2.时空映射超级本体的构建机制。为了应对上述挑战,二期工程的核心理论框架可以包含一套时空映射超级本体。这套机制的设计哲学是柔性对齐而非刚性统一,不采取强行统一词汇的激进策略,而是通过知识图谱的属性链接,实现语义的动态关联。具体而言,将采用同义映射模式,针对名称变化但内涵一致的概念进行对齐,如松江府与松江区在特定语境下的行政延续;建立上下位关系模式,例如将钱庄界定为金融机构在清代的特定表现形态,实现从宏观产业到微观实体的穿透;引入时间切片模式,针对同一名称在不同时期指代不同地理实体的复杂情形进行隔离。通过这一三维坐标系的建立,上海方志中的故纸将被转化为可供大模型精准调用的数据资产。 
三、技术机理:基于GraphRAG的可信知识计算与算史实证 
理论框架回答了“算什么”的问题,现在要解决“怎么算”。方志资源的特殊性在于对信史的极致追求,这意味着不能依赖通用大模型的概率生成,而要构建一套以可信验证为核心的计算引擎。幸运的是,2024年以来,视觉语言模型、图检索增强生成、表格智能体等技术的成熟,为这套引擎的落地提供了可行路径。(一)从字符识别到版面语义理解:VLM驱动的端到端解析1.传统OCR的线性局限与版面语法的丧失。在一期工程中,OCR解决了字字皆识的问题,但也仅此而已。面对古籍复杂的版面时,传统OCR遵循线性扫描逻辑,将极具语义价值的双行夹注、眉批以及图文绕排结构强行割裂。打个比方:这就像把一本精心排版的书拆成单字卡片按顺序排列——字都在,但书没了。这种降维识别方式导致最终生成的纯文本流丧失了原书的逻辑层次。
2.视觉语言模型的认知飞跃与实证选型。VLM的突破在于改变了认知框架:它不再把文字当作符号序列来扫描,而是把整个页面当作图像来理解。依据2025年发布的AncientDoc基准测试,新一代模型能够在具体任务维度上完成从页级OCR到白话翻译,再到基于隐含信息的逻辑推理。根据该基准测评数据,Qwen2.5-VL-72B等模型在处理繁简转换、异体字对齐任务中表现出卓越的鲁棒性,其字符错误率显著低于通用大模型。这意味着机器开始具备理解版面语法的能力,它知道大字是正文、小字是注释,知道眉批是后人评点而非原作者所言。为了实现上海方志的深度适配,建议二期系统将基于5000个以上的标注页面进行领域微调,真正实现从文本数字化向语义版面数字化的质变。
(二)突破幻觉困境:GraphRAG构建的逻辑约束机制1.从向量检索向图结构检索的范式进化。通用大模型的幻觉问题在方志领域尤其致命。当用户问及徐光启的科学成就,如果模型基于概率生成一个听起来合理但实际不存在的著作名,这在闲聊场景可以容忍,在方志应用中则是灾难性的。根本原因在于:通用大模型缺乏知识锚点,它的回答来自参数记忆而非确切文献。为此,建议采用图索引增强生成(GraphRAG)技术。这一技术由微软研究院于2024年提出,其核心思想是把检索的粒度从文本片段提升到知识图谱,模型的每一次生成都必须沿着图谱的边走,找到确切的节点作为锚点。
2.双模查询机制下的高置信度回答。GraphRAG的精妙之处在于它支持两种互补的查询模式,分别应对精确问答和宏观综述两类需求。局部搜索(Local Search)基于实体邻域的精确查询:当用户询问徐光启的科学成就时,系统从节点出发,沿关联边检索其著作(《农政全书》60卷、《崇祯历书》137卷)、合作者(利玛窦)及社交网络,提供事实性、高精度的信息。全局搜索(Global Search)基于社区摘要的主题综述:对于晚清上海买办阶层的社会影响等宏观课题,系统利用Leiden算法进行社区检测,生成多层级的主题摘要。前者回答“是什么”,后者回答“怎么看”,两者结合,才能覆盖方志应用的完整场景。根据南京农业大学研究团队的实证数据,这种引入图谱约束的机制,使模型在历史知识问答中的F1值提升了11个百分点,有效加装了符合史学逻辑的安全阀。
(三)现代方志的结构化还原:Table-Agent的数据挖掘1.统计表格:新方志的核心价值洼地。如果说古方志的难点是版面语义,新方志的深水区则是统计表格。在经济志、行业志的处理中,海量统计表格记录了上海数十载的产业兴替,但多以图片形式锁死在系统中。这些表格的价值密度极高,一张产值表可能浓缩了某个行业十年的发展轨迹,但对计算机而言,它们与一张白纸无异。为了激活这些沉睡的数据,必须引入具备数据挖掘能力的Table-Agent。
2.四阶段闭环工作流的技术实现。Table-Agent的工作流是一个视觉、逻辑、语义层层递进的认知链条,每一阶段解决一个特定问题。视觉重构阶段解决物理断裂问题:利用TableTransformer技术,系统精确识别表格边界,并通过表头特征匹配算法判断相邻页面的表格是否属于同一逻辑长表,从而完成跨页缝合。结构解析阶段解决逻辑理解问题:利用Chain-of-Table表格推理链技术,模型显式输出表头的嵌套关系,例如将一个单元格数值补全为上海市/2020年/GDP/第三产业/亿元的完整属性路径。数据清洗阶段解决识别噪声问题:系统利用统计学规律进行数字形近纠错(如0与O、1与l的混淆),并自动推断单位标准化。语义融合阶段解决孤岛问题:结构化后的表格数据与知识图谱对接,每个数据值都标注有确切的来源和时空属性。通过这一完整流水线,死数据变为可驱动决策的高质量燃料。
(四)混合专家系统:MoE架构下的专业化协作1.应对业务复杂性的MoE架构设计。方志业务的复杂性在于它同时需要两种截然不同的能力:古文语义理解与现代数值分析。让一个模型既精通文言文又擅长统计推断,这在技术上是可行的,但效率很低,大量参数被浪费在不相关的任务上。申知·沪志底座将采用混合专家系统(Mixture of Experts, MoE)架构,其核心思想是术业有专攻:把模型拆分成多个专家子模块,每个专家深耕一个垂直领域,由路由网络根据输入特征动态分配任务。专家子模块被划分为古文专家、数理专家与归纳专家:古文专家负责文白对译,数理专家负责趋势分析,归纳专家负责宏观叙事。系统通过路由机制自动识别任务特征,检测到竖排版面则分发至古文专家,检测到数值序列则引导至数理专家。这种设计确保了在处理具体史料时的专业精度,真正实现了从单一模型向复合智能系统的进化。
2.专家子模块的功能划分与垂直领域深度微调。MoE的优势不仅在于推理效率,更在于它允许每个专家在自己的领域里做到极致。申知·沪志底座通过稀疏门控网络(Sparse Gating)将模型内部划分为多个具备垂直深度的专家子脑。这种设计不仅能够显著降低推理成本,更重要的是它解决了传统模型在处理古今异构语料时容易出现的干扰与混淆。古文理解专家不仅承担繁简转化与文白对译的基础任务,更被赋予深层的历史敏感度。训练中将注入HisDoc1B等大规模古籍识别数据集,并结合上海方志办提供的明清及民国时期的高精细OCR语料进行专项微调。该专家的独特价值在于它理解语境,而非仅仅翻译字面。对于晚清民国史料中常见的半文半白文体、异体字以及古今字,其识别与理解的准确率将显著优于通用模型。这意味着,当系统处理《嘉定县志》中的赋税记述时,古文专家能自动识别出其中潜藏的社会制度背景,从而避免字面理解的谬误。数理统计专家是实现从存史向算史跨越的核心算子。该专家专门负责调用Table-Agent进行趋势分析与图表生成,训练中将被注入大量的经济史数据与统计学模型,具备极强的时间序列分析、统计检验及可视化生成能力。它的独特价值在于理解统计口径的演变。在处理1949年以后的新方志时,数理专家不仅能解析表格中的数值,更能判断20世纪80年代的工农业产值计算方法与当前的GDP核算标准之间的逻辑转换,从而为跨越半个世纪的经济增长分析提供严谨的数据支撑。宏观归纳专家致力于解决方志中篇幅浩大、信息分散带来的阅读困难。该专家负责进行跨章节、跨志书的综述与摘要生成,其核心能力是从离散史实中提炼规律、构建叙事。当用户提出类似近百年来上海城市空间的演变规律等宏观问题时,归纳专家将协同GraphRAG的全局搜索结果,将分散在各区县志、建设志、交通志中的信息进行逻辑缝合,生成一份具备史学深度的专业研究简报。
3.动态路由机制与多专家协同推理逻辑。MoE架构的精妙之处在于路由机制,它决定了每个查询由哪些专家来处理、各占多大权重。当用户输入一个查询请求时,路由网络将对输入的语义特征进行多维度的向量化分析,从而决定任务在各专家之间的分配权重。如果系统检测到输入语料包含竖排版面特征、繁体字符或晦涩的文言表达,路由权重将向古文专家大幅倾斜;如果输入中包含大量的表格结构、数值序列或涉及具体的统计分析请求,系统则将优先激活数理专家的参数权重。更有趣的是多专家协同场景。例如,在分析徐家汇地区的商业演变时,路由机制将同时调用古文专家处理晚清笔记史料,数理专家处理现代商业普查表格,并由归纳专家最终整合这些异质信息。这种协同不是简单的拼接,而是在语义层面的融合,最终输出的报告里,古今数据被置于同一分析框架下,形成连贯的历史叙事。这种术业有专攻的参数分配策略,确保了申知·沪志底座在处理具体史料时具备专业精度,在面对宏观叙事时具备逻辑广度,真正实现从单一通用大模型向复合型专业智能系统的进化。
 
四、上海路径:打造申知·沪志垂域智能体集群
 
技术机理解决的是能力问题,现在要回答落地问题:这套系统在上海应该长什么样?在厘清了VLM、GraphRAG、Table-Agent及MoE专家系统等一系列前沿技术机理后,必须结合上海特有的城市精神、政策语境与现实需求,探索一条具有示范意义的数智化落地路径。二期工程不应止步于对现有系统功能的简单修补,而应以打造申知·沪志为核心品牌,构建一个集存储、计算、应用、交互于一体的垂域智能体集群,让方志资源真正成为驱动城市文化软实力与治理现代化的数据要素引擎。
(一)申知·沪志底座:面向超大城市地情的混合专家大模型将上海方志大模型命名为申知·沪志,寓意着利用生成式人工智能技术开启沉睡在故纸堆中的历史智慧,为超大城市的运行提供来自历史深处的启示。在品牌构建过程中,申知·沪志将被定位为上海城市历史的智能脑,它象征着方志事业从传统的静态资源保管向主动的知识价值发现的本质飞跃。这一垂域模型不是套壳的聊天机器人,而是一个深度定制的专业引擎。它基于大参数基座模型,经过严格指令微调(SFT)与全量地情数据注入。全量知识注入方面,将把一期工程中已经数字化的上海现存所有志书、年鉴、大事记、行业报刊及地情资料进行精细化的语料重组——这不是简单的文本灌入,而是通过VLM语义还原与Table-Agent表格提取,把破碎的数据重构为机器可理解的知识单元。编纂规范的指令对齐方面,将利用监督式微调技术,使大模型深度理解上海方志办制定的一套严谨的述、记、志、传、图、表、录体例写作规范,确保当模型生成初稿或进行内容审查时,能够自动符合志书编写的严肃性与专业性。信史约束的强化学习方面,将通过引入基于人类反馈的强化学习(RLHF),把有出处才生成的原则内化为模型的行为模式,对于任何无法在原始史料中找到依据的内容,模型被赋予拒绝生成的逻辑,从而减少直至杜绝通用大模型可能产生的幻觉问题。
(二)场景实证:三大智能体赋能资政、兴业、教化核心职能底座能力要通过场景来释放。为了响应国家数据要素×文化行动计划,可以把申知·沪志底座的能力模块化、场景化,封装为三个直接面向不同用户群体的智能体(Agent)。这三大智能体协同作业,以场景化应用验证数智化转型的实际效能,让方志工作真正走出象牙塔,进入社会生产的主力场。1.资政智能体(Zizheng-Agent):从历史资料查阅向城市治理辅助决策的飞跃。资政智能体主要面向城市管理者、政策研究者及政府决策部门,其核心使命是把历史数据转化为治理智慧。以超大城市防汛决策为例:上海作为地势低洼、水网密布的滨海城市,历史上饱受台风、暴雨与潮位波动的困扰。在传统的决策模式下,查阅历年水文数据是一项耗时耗力的工作。而资政智能体可以在几秒钟内完成以下操作:调用《上海水利志》、《上海气象志》以及历年年鉴中关于灾害记录的统计表格;通过Table-Agent提取百年来关于极端降水与河道水位的关联数值;结合GraphRAG抓取历史上受灾点位的空间分布规律;自动生成一份包含历史极值警示、易涝点位演变趋势以及防御建议的决策简报。这种能力将使地方志从事后的历史记载,提升到事前的风险预判层面。
2.兴业智能体(Xingye-Agent):激活老字号数据资产,赋能商业文脉的数字化重塑。兴业智能体面向市场主体,特别是上海众多的老字号企业、文创产业及商业地产开发商。上海拥有丰富的商业文明遗存,老凤祥、恒源祥、杏花楼等老字号不仅是企业,更是城市记忆的载体。兴业智能体致力于挖掘《上海工商志》及行业志中蕴含的商业文脉价值。通过对企业创始人社会网络、历代掌门人关系网以及品牌核心技艺传承路径的深度梳理,系统可以自动生成一张具备史学严谨性的品牌基因图谱。在城市更新与地块开发的实际应用中,这张图谱的价值立竿见影:当输入南京路某一街区时,智能体能迅速还原该地点百年前的商户布局、经营规模以及品牌更替历史。这不仅为企业的品牌叙事提供了确凿的史料背书,更为商业地产的业态规划与文化软实力赋能提供了不可替代的数据资产,真正实现了让纸上的地情变为账上的要素,让故纸堆变成黄金屋。
3.教化智能体(Jiaohua-Agent):海派文化全民普及的沉浸式新界面。教化智能体面向广大市民、中小学生、游客以及文化爱好者,承担着让历史活起来、传下去的社会使命。它的设计理念是把方志从专家的书桌搬到市民的掌心。依托生成式大模型自然的交互能力与多模态理解力,可以打造“我在志书中遇见你”的沉浸式文化体验。市民只需在小程序或智能终端输入一个地址,或是上传一张泛黄的老照片,智能体即可利用实体链接与空间映射技术,精准挖掘出该地点相关的历史记忆。这里曾是哪位先贤的故居?发生过哪场改变历史的会议?这里的建筑风格有着怎样的变迁?系统将枯燥的志书条目转化为鲜活的情感叙事,打破方志与大众之间的认知壁垒。这种从单向灌输向互动探索的范式变革,将极大提升市民的文化认同感,让方志文化在潜移默化中滋养心灵。
(三)智能体协作机制与全流程数据闭环三大智能体不是孤立的烟囱,而是共享同一个知识底座、协同响应复杂查询的有机整体。在知识共享层面,资政智能体提取的地理变迁数据,可以直接支撑教化智能体的时空科普叙事。在任务接力层面,当一个关于苏州河沿岸变迁的复杂查询发起时,兴业智能体将梳理沿岸企业的产业更迭,资政智能体分析堤防工程的建设历程,最后由教化智能体整合这些信息,输出一份既有严谨数据支撑、又具感人叙事温度的综合报告。这种分工协作的机制,确保了系统能够应对全方位、多层次的社会需求,实现方志资源全生命周期的价值闭环。

五、战略布局与实施路径:领航国家文化数字化新范式
从存史到算史的范式重构,绝非单纯的技术迭代,而是一场深刻的认知供给侧改革。站在“十五五”规划建议的前瞻视角下,上海地方志的数智化转型已不仅仅是行业内部的升级,而是新质生产力在文化领域落地生根的生动写照。为了确保申知·沪志这一蓝图能够转化为可落地、可验收、可支付的上海实景,技术路线之外,还需要在政策、标准、组织、投入四个维度上进行系统布局。
(一)政策对齐:将地方志打造为新质生产力的核心要素
1.响应“十五五”规划:重塑文化知识的供给形态。随着国家“十五五”规划进入关键的布局期,文化遗产的数字化保护已从物理迁移转向知识要素的深层激活。地方志作为最具备连续性、权威性的地情资源,是构建中国自主知识体系的关键基石。下一步,上海方志二期工程的意义应超越一个城市的范畴——努力成为国家文化数字化战略在超大城市落地的先锋试验。通过大模型的认知赋能,将把方志资源从传统的被动查阅转变为主动供给,这正是新质生产力中全要素生产率提升在文化领域的具体表现。申知·沪志大模型所具备的逻辑推理与知识涌现能力,将助力上海在“十五五”期间构建起领先的数字文化资产高地,为城市文化软实力的质变提供底层算力支撑。
2.赋能数据要素×:释放地情数据的乘数效应。在国家数据要素×行动计划的指引下,数据已成为与土地、劳动力并列的生产要素。地方志中蕴含的自然地理、产业兴替与人口变迁数据,是一座尚未开采的数据矿藏。我们提出的从存史向算史的跃迁,本质上是对方志数据进行二次萃取的过程。通过Table-Agent对统计数据的结构化还原,将把沉睡的字符转化为可交易、可建模的生产要素。这种转化将使得方志资源在数字经济、城市治理及文化产业中释放出巨大的乘数效应。上海方志不再是故纸堆,而是流淌在城市大脑中的活态血液。
(二)治理升级:构建标准、组织与投入的协同闭环为了确保二期工程在务实与合规的前提下高效推进,必须通过制度创新破解长期以来制约方志数字化发展的瓶颈。
1.确立数据治理的上海标准,抢占行业全球话语权。当前,地方志领域普遍面临有数据、无标准的困境。海量语料在不同系统间难以互联互通,根源在于缺乏统一的数据规范。上海应制定《地方志数据要素加工与治理规范》,建立起一套可复制、可推广的行业标杆。具体而言,应建立古今地名GIS映射标准,要求不仅记录地名的文字演变,更通过时空知识图谱建立起历史行政区划与现代地理坐标的动态对应规范,确保上海文脉在数字空间中具备精准的物理锚点;应建立历史统计表格的结构化还原规范,针对1949年以后新方志中海量的统计长表,定义统一的元数据著录与数据交换格式。通过这一标准,提供一套从扫描件到数据库的标准化流水线。
2.组建跨界协同的数智方志联合实验室。算史任务跨越历史学、计算机科学与数据科学的学科边界,单纯依靠行政体制或技术外包都无法胜任。建议组建由市方志办牵头,汇聚高校科研力量与头部AI企业的联合实验室。这种组织形式旨在构建一种政产学研用的铁三角机制:方志办作为行政主体,负责顶层设计与信史底色的把控;高校团队负责VLM、GraphRAG等核心算法的科研攻坚;技术企业负责工程化落地与持续运维。通过联合实验室,培养出一批既懂志书规律、又精通AI技术的复合型人才,为“十五五”期间的持续创新储备核心动能。这不仅是项目的组织保障,更是在文化人工智能领域的人才布局。
3.确立数据治理为重的资源投入机制,重塑资产估值逻辑。数智化时代的资产逻辑已发生根本性变革:服务器随时间折旧,而高质量语料与知识图谱随时间增值。在二期工程的经费编制中,应坚决打破重硬件、轻数据的惯性思维。建议在预算中单列数据治理与知识加工费,并明确其占比不低于总投入的40%,重点支持古籍版面语义理解、跨页表格修复及领域大模型的强化学习。这种投入导向的转变,实际上是将消耗性开支转化为积累性资产,确保财政投入能够沉淀为具有长久生命力的国家数字化主权资产。
(三)安全保障:在算法时代坚守信史底线与合规边界在推进数智化转型的同时,有一条红线不能触及:方志的严肃性与权威性,必须高度重视数据安全与生成内容的合规性。1.建立数据分类分级管理体系。根据方志数据的敏感程度,应构建严密的分类分级矩阵。对于已公开的志书年鉴,应全量开放以赋能社会;对于编纂过程中的内部资料及涉及个人敏感信息的传记文本,则需建立基于隐私计算机制的保护措施,确保在可用不可见的前提下进行知识挖掘。
2.强化AIGC(AI生成内容)的标注与溯源机制。针对申知·沪志生成的每一项知识,系统必须强制性标注AI辅助生成标识,并提供动态的史料原始出处链接。无出处不生成——这是方志AI区别于通用聊天机器人的根本底线。这种合规性设计,既是对历史真相的尊重,也是在人工智能时代对方志工作信史传统的最有力捍卫。通过这种机制,确保技术手段始终服务于地情研究的初心,为构建可信的人文人工智能提供上海方案。
 
本文部分内容刊于2026年2月26日《社会科学报》
作者:马海兵,上海中侨职业技术大学教授、模驭人工智能科技(上海)有限公司首席科学家;陈畅,上海市地方志办公室研究室(信息处)副主任(副处长)

(责任编辑:晓歌)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容
  • 马年献词

    策马踏春归,同心赴新程 旧岁的余韵,随晚风渐远;新年的钟声,已在耳畔铮铮作响。我...

  • 我的诗缘

    我是50后,共和国的同龄人。与那代人一样,我自幼就感受过李白胸中情与景的奔涌:《早...

  • 名人小事

    学习和领悟这些先贤大师的嘉言懿行与高风亮节,以他们为自己读书、做事、做人的榜样。...

  • 岁月长卷中的知青记忆与文化传承

    我们夫妇都是知青,对知青这个名称始终怀有难以忘怀的情结。经镇江市知青作家协会的牵...

  • 从何应钦主持“受降仪式”谈起

    01 1945年8月15日,日本天皇裕仁宣布无条件投降。 9月9日,中国战区日军投降签字仪式...

  • 历史的回声,时代的叩问

    6月6日晚,初夏热风吹拂,在上海江西促进会陈树雄老师的热情介绍推荐下,我走进大宁剧...

广告位