迈向AI时代:数字人文基础设施的先锋之路 ——刘炜先生访谈录
原创 刘炜 赵薇 2026-05-08 10:01 北京
数字人文这个领域概念太多,含义太多,我并不认为我们所做的事情就一定处于核心地带,只是由于数字人文非常需要文化遗产、历史文献这些方面的内容和数据,促使我们参与其中。
DHer 访谈
刘炜 赵薇
受访人简介:
刘炜,计算机软件与理论博士,上海社会科学院信息研究所所长、研究员,上海大学博士生导师,兼任中国科技情报学会和中国索引学会副理事长。曾任上海图书馆副馆长、上海科学技术情报研究所副所长,曾获上海市科技进步奖一等奖和上海市领军人才称号。长期从事智慧图书馆、数字人文研究,作为“数图笔记”公众号主理人,致力于前沿技术的应用研究和普及。
采访人简介:
赵薇,中国社会科学院文学研究所副研究员,数字信息研究室、数字人文与计算批评实验室负责人。
整理人简介:康吉赢,清华大学人文学院博士生
访谈地点:上海图书馆西宾馆
访谈时间:2024年11月11日
赵薇:刘馆好,我大概从2019年开始注意到您的研究和工作,您是目前中文图书情报与信息管理领域发表数字人文论文被引次数最高的学者之一,可以说是领军人物。我注意到,在每一个数字人文发展的关键节点,比如数字图书馆、数字人文、去中心化网络、Web3.0,还有现在所谓AI与人文,您都站在风口上,扮演了弄潮儿的角色。我想请您谈谈,您是如何做到这一点的?也请您谈谈您的数字人文之路。
刘炜:首先非常感谢你们选择我来做访谈。我觉得其实赵老师你们做的很多研究都很有意义,在数字人文界是非常扎实、前沿的团队,我很敬佩。这个问题对我来说很自然,因为我们这个行业和数字人文实际上是自然而然就走到一起了。
当然,数字人文这个领域概念太多,含义太多,我并不认为我们所做的事情就一定处于核心地带,只是由于数字人文非常需要文化遗产、历史文献这些方面的内容和数据,促使我们参与其中。而且,由于数字人文整体来说还是处于初期阶段,我们这方面的工作比重比较大,也很重要。在向数字世界迁移的过程中,现在大量研究人员还是数字移民,而不是数字原住民。如果现在不抓紧时间把人文学者所需要的数据基础及时迁移,那么传统以非数字载体为主的知识世界很可能就会被边缘化,这样未来的人文发展可能会出现断层。实际上,东亚有些非英语地区的人文研究,已经呈现这样的问题。像现在的大语言模型,对东亚语言和少数族裔文化其实是不利的。因此,数字化这一进程必须持续推进。
我一直在上海图书馆从事数字化工作。这个行业从20世纪90年代开始提出数字图书馆,我们就在做这件事,主要是要把这个行业带入数字时代,可以说是“歪打正着”。我大概在2012、2013年的时候开始关注到数字人文概念。2014年我们开了一个会,当时很关注语义技术。数字化一开始是扫描,后来做OCR。当时语义技术蓬勃发展,关联数据、RDF[1]——国外W3C[2]提出的这一套方法,我们觉得非常好,把传统资源数字化,可以更好地基于内容揭示关系,并把很多关系以更规范的方式呈现。这样学者在使用时,就能直接处理知识,而不是被大量杂乱无章的噪声干扰。虽然当时没有更好的技术,但我们认为这条路是必不可少的,因此组织了一个关于“语义技术与数字人文”的会。后来技术不断发展。我们机构对科技资料也非常关注。科技资料本身产生于先进的科研机构,具有高经济价值,各国都高度重视科技文献、科技知识的交流,基本上,IT技术一产生就直接应用到这个领域了。为此,我们订购了很多数据库、基础设施服务,这些为人文社会科学提供了很好的参考。人文学科的内容,如果不由我们这样的机构来做,就没有人做,因为它缺乏商业价值。如果我们做得太慢、太晚,传统的文献就会被忽略。鉴于此,我一直坚持在这个领域工作。
赵薇:谢谢您从上海图书馆的几个关键节点回顾历程。我其实也算您的一个粉丝吧,比较好奇您的职业生涯,是怎样一步步走到今天的,包括您的专业背景和个人经历,是否与学术相关?
刘炜:1983年我上大学时读的就是图书馆学,当时是热门专业。我在华东师范大学读书,当时图书馆学专业文理都招,我是理科生。这个专业当时属于华东师大试点班,对外语和计算机都有强化训练,录取分数也很高。计划经济时代,图书馆学被认为前景不错。我硕士考的是图书馆学基础理论,后来转到情报分析方向,师从上海科技情报所的马远良研究员。在图书馆学和情报学的学习过程中,我对IT技术一直很感兴趣。当时系里面专门有机房,总是最早一批购买IBM PC、IBM XT、IBM AT、286、386、486给感兴趣的同学上机。我本科毕业论文是在情报所老师指导下写的,题目是检索表达式的转换,用逆波兰式和准波兰式转换算法。硕士论文写的是数据库产业问题。我当时就感到IT技术会对图书情报领域带来很大冲击,产生颠覆性影响。
我在情报所的工作部门是理论方法研究室,负责跟踪高新产业发展,因此看了很多国外的材料。上海当时确立了十大重点高新产业方向,我们情报所参与激光产业领域,其中一个方向是光盘存储(CD-ROM)。后来情报所受上海市科委和经委的委托进行产业孵化,把中科院有机化学研究所的化学数据库转换成CD-ROM产品,提供服务,我们是国内第一家做的。
后来情报所和图书馆合并,图书馆有大量的人文社科资料。我到了技术部门网络中心,觉得自己的技术本领尚有欠缺,就读了复旦大学计算机系的在职博士,比较系统地学习了计算机技术。我一直隐隐约约觉得,计算机技术的发展、信息处理、信息加工和文化遗产保存之间存在着一条脉络。因此,我沿着这个方向不断学习,在我看来,自己学到的所有知识和积累的经验经历都是有帮助的。直到现在,我在从事数据分析、做人工智能相关工作时,都感到得心应手。
赵薇:在您看来,中国的数字人文——无论是学术研究、建设,还是产业——大约从哪一年、哪个时间节点开始受到重视、进入关键时刻?另外,您是否对这个领域一直有自己的设计?之所以这样问,是因为我感到在每个关键节点上您都试图想成为一个领航人,尽管后面实际上不一定按照您的构想发展。
刘炜:我大概在2012、2013年的时候接触到“数字人文”这个名词。我一直比较关注国外同行,特别是国外的汉学研究。武汉大学王晓光教授那边成立了一个研究中心,他在2009年发表过一篇相关文章,影响很大。但后来他们中心成立之后一段时间没有太多动静,他更多精力转向数字出版和其他领域。我们也碰到过几次,聊起这些,他认为国内当时的条件还不成熟。2014年我们开完那个数字人文会之后,开始和国内一些同行接触。我们觉得对图书馆来说,这是一个机遇:图书馆数字化之后会有一个新方向。仅仅提“数字图书馆”,不知道具体为谁服务、要做什么,数字人文的到来突然让我们的数字化服务可以落地了,有了明确的目标,我们觉得应该推进,在其中发挥作用。
后来王晓光教授一直在宣传推广“数字人文”这个概念,在中国社会科学情报学会那边成立数字人文专业委员会时,他也拉着我一起讨论一些事情。专委会成立后,2019年在敦煌开了第一届年会。大概从2017、2018年开始,大家陆续做一些研究并发表论文,到2019年第一届年会,我觉得这可能是中国数字人文真正的一个起点。后来上海图书馆承办了第二届年会,即2020年中国数字人文机构联盟的中国数字人文年会(CDH2020)。
再往更早一些说。零几年开始,海峡两岸都在做“数字/数位典藏”。台湾做“数位典藏”和我们做“数字图书馆”是同步的。台湾做得扎实,前些年投入很大,虽然近几年可能受一些影响,在中国历史、中国传统学术方面的经费减少了,但早期积累很深。他们把“数位图书馆”直接做成“数位典藏”“数位人文”。2008、2009年左右,他们就开始组织“数位人文”会议。我们这边2014年才办的会,我在2012、2013年也深受台湾的影响。那时我就觉得,“数字图书馆”这个概念在国外没有多少专著,但“数字人文”一出来,国外一下子出了上百本著作,台湾也出了很多专著和论文集。“数字人文”显然更容易汇聚共识、形成话题。
因此,在大陆,2017、2018年是一个启动期,2019年之后在知网上相关论文直线上升,现在每年1000多篇,已经成为热点领域。一开始主要是图书情报专业占比比较大,后来稍微好一些,但总体来说,数字人文仍未摆脱基础设施建设类机构对这一领域的垄断地位。可以这样说,什么时候由人文学者真正占主导,数字人文才算真正成熟。
至于有没有“设计”,如果说我能踏准一些节点,那完全是巧合。除了数字化等基础设施起牵引作用,另一个最重要的因素是技术自身的发展。我一直在跟技术,我觉得这些时间节点在很大程度上是技术推动的结果,比如人工智能刚出现时,大语言模型还是有争议的;ChatGPT出来后,我花了两三个月看了很多资料,才开始认可一些人的观点——这项技术的颠覆性非常强。比尔·盖茨最初认为它只是人机交互,后来他认为几乎触及“人类智力的奥秘”,把它类比为工业革命级别的技术。其他节点上,比如当年对关联数据技术的判断,我们认识到,若想用计算机系统对知识进行有效管理,没有比这项技术更合适的了,我们纯粹是出于技术层面的考量来推动其发展。
赵薇:您刚才谈到以ChatGPT为代表的人工智能,可能是堪比工业革命级别的技术。能否具体谈谈,就当下来讲,这类通用(而非专用)技术,会给基础设施建设带来哪些具体的挑战与机遇?在技术建设层面会不会出现翻天覆地的变化?能否结合一两个小例子,谈谈您的想法和打算?
刘炜:现在ChatGPT带火的生成式人工智能,具有通用性,它对各类数据,包括眼、耳、鼻、舌、身等,只要是传感器能够获得的,甚至人类日常无法感知到的,它都能从中发现模式和规律。
它带来的结果是什么?这次的人工智能和以前都不一样。一方面,它能做很多过去想不到的事情;但另一方面,过去很多专门人工智能算法能做的事,它未必能做得更好。所以,它在高速发展的同时也带来很多争议:它并不能仅凭一己之力就对现代生产力带来明显的提高,尤其是它克服不了与生俱来的幻觉,因此还很难在可信度要求高的领域得到应用。
目前普遍认识到,这是一轮工业革命级别的技术进步,但由于应用开发的滞后,还没有显示出它的威力。我们现在看到的还只是一些研究性的测评指标,要让它在数字人文领域真正发挥能力,一方面,要等一些关键技术的成熟,让我们“顺便”就用上了;另一方面,通用模型不会顾及垂直领域的特殊需求,我们可能需要自力更生,依靠自身的力量组织团队,积极应用人工智能,为行业带来变化。
关于对基础设施的影响,大致分两方面。一是对既有工作的影响。我们一直在把大量文化遗产、文献、历史遗存迁移到数字世界,新技术可能大幅提升效率,也可能使一些技术成为明日黄花,比如关联数据技术。当然它的作用还不能全盘否定,还可以利用它来为大模型提供语义素材和基础数据。当大模型能力足够强、语义获取路径改变后,关联数据就被完全替代,或者仅在某些环节保留价值。
此前的人工智能是以符号学派为主的一套东西,现在是以深度神经网络为代表的连接学派大行其道,符号学派似乎已经走到了尽头。也有人说连接学派会碰到瓶颈、撞到南墙,到那时可能还会回过头来考虑符号学派的某些思想,进行融合。计算机技术的历史就是这样,潮起潮落,“东方不亮西方亮”。
对于传统世界的这些东西,如果要把它数字化、数据化,把它们关联起来、建模,更准确地构建一个虚拟世界——也就是知识世界——这个知识世界可能可以具象化为元宇宙,也可能不具象化;在大模型中,它就是互相之间的关联,通过向量空间模型来呈现。当然模型也有我们讨论过的黑箱问题;如果完全是向量化表示,就很难还原真实世界里有血有肉的描述。
所以,在有“智慧”的大模型之下,智慧所依赖的知识世界与信息世界是相辅相成、不可替代的。不能因为有一批“很聪明”的大模型,就说著作、书本、期刊、报纸不需要了,现在还没到这个时候。大模型可以知道四大名著及其人物关系,而且很准确,但要让它把四大名著一字不落地重写,恐怕不行,至少对于深度神经网络来说成本太高。我猜测它有一个问题:它能学到知识、变成“智慧”,但未必能等价地还原知识;即便能复述故事,也不可能保证完全用相同的语言来表达。由此推论,要保存人类知识,人类的记忆机构不能只依靠大模型,而不再保存知识与载体。这不是完整的文化保存,所以我们这种机构仍然有意义。
新技术至少可以加速传统知识数据迁移到虚拟世界的过程。但迁移总会有损失。迁移的目标取决于你要解决的问题,数据采样的颗粒度与问题直接相关;不可能满足一切目的,因为成本太高。因此,迁移可能是大批量推进、分层精度并存的过程。就像我们上海图书馆在20多年前开始的扫描,如今要重扫,因为当年分辨率、保真度不够,很多技术当时实现不了,现在就要重新做,国家也出了新标准。未来可能还会经历类似“重做”。不管怎样,新技术可以加速迁移过程。
另一个具有更大意义的事情是,未来很多人文学科的课题都是聚焦当下的问题,而不是基于历史资料,这些课题本质上是原生数字化的。就像推特上的所有动态和互动数据,可能都会被马斯克的Grok大模型所利用。曾有很长一段时间,推特每年都要把所有数据拷贝一份给美国国会图书馆,号称“保存历史”。但在2017、2018年前后,作为行业顶尖并肩负保存数字遗产职能的美国国会图书馆宣布停止接收这些数据,因为即使把打包的文件都存在云盘上,也没办法有效还原利用,技术跟不上。这被很多知识分子视为一种倒退,他们认为不应该停止接收这些数据。
将来很多事情都是当下发生的。所以,人文学科可能会以另一种形态存在。过去古希腊有“七艺”,中国有“六艺”,孔子讲学、弟子著述;如果是纯数字时代,可能会产生很多新的学科——与数字媒体直接相关的人文研究。数据采集的方式、编码与解码的方式,都与机器、数字技术直接相关,就会出现数字时代的《诗》《书》《礼》《乐》《易》《春秋》。现在很多人文学科得不到资金而有生存危机,恐怕也是必然的。当“元宇宙”或类似的虚拟世界出现、当人不再需要劳动时,人在虚拟世界中的任何行为都被赋予价值,游戏里的探索和创造都被视为有价值的。那时对人文领域的影响会是:在虚拟世界里,人会留下大量新的思考与问题。这方面的变化是数字原生世界的基础设施。
所以,这是另外一个“人文”带来的问题。原生的数字世界过了奇点之后,会出现大量我们现在看不懂的新事物。日常工具的消失速度会很快。过去分散在许多设备上的功能,如今都集成到手机里,而人工智能到来后会带来更大的变化。智能硬件将作为人的延展与功能的延续,形态会非常普遍、五花八门。像帮助残疾人或老年人的体外骨骼、帮助视障人士的设备,本质上都具有人文关怀,应该鼓励。科技应让人类无所不能、更加幸福。当然也会带来很多问题,这是人文要面对的第二方面。
我对人类记忆机构的价值也开始有危机感。大模型出现后,传统的收集、整理、加工、服务以及教育这一整套做法,将来会变成什么样子?尤瓦尔说,信息有两类作用,最大的作用不是积累知识,而是沟通交流、取得共识。和我们这个职业的传统认识完全不同,他认为并不是所有信息都要保存,大量信息可能毫无保存价值,只是为形成共识服务。真正要保留的是经过验证的、可循证的知识,尤其是科技知识,能为下一代的发展提供基础。这意味着我们对未来基础设施的设想还很不清楚:现在的基础设施是GLAM机构[3],把载体书刊报做成数字媒体,而未来,奇点之后会是什么样子,尚不知道。
赵薇:谢谢您对近未来的畅想。很早就读过您的文章,我觉得这是您的一个特点,您对未来的设想通常有预见性,当然也带有技术乐观主义的乌托邦色彩,但这恰恰很有意思,如果将来写思想史,您可能是一个典型的例子。您谈的不只是技术,而是对技术的认识,这不是一般人能做到的。
但我还是想请您结合一些具体的例子,比如说去年王军老师在北京大学办的那个以数字人文教育为主题的会议,大模型正逢其时,王东波教授有“荀子”大模型的展示,包弼德(PeterBol)教授也在场,他提出了一个与基础设施相关的倡议。我当时没完全理解,似乎是想把分散的数据、机构资源整合起来,形成共享的基础设施,这是他此前一贯的想法。我想听听您对这种提议的看法。因为在现在这样一个追求通用人工智能、追逐最大数据的格局下,可能面临更大范围的共享是否现实的问题。您也知道,大模型已经变成军备竞赛意义上的一个专门领域,各个主权单位对这个东西都非常敏感。学者的构想和现实之间肯定有张力,包弼德教授本身是海外人文学者、汉学家,在这一点上尤甚。所以也请您谈谈,作为国内基础设施建设的排头兵,您怎么看?
刘炜:包弼德这个想法我知道,也在某种程度上参与过。他2018、2019年在上海开会,我去过。后来又开过小会。一开始他和中文在线合作,后来中文在线独立出去,转向做数字加工。包弼德曾拉了德国马普所和中国台湾的相关机构成立委员会,希望形成汉学资源一网打尽的格局,不一定要放在一起,但要有互操作的方案。超星当时也很热心,组织了两次会。包弼德的想法是有意义的,但在技术路线方面大家始终没能达成一致。随着资金投入的减少,尽管还在不断努力,但进展不大。
不过,我仍然认为能够整合所有中文古典资料、汉学资料还是很有意义的,这是一个集大成的设想,也带点乌托邦意味,即便政府出面也很难做到。国家花很多钱,常常被不同学者分散使用,缺乏统一路径,钱花了,结果未必好。很多地方搞大典、图书的再版,但并不愿意真正建设数据库、知识库或大模型。各路利益相关者都想分一杯羹,所以往往做不成。
我个人更相信去中心化、分布式的路径:大家基于自己的目的各自做一点,最后自然能汇聚起来。可能国外的玩家影响力更大,但国内的玩家更加重要,这两类玩家相辅相成、缺一不可,我倡导多交流、多讨论。现在学术界的年会还是小圈子,真正干活的人没参与,领导也缺乏数字人文的观念。比如敦煌,花了那么多钱,成果至今不开放,也不知用什么标准做的,别人很难研究他们在做什么,他们只关起门来做,结果还是墙内开花墙外香,很可能要等国外东方学成果出来,他们才开放。
我觉得国内的基础设施建设目前不可能统一。国内能出点钱做数字化、数据化已然不错,哪怕百分之八九十白费,要留下百分之一二十也有价值。未来国内中文人文学者使用的主要基础设施,恐怕还要依靠海外的影响。我对国内整体前景并不乐观,包括我们自己单位,得到的支持和团队都很有限。我退休之后,恐怕更难推进,因为他们没有自觉意识。
赵薇:对,包弼德当时的表述我们也没理解,还引起一些追问。
刘炜:当年其实有两个方案。一个是超星提出的,从美国聘请人直接给包弼德做,专门有一套方案,比较封闭;另一个是马普所的,曾与爱如生合作,但因费用问题中断了。马普所方案包含两个协议,可以在一定程度上解决互操作问题:各家资源放在自己地方,有一些节点可以收购元数据,通过协议实现统计、审计,按使用付费或开放获取。这类技术方案很好,后来又出现IIIF的技术[4],也能突破互操作。但光有技术方案不够,还需要大家遵从的行业联盟或机构联盟,有监督机制,让协议不断迭代,形成良性生态。
赵薇:谢谢您的讲解。另一个问题,随着人工智能的兴起,大家都需要大量语料训练模型,这会不会对图档类机构的数据管理造成影响?比如,数据外流、监管等。从基础设施角度看,如何理解被人工智能加速或抑制的“去中心化”?我们知道此前有《互联网共产主义宣言》,它其实是非常乌托邦化的,现实里人工智能却促使主权单位筑起更高的“墙”,这形成一个悖论,即模型越来越高级,数据却越来越不自由?还是说在监管更严的情况下,流动性反而更大,共享的可能性就更大了?
刘炜:问得很到位,这确实是关键问题。现在有讨论和猜测,但都没有系统研究。尤其在人文社会科学领域,缺乏对数据流通趋势现状的调研。国家层面已把数据作为主权的一部分,有法律框架,重视程度很高。大模型兴起,促进了数据价值的变现,大家越来越重视数据。在全球化的大背景下,人文数据也受到影响。比如,常州一家公司,主要做家谱,和美国家谱协会关系密切,夫妻俩创办公司,雇了几十人,他们在中国民间收集了大量家谱、谱牒、宗亲的数据,在全国范围内使用的信息技术也较好。后来据说被人举报数据外流被调查,就是一个典型例子,当然他们被举报具有偶然性,到现在都无法解释清楚。
但实际上,社会人文类数据早已在流通,只要开放、提供服务,很多收藏机构的数据早就被买来买去。然而,单有数据无法发挥价值,必须有平台、工具才能发挥作用。我们也不用过分担心,因为图书馆数据本就应该开放,国外的高清数据都直接拿出来,过去还只能允许非商业使用,现在商业使用也开放了。像我们这种公藏机构,只是文化遗产寄放在这里,并不算版权拥有方。版权法规定作者去世50年后作品就进入公有领域,所以我们馆藏的大量清代、民国资料,相关的数据其实都应该开放。可现在大家都非常保护自己的数据。
问题是,目前还没有人文领域哪家机构肯出钱认认真真去做服务平台,所以哪怕各家有数据,也不知道如何处理。国家即便投几个亿,最后也可能不开放,大家积极性也不高,各自有数据也不愿交——这就形成悖论。目前数据当然很有价值,这一方面造成了数据的隔离,大家都知道数据值钱了,但与此同时,民间的数据交换、盗版却愈发活跃,大模型用了谁的数据你未必知道,数据质量良莠不齐,生成的内容既不能保证质量,也得不到版权保护,有人把这视为商机。现在是战国时代,群雄并起,谁的算力大,就能抢占更多数据,未来或有价值。现在民间数据交易其实很多,民间个人收集古籍、方志等,扫描文本的数据量可能达到PB级,但凭借私人的力量难以加工整理。实际上,整个数字人文圈,要么文史哲功底深,要么技术强,要么占有海量数据,能真正把人文、技术、数据结合起来的人极少。人工智能确实加剧了数据垄断和占有的趋势,但同时也在促进新一轮平等化。前期的数据不均等会存在,数据因稀缺而有价值;后期一定是数据和模型、应用结合才有价值。光有数据是没有前途的。
赵薇:您讲得非常精彩。这个关系是既促进又制衡,但制衡的同时又有机遇。我很受益。
刘炜:我再补充一点。我们现在做的是基于上海图书馆馆藏资料的,外购数据旨在用来补充、丰富馆藏的描述或版本信息。我们很矛盾,是做大而全的数据库,还是只做馆藏范围内的?主要还是由于资源投入有限。比如方志库,是做上图馆藏方志库,还是中国方志库?收购大量方志会增加工作量。原本图书馆职能就是收集,但没有预算、没有投入,做了也没有商业价值,所以很难推进。如果公司愿意做大而全的方志库,让我出主意,我可以帮忙。但上海图书馆自己做不成。将来方志大模型要想能回答问题、普及教育、支持研究,就必须有更全面的资源。
赵薇:谢谢您的解答。最后一个小问题,这两天注意到“全国报刊索引”发布了智能问答“索引君”,我非常惊喜。从研究者角度,我知道您从去年开始主导这件事,做得很及时。如果是ChatGPT演化的问答机器人,大家根本不会在意。但学者每天做研究必须用的工具,一旦开发成智能体,就会有颠覆性影响。这才是人工智能的价值。
刘炜:他们胆子比较大。我鼓励韩主任他们去做、去尝试。但现在还是“拉到篮子里都是菜”,最终会有什么结果,尚不可知。因为他们有创收和增值服务的压力,所以更有积极性。通常我们这种机构对新技术会更慎重,所以我觉得他们现在先推出来的产品,可能比较粗糙,甚至会有问题,但至少先做起来了,在迭代中进步,可以走得更快。
赵薇:那么上图在大模型应用领域,是否顺着这一路线有进一步的举措?
刘炜:我们有很多想法,现在要推进的是整个行业的大模型应用。大模型我们跟了两年,馆里很多年轻人工作时会把它们当作工具。但是现在面临一个问题,过去我们没有对成果提出要求,只希望大家关注和交流,现在发现形势不等人,外面很多良莠不齐的公司开始推出一些包括数字人在内的乱七八糟的产品。所以我们今年年底、明年年初会布局一些产品,除了与一些公司合作开发产品或评测,还会在行业里下场,制定标准规范白皮书,推动大模型的应用。
编辑 | 王波
向上滑动 查看注释
[1]RDF(Resource Description Framework),资源描述框架。——整理者注
[2]万维网联盟(World Wide Web Consortium),简称W3C。——整理者注
[3]GLAM指Galleries, Libraries, Archives, and Museums,即美术馆、图书馆、档案馆和博物馆。——整理者注
[4]IIIF(International Image Interoperability Framework,国际图像互操作框架),是一组实现图像资源互操作的技术标准,旨在使用户能够更轻松地查看、操纵、比较和注释网络上的数字图像。引自复旦大学图书馆“IIIF图像服务简介”,https://library.fudan.edu.cn/e6/80/c42704a517760/page.htm,2025年9月21日。——整理者注
点击下方链接,下载原文
迈向AI时代:数字人文基础设施的先锋之路——刘炜先生访谈录.pdf
如需购买《数字人文》期刊,请扫描下方二维码
原刊《数字人文》2025年第4期,转载请联系授权。