周至倒是不怕这些,毕竟岛国和国内一样,能够处理河豚的厨师是需要考取执照的。
马爷不吃正好,周至正好顺便把他的那一份给干掉了。
反倒是池田丘这样的年轻女士,对于吃这个部位一点没有异样,还笑吟吟地跟周至讨论口感,让周至感慨这女的要是在国内遇到付霞,指定聊得到一处去。
之后坂本五郎对于周至和马爷的态度就好像有了点细微的差别,好像给周至的笑脸更多,对于马爷就有点应付了。
听闻周至提出想要去静嘉堂访问,同时和静嘉堂文库的负责人讨论将文库数字化的工作,不由得对周至刮目相看:“周桑,这个想法,是在瀚文大字库创立之前就有了的?”
说实话的确是如此,不过周至心目中的数字化图书馆远比现在任何人心目中的结构都要宏大得多。
但是脑海里边的东西提前说出来一点用都没有,事情只能一步一步地做起来,现在第一步的瀚文大字库已经完成,才说得到第二步上来。
第二步,当然就是将典籍的内容数字化。
周至心目中的图书馆,绝不是简单的扫描,转字,存储这样简单的功能。
这里面涉及到版本格式的数字化,文字内容的数字化,书目索引体系数字化,段落标签的数字化,特殊词库数字化,访问检索功能的开发,以及典籍内部与外部的联想特征接口。
就拿《资治通鉴》来举例,周至要的不是一个TXT文档,而是一个立体化的数据库,研究者可以根据自己的需要,输入“汉武帝”三个字,就能够检索到资治通鉴里提到汉武帝的所有内容,由此拼合出一篇汉武帝的传记,同时还能够检索出每一个段落的具体出处,以及与汉武帝这个关键词有关系的一级标签索引段落,二级标签索引段落,三级标签索引段落。
比如汉武帝的五服内亲人,父母,后妃,子女,重臣,重要制度,新立官制,政策,战争,灾异,这些就属于与之相关的一级索引。
在位期间的其余地方大事,诸侯,番邦等,这些内容属于二级索引。
以此类推。
这样就会把编年体的《资治通鉴》,剖析出一篇纪传体的《汉武帝传》,而这篇传记上的许多内容,还可以一层一层地向下钻取,比如皇后这一索引,就可以钻取出卫子夫,从卫子夫,又可以钻取出卫青,刘据。
这些是内部接口,还有外部的,比如将《资治通鉴》和《史记》、《汉书》、《后汉书》、《五代史》、《资治通鉴长编》等再度关联起来。
当然这些已经是属于将来要干的事情了,当务之急是先要将典籍的内容数字化完成。
也就是说,这一切的基础,是先要得到一个“《资治通鉴》.txt”。
还有一个步骤,也是要和这一步同时进行的,就是“版本格式设置”。
这个是用来展示用的,周至想要读者在浏览古籍的时候,体验到翻阅古籍的效果。
要是再过几十年,这事儿就很简单,将典籍的高清扫描图片和隐藏的数码文字链接到一起,就能够轻松实现。
不过现在却不行,因为如今的存储空间是非常珍贵的,高清扫描图片动则一两兆,《资治通鉴》一共三百万字,只需要6M的存储空间。
然而要是连扫描图片一起打包的话,《资治通鉴》一共近三百册,一万多页,两页一图,拿起码也需要12G。
就算对图片进行压缩处理,也至少需要一两个G才行。
在家用电脑硬盘空间以一两个G为主流的九四年,这么干就实在是太奢侈了。
因此就需要将各种版本的《资治通鉴》的版面信息采集起来,然后找到规律,通过程序处理,在读者浏览典籍的时候,将卷面格式和文字配套,临时地“画”出来。
这个功能就无需占用大量的空间,而且实现起来难度也并不大。
有了这两个功能,最简单原始的“数字图书馆”1.0版,就算是能够出台了。
坂本五郎本身并不懂技术,和很多外行一样,听了周至一通忽悠后,感觉这玩意儿实在是太高大上了。
而且这东西整理出来后,可以到处备份,相当于能够将一个静嘉堂,变成无数个静嘉堂。
作为一个经历过二战的老头,坂本五郎觉得这个什么数字图书馆当真是非常重要。
京都是“文化之都”,对于这样的文化盛事,只要撺掇成了,将来都不愁自己不青史留名。
“我在新闻里好像看到过,我们国家好像也派驻了一个团队,一起协助搞字库?”坂本五郎问道。
这话问得就有意思了,摆明了,坂本是想要争取一下日方在这个项目中更大的参与比重。
这事儿当真是“人在屋檐下,不得不低头。”,周至只好说道:“瀚文大字库最后这一期其实重新定义了一下,真正的名称是‘UNICODE中日韩表意大区文字项目’,日韩两国分别派遣了精干的力量参与,大家共成其事。”
“岛国的专家是东京大学信息学教授松井造先生,他带领的团队在项目组中主要负责《字海》字卡入库核审工作,对于岛国同事严谨的工作态度,