汉龙盛达科技扫描仪

line
新闻中心
来源: admin  Time2021-06-07

经过了十几年的飞速发展,互联网从早期的由网站编辑人员主导发布内容,进化为由网络用户主导发布内容的互联网产品模式,也就是web2.0概念。产生了如知识网络(维基百科、百度百科、百度知道)、社交网络(facebook、微博、微信)等等大量依赖用户做内容和推广的成功产品。随着大数据、云计算等新技术的成熟,将互联网转化为数据库、向人工智能进化成为了可能,这些由用户上传、维护的内容,通过数据挖掘,将会产生难以想象的更高的价值。

那么古籍数字化这种专业性这么强的东西,如何交给互联网用户呢?互联网最大的特点就是海量数据的汇集,有时作为一个用户提交的看似很少的数据,在千万个互联网用户那里就形成了知识库。我们使用一种知识网络为核心,通过验证码技术做为内容来源,搭建一个基于互联网的古籍数字化平台。

1、互联网验证码的活用

回到古籍输入。既然古籍OCR那么困难,专业人才又不足。是否有方法避开ORC这个过程,不需要依赖专家,又能完成古籍的输入呢?

互联网给了我们一个非常简单、而且每天可能遇到很多次的办法,那就是各大网站系统的“验证码”。

在网络刚诞生的时候,是没有验证码这种东西的,网络上的用户注册,就像进入一个没有门铃、敞开大门的屋子。这造成的结果是,伪装成用户的恶意程序,可以随意在网站注册,将垃圾评论和垃圾邮件肆意传播。

互联网时代早期,美国雅虎公司是最重要的免费邮件提供商之一,由于邮箱用户每天会收到大量这样的垃圾邮件,为此雅虎公司耗费了大量资源来阻止这些垃圾邮件。通过工程师的分析,邮件的发出者正是来自于自己的服务器,恶意程序假冒用户申请了免费邮箱,每天有大量的垃圾邮件通过免费邮箱发出。雅虎为此对人机辨识问题进行了研究。

最后雅虎选取了Luis Von Ahn提出的,通过验证码识别恶意程序的方案。由于当时计算机辨识技术落后,对于经过扭曲、字迹有污染的文字(图4),计算机是不能辨识的,而人类只要看一眼就可以轻松认出这些文字。计算机先是产生一个随机包含字母和数字的字符串,然后生成图像,用程序将图像上的字符串进行随机的污染、扭曲,再将图像推送到网站注册、登录的入口。凡是能够准确辨识这些字符的视为人类,可以继续下一步服务。

仅仅几秒钟,验证码技术带给了计算机网络安全,全世界每天都有数以十亿计的人通过几秒钟的时间辨认这些验证码。卡内基梅隆大学的研究室有一个新的想法,每一次识别都有一次的输入,如何把这么多的输入都利用起来。

由于过去落后的印刷技术,歪歪扭扭的古籍文字天生能达到验证码的要求,为此卡内基梅隆大学成立了“reCAPTCHA计划”,以古籍录入为目标的验证码输入系统。这个计划先将古籍仅做扫描后,由计算机程序切割成小段图像(图5),显示在验证码图像中。网友在看验证码图像后用人脑识别然后输入,输入的结果汇集到服务器中。

2、知识网络的建立

英文从古至今,一共就26个字母。而汉字究竟有多少个,至今没有一个统一的说法,光康熙词典中就收录了47035个,而且大量的异体字、生僻字。不仅仅是识别,计算机是否对字库有支持,会给识别出的汉字的录入也带来极大的困难。

为了解决这个问题,我们引入互联网的知识网络。

用知识网络来进行古籍数字化资料整理:

使用简单

知识网络的展现方式为超文本页面,可以快速生成、存储、更改,使维护更简单;使用简单的格式标记代替HTML格式标记,并通过简单标记,直接通过关键字名来建立链接;关键字名作为页面名称,并且被置于一个单层的平面空间中。这样,不光是一本古籍,古籍中的一个段落,甚至是古籍中的一个字,都可以作为一个页面,成为一条单独的知识。任何成员都可以建立想建立的古籍条目。

有组织

不仅仅是页面内容,整个超文本的组织结构也是可以修改、演化的,这就给了知识体系一个组织性。而且内容重复的页面可以通过超文本汇聚于一个,并改变相应的链接结构。解决了同一本古籍资料,由多人以不同名称多次创建的问题。

可增长

知识网络中可以随时创建新的知识条目,而没有内容。新的知识条目以链接方式存在,通过点击链接,就可以创建页面内容,从而使系统得到增长。页面内容创建和修改的记录也是可以记录的,可以获取每一个修改过的版本。由于古文的释义、句读等,即使是专家也可能有多个意见,这样保证了网友可以看到同一条知识的不同理解。

新型古籍数字化平台包含了我们经常使用到的服务,以知识网络为主要代表,“一对多”和“多对多”的传播模式并存。

知识网络为古籍数字化建立相应的栏目后,以书、册、章节、段落,甚至一个汉字,都可以建立一个条目。包括由验证码系统分拆的每一个图像以及合并后的整页图像。事情到了这里还没有结束,为了保证更准确的结果,我们利用知识网络有组织的特点,由专家完成对争议内容的最终修改,专家给出批示,又可以再次作为一个知识点,通过网络二次传播。这样就不光完成了对古籍数字化,还解决了古籍研究人才不足的问题,还可以通过网络培养更多的人才。高效、有效的完成了古籍数字化和文化传播的两重重任。

line

Copyright © 2016 北京汉龙盛达科技有限公司  版权所有

联系电话: 传真: 邮箱:

ICP备案编号: 网站地图

返回顶部