科技守護(hù)文明:中國(guó)古籍“回家”之路
新華社成都5月20日電 題:科技守護(hù)文明:中國(guó)古籍“回家”之路
新華社記者童芳
中國(guó)是世界四大文明古國(guó)之一,中國(guó)浩如煙海的文獻(xiàn)典籍記錄了歷史。然而遺憾的是,近代以來(lái)超過(guò)400萬(wàn)冊(cè)中國(guó)古籍由於種種原因流散海外。
阿里巴巴達(dá)摩院、四川大學(xué)、美國(guó)加州大學(xué)伯克利分校近日公佈,他們花費(fèi)兩年多的時(shí)間,教會(huì)了AI識(shí)別中國(guó)古籍,將它們以數(shù)字化的形式接回故土,置於網(wǎng)路公益平臺(tái),向所有人開(kāi)放。
這個(gè)項(xiàng)目的名字叫“漢典重光”,意為讓失落的珍貴古籍重放光芒。“漢典重光”以97.5%的準(zhǔn)確率,識(shí)別了20萬(wàn)頁(yè)古籍,覆蓋3萬(wàn)多字的古籍字典。
現(xiàn)代科技照亮中國(guó)古籍“回家”之路
中國(guó)古籍擁有非常龐大且複雜的知識(shí)體系,包括甲骨簡(jiǎn)牘、敦煌遺書(shū)、宋元善本、明清精槧、拓本輿圖、少數(shù)民族文獻(xiàn)等等。所涉及的範(fàn)圍也是極其廣泛,有應(yīng)對(duì)自然災(zāi)害、流行疫病、經(jīng)濟(jì)波動(dòng)、政治鬥爭(zhēng)、外交危機(jī)、氣候變遷等的經(jīng)驗(yàn),有戰(zhàn)爭(zhēng)、瘟疫、地震、洪澇災(zāi)害、病蟲(chóng)害等方面的經(jīng)驗(yàn)總結(jié),還有醫(yī)療、中藥、養(yǎng)生、傢具、服飾、飲食文化等生活經(jīng)驗(yàn)。
加州大學(xué)伯克利分校的東亞圖書(shū)館是全美三大東亞圖書(shū)館之一,90萬(wàn)冊(cè)藏書(shū)裏四成都是中文書(shū),還有不少甲骨文和拓片。第一次到這兒的中國(guó)學(xué)者總感覺(jué)在穿越歷史的“蟲(chóng)洞”,這些古籍不能運(yùn)回中國(guó),那就用數(shù)字化手段讓古籍的內(nèi)容“回家”。
2019年,阿里巴巴和四川大學(xué)提出“數(shù)字化回歸”設(shè)想,四川大學(xué)歷史文化學(xué)院副院長(zhǎng)王果與中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書(shū)機(jī)構(gòu),最後獲得加州大學(xué)伯克利分校支援,達(dá)成共識(shí),將伯克利東亞圖書(shū)館的中文古籍善本逐步數(shù)字化。
前所未有的挑戰(zhàn)
據(jù)王果介紹,“漢典重光”的分工非常明確——採(cǎi)集側(cè)把紙質(zhì)書(shū)變?yōu)橛坝“妫瑪?shù)字化生産側(cè)把影印版變?yōu)槲淖职妫瑧?yīng)用側(cè)為文字版增加檢索、字典和知識(shí)圖譜等研學(xué)系統(tǒng)。東亞圖書(shū)館完成第一個(gè)環(huán)節(jié)後,四川大學(xué)將和達(dá)摩院共同完成另外兩個(gè)步驟。其中,四川大學(xué)將提供一切非計(jì)算層面的專(zhuān)業(yè)支援,並與達(dá)摩院的機(jī)器視覺(jué)實(shí)驗(yàn)室合作,共同開(kāi)發(fā)古籍AI技術(shù)。
首批數(shù)字化的古籍共20萬(wàn)頁(yè),包含40余種珍貴宋元善本。剛開(kāi)始大家對(duì)這個(gè)項(xiàng)目很有信心,但實(shí)際一上手才知道難度有多大。
首先是中國(guó)古籍的載體很多,紙、布、竹子、木頭、甲骨、石碑……幾乎所有能用的載體都被古人留了字,不同載體上面的字識(shí)別起來(lái)差別非常大。年代久遠(yuǎn)的紙張大多殘缺不全,上面還佈滿斑點(diǎn),而且排列非常複雜。古人喜歡從上到下,從右到左,還非常喜歡在上面做批註。
字跡的精美也成了負(fù)擔(dān)。隸書(shū)、楷書(shū)、草書(shū)、行書(shū)都漂亮,但也真難認(rèn)。大部分字還是手寫(xiě)的,不但兩個(gè)人寫(xiě)的同一個(gè)字不一樣,同一個(gè)人寫(xiě)的同一個(gè)字也差別很大,很多字還有不同寫(xiě)法。
團(tuán)隊(duì)原有的OCR(圖像文字識(shí)別)的識(shí)別準(zhǔn)確率只有40%,這顯然是不夠的,較早涉足古籍識(shí)別的Google Books(谷歌圖書(shū))針對(duì)的都是英文古籍,對(duì)中文也不適用。
大量創(chuàng)造性和創(chuàng)新性的辛勤勞動(dòng)
沒(méi)有前車(chē)可鑒,只能自己來(lái)了。“這就像教小朋友識(shí)字,確實(shí)難,但也有簡(jiǎn)單的部分,我們就由易到難慢慢做。”王果説。
前所未有的開(kāi)拓性成果,包含著中國(guó)學(xué)者大量創(chuàng)造性和創(chuàng)新性的辛勤勞動(dòng)。
達(dá)摩院的古籍識(shí)別演算法,用AI替代人工,大幅壓縮了專(zhuān)家標(biāo)注工作量。在機(jī)器為主進(jìn)行識(shí)別的97.5%的內(nèi)容中,約有1%(1萬(wàn)字左右)需要專(zhuān)家錄入;機(jī)器不能識(shí)別的餘下2.5%(2.5萬(wàn)字)的文字,全部交給專(zhuān)家做後期標(biāo)注。相比人工專(zhuān)家錄入,百萬(wàn)字書(shū)籍的數(shù)字化工作量從1000天降低到了35天,效率比人工專(zhuān)家錄入方案提升近30倍。這種古籍識(shí)別演算法,為中華古籍的回歸提供了另一種可行可期的思路。
非電腦層面的工作也非常重要,四川大學(xué)專(zhuān)門(mén)組織了30多個(gè)歷史系學(xué)生來(lái)做標(biāo)注,這很耗神,眼力、腦力缺一不可,但這個(gè)過(guò)程沒(méi)法省略,就像學(xué)生要學(xué)習(xí),演算法也要迭代,“只有數(shù)據(jù)夠多夠好,機(jī)器才能搞定”。
這是一件非常難但非常有意義的事情。古籍識(shí)別的挑戰(zhàn)巨大,但大家還是想通過(guò)技術(shù)讓古籍活起來(lái),用科技守護(hù)文明。
據(jù)了解,達(dá)摩院、四川大學(xué)、美國(guó)加州大學(xué)伯克利分校、中國(guó)國(guó)家圖書(shū)館、浙江圖書(shū)館將繼續(xù)投入人力、物力,擴(kuò)大古籍?dāng)?shù)字化回歸的數(shù)量,讓所有蒙塵的古籍重?zé)ㄐ律?/p>
達(dá)摩院院長(zhǎng)張建鋒表示,阿裏計(jì)劃將這套技術(shù)工具連同古籍?dāng)?shù)字化平臺(tái)一併捐贈(zèng),交由權(quán)威公共機(jī)構(gòu)長(zhǎng)期運(yùn)營(yíng),最終將成為一個(gè)開(kāi)放的網(wǎng)路平臺(tái),供大眾檢索學(xué)習(xí)。