首頁(yè) | 版面導(dǎo)航 | 標(biāo)題導(dǎo)航
   第01版:頭版
   第02版:新聞
   第03版:新聞
   第04版:新聞
   第05版:新聞
   第06版:新聞
   第07版:社會(huì)工作
   第08版:社會(huì)工作
   第09版:新聞
   第10版:新聞
   第11版:新聞
   第12版:公益資訊
   第13版:公益資訊
   第14版:公益資訊
   第15版:益言堂
   第16版:尋找慈善傳統(tǒng)
“心啟航”公益項(xiàng)目啟動(dòng) 助力偏遠(yuǎn)地區(qū)先心病患兒康復(fù)
北京大學(xué)攜字節(jié)跳動(dòng)推出古籍?dāng)?shù)字化平臺(tái) 以公益方式推進(jìn)古籍修復(fù)和活化
9月大額捐贈(zèng)一覽:共出現(xiàn)117筆大額捐贈(zèng),“9·5”瀘定地震備受關(guān)注

版面目錄

第01版
頭版

第02版
新聞

第03版
新聞

第04版
新聞

第05版
新聞

第06版
新聞

第07版
社會(huì)工作

第08版
社會(huì)工作

第09版
新聞

第10版
新聞

第11版
新聞

第12版
公益資訊

第13版
公益資訊

第14版
公益資訊

第15版
益言堂

第16版
尋找慈善傳統(tǒng)

新聞內(nèi)容
2022年10月18日 星期二上一期下一期
北京大學(xué)攜字節(jié)跳動(dòng)推出古籍?dāng)?shù)字化平臺(tái) 以公益方式推進(jìn)古籍修復(fù)和活化

    “識(shí)典古籍”網(wǎng)頁(yè)截圖

    10月11日,由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開(kāi)放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測(cè)試版正式上線。目前,該平臺(tái)涵蓋390部經(jīng)典古籍,主要來(lái)自《四部叢刊》,共計(jì)3000多萬(wàn)字,即日起向公眾免費(fèi)開(kāi)放。未來(lái)三年,“識(shí)典古籍”將陸續(xù)完成一萬(wàn)種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時(shí)將全部免費(fèi)開(kāi)放。

    據(jù)了解,上述實(shí)驗(yàn)室系今年3月北京大學(xué)與字節(jié)跳動(dòng)合作成立,將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理?!白R(shí)典古籍”平臺(tái)上線,即是雙方合作的最新進(jìn)展。

    當(dāng)前,中國(guó)的古籍?dāng)?shù)字化還處于初級(jí)階段,面臨技術(shù)難度高、資金缺口大、人才緊張等難點(diǎn)。相關(guān)資料顯示,現(xiàn)存的20多萬(wàn)種古籍中,只有八萬(wàn)種完成影像數(shù)字化掃描,近四萬(wàn)種完成文本數(shù)字化。據(jù)專家統(tǒng)計(jì),從1949年到2019年,國(guó)內(nèi)共修復(fù)整理出版古籍近3.8萬(wàn)種,要將現(xiàn)存古籍全部修復(fù)整理出來(lái),可能需要300年時(shí)間;若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。

    記者了解到,早在2021年6月,字節(jié)跳動(dòng)與中國(guó)文物保護(hù)基金會(huì)成立古籍保護(hù)專項(xiàng)基金,用于國(guó)家圖書(shū)館等機(jī)構(gòu)的古籍修復(fù)、人才培養(yǎng),目前國(guó)圖修復(fù)珍貴古籍五十多冊(cè)。2021年7月,字節(jié)跳動(dòng)公益聯(lián)合中國(guó)文物保護(hù)基金會(huì)、國(guó)家圖書(shū)館發(fā)起“尋找古籍守護(hù)人”活動(dòng),招募推動(dòng)古籍活化、助力傳統(tǒng)文化傳承的創(chuàng)作者。

    據(jù)“識(shí)典古籍”項(xiàng)目負(fù)責(zé)人介紹,上述平臺(tái)當(dāng)前主要使用了三種技術(shù),包括文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別。文字識(shí)別技術(shù),是對(duì)古籍的影印版文字進(jìn)行單個(gè)切分,再進(jìn)行文字識(shí)別和順序識(shí)別。自動(dòng)標(biāo)點(diǎn)技術(shù),是通過(guò)序列標(biāo)注的方式對(duì)古籍自動(dòng)進(jìn)行標(biāo)點(diǎn)劃分。命名實(shí)體識(shí)別技術(shù),則是通過(guò)序列標(biāo)注識(shí)別文本中的人名、地名、書(shū)籍、時(shí)間、官職等信息。據(jù)悉,目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%,“識(shí)典古籍”的準(zhǔn)確率為96%至97%。

    與其他古籍?dāng)?shù)字化平臺(tái)相比,“識(shí)典古籍”具有自身的特點(diǎn),頁(yè)面簡(jiǎn)潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡(jiǎn)體轉(zhuǎn)換功能,便于專業(yè)研究人員、廣大古籍愛(ài)好者使用。同時(shí),“識(shí)典古籍”書(shū)目將持續(xù)更新,后續(xù)將上線手機(jī)移動(dòng)版。

    抖音集團(tuán)副總裁李濤表示,此前團(tuán)隊(duì)曾調(diào)研了其他機(jī)構(gòu)做的類似項(xiàng)目,發(fā)現(xiàn)大部分項(xiàng)目是出于商業(yè)目的考慮,從公益角度出發(fā)開(kāi)展的項(xiàng)目比較少,這在一定程度上阻礙了古籍保護(hù)工作的快速推進(jìn)?!耙虼?,我們選擇通過(guò)公益的方式開(kāi)展項(xiàng)目,這也是我們同合作的機(jī)構(gòu)及專家一起討論的結(jié)果,大家覺(jué)得這樣推動(dòng)項(xiàng)目開(kāi)展可能更智能、更開(kāi)放也更高效?!?/p>

    據(jù)介紹,未來(lái),“識(shí)典古籍”將向全社會(huì)開(kāi)放古籍閱讀檢索研究能力,還將實(shí)現(xiàn)全自動(dòng)整理校對(duì),更高效地實(shí)現(xiàn)存量古籍全部數(shù)字化。同時(shí),平臺(tái)也鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),用戶甚至可參與再創(chuàng)作和再闡釋,助力古籍文化傳承和研究。

    一年多來(lái),字節(jié)跳動(dòng)在古籍修復(fù)和活化上也有所進(jìn)展。此前,字節(jié)跳動(dòng)資助國(guó)家圖書(shū)館定向修復(fù)的珍貴古籍104冊(cè)件,現(xiàn)已完成50多冊(cè)件,包括一批稀有的樣式雷圖檔。在活化方面,抖音平臺(tái)推出“尋找古籍守護(hù)人”計(jì)劃,旨在激勵(lì)創(chuàng)作者通過(guò)音樂(lè)、說(shuō)書(shū)、繪畫、復(fù)原美食等形式,普及古籍知識(shí)、演繹古籍內(nèi)容,讓古籍鮮活起來(lái)。(皮磊)