新聞中心 / 新聞閱讀

“古聯講堂”開講 中華書局古聯公司與高校合作開展線上交流會活動

發布時間:2020-04-22 12:53:53 來源: 作者:古聯公司

自2020年4月10日起,中華書局古聯公司在騰訊課堂平臺的“古聯講堂”正式開講,古聯公司總經理助理、文獻編纂部主任朱翠萍以《數字化背景下的古籍文獻整理》為題,分別與清華大學、中國人民大學等高校師生就古籍整理過程中的若干問題展開交流。直播活動吸引了近千位業內學者、在校師生參與互動,引起熱烈反響。

中華書局古聯公司作為中華書局的全資子公司,所進行的數字化工作圍繞著古籍整理進行布局和構建。結合古籍整理工作過程中的選擇書目、鑒定版本、??蔽淖?、標點斷句等工作,在本次直播中,朱老師分別從“古籍整理數字化過程中的字形整理”、“古籍文獻自動標點”、“古籍文獻自動??薄?、“古籍整理在線眾包工作”及“古籍數字化成果在線發布”五個方面闡述了數字化背景下古籍整理工作的挑戰與機遇,分享了古聯公司在古籍數字化過程中進行的探索及取得的成果。

在字形整理問題上,古聯公司進行了大量的字形整理與考證工作,考釋了所處理文獻中的未編碼字,確認需整理的字形是一個新的生僻字還是某字的異體字,如果是新字就重新造字,若是異體字則先將文獻類型分類,之后再確認處理原則。目前,古聯公司已擁有了一個13萬字的超大型字庫——中華宋體字庫。

而在自動標點技術方面,古聯公司與北京師范大學合作,利用bert神經網絡模型,在正式出版的12.5億古籍語料基礎上進行訓練,進而獲得一個準確率更高的古籍文獻自動標點模型,大大提高了工作效率。

關于古籍文獻自動???,朱老師闡述了技術的實施策略。即“引文特征明顯的,將特征提取出來,讓系統自動識別出引文,再去跟引文語料庫進行比對,看文字是否一致;引文特征不明顯的,通過添加引文策略的方式,去標識引文,再讓后臺系統自動識別引文,然后與引文庫中資源進行匹配?!蓖ㄟ^此項技術,編輯僅用兩周時間就完成了合計1500萬字的《宋代文學述評全編》及《宋代文話全編》的引文核對工作,若由人工完成,按照日均4萬字速度通讀,工作者不停地工作,也至少需要300天才能完成。

隨后,朱老師還介紹了“古籍整理工作平臺”及與本平臺相關的小程序“i編纂”。由于該平臺的應用,突破了時間和地域限制,打破了行業樊籬,將社會上的古籍愛好者組織起來,大大推進了工作速度。古聯公司現有極其優質的古籍數字化成果,正是借助資源、人才、技術合力而誕生的。

最后,朱老師表示,古籍所記,均為人類智慧的結晶,但由于種種原因, 存世古籍只占我國全部古籍的一小部分。同時,受限于學術背景及技術能力,古籍保護、修復人才十分匱乏,早期的古籍整理工作開展得十分緩慢。隨著技術不斷發展,現在已經可以利用成熟的數字化手段對古籍文獻進行加工處理,使古籍得以保存、傳播和使用,助力學術研究,弘揚傳統文化。今后古聯公司將進一步拓展類似研發工作,與更多的專業力量強強聯合,共同推動古籍文獻處理技術的發展。

直播過程中,參會人員提出了很多關于古籍整理工作方面的專業性問題,朱老師一一作答,并就古籍數字化若干問題與參會人員進行了交流,直播氣氛十分熱烈。以此為契機,“古聯講堂”將陸續推出更多專題講座,加強與學界全方位的交流與合作。


日本中文字幕在线视频二区_夜先锋av资源网站_青青青亚洲国产在线观看