歷史報(bào)紙數(shù)字化解決方案項(xiàng)目背景
Background of Historical Newspaper digital solution project
歷史報(bào)紙是報(bào)社較為重要的一部分內(nèi)容,不僅記載著一些信息和新聞,還是一個(gè)時(shí)代下的產(chǎn)物。通過歷史報(bào)紙,我們不僅可以了解國家或地區(qū)的發(fā)展歷史,也可以為未來的發(fā)展提供決策參考。但是報(bào)紙并不是一種好的長期保管的檔案介質(zhì),為了讓歷史資料數(shù)據(jù)產(chǎn)生更多的價(jià)值,進(jìn)行報(bào)紙數(shù)字化是必然趨勢(shì)。
藍(lán)太平洋歷史報(bào)紙數(shù)字化解決方案
藍(lán)太平洋歷史報(bào)紙數(shù)字化平臺(tái)可以為報(bào)社提供歷史報(bào)紙數(shù)據(jù)加工和二次標(biāo)引,利用掃描設(shè)備與計(jì)算機(jī)視覺技術(shù)將紙介質(zhì)的報(bào)紙掃描成數(shù)據(jù)字圖像,再經(jīng)過一系列的處理流程經(jīng)人工審核后,形成方便應(yīng)用與存儲(chǔ)的電子資料,同時(shí)可借助于數(shù)據(jù)報(bào)發(fā)布系統(tǒng)進(jìn)行發(fā)布,拓展歷史信息分享渠道。
歷史報(bào)紙數(shù)字化的流程如下:
NO.1 清點(diǎn)報(bào)刊。按照日期、版面清點(diǎn)數(shù)量,確認(rèn)其完整性、可識(shí)別性、可掃描性,同一版中選用其中保存較好紙質(zhì)文件。
NO.2 掃描和修圖。利用大幅面掃描儀掃描紙質(zhì)報(bào)刊,對(duì)掃描得到圖片進(jìn)行修正,去除污漬、裂紋等,同時(shí)需要檢查
NO.3 OCR文字識(shí)別與校對(duì)。使用OCR技術(shù),對(duì)報(bào)紙內(nèi)容文字內(nèi)容進(jìn)行識(shí)別,可以多次校對(duì)以保證最終的質(zhì)量。校對(duì)包括人工校對(duì)和智能化自動(dòng)校對(duì)。
NO.4 版面分析和劃分。將修正后的版面掃描圖片按照主題文章進(jìn)行區(qū)域劃分和標(biāo)識(shí)。
NO.5 制作版式文件。根據(jù)前面得到的結(jié)果將信息制作可檢索的數(shù)字版式文件。版式文件是一種具有版權(quán)保護(hù)、加密、防止非法復(fù)制、防止屏幕拷貝、能夠全面展示版面多媒體內(nèi)容和樣式、并且能夠精確輸出到打印設(shè)備的文件格式。
NO.6文章標(biāo)引。將數(shù)字化文字內(nèi)容進(jìn)行標(biāo)引,主要包括題名信息、作者信息、來源信息、關(guān)鍵詞信息、摘要信息、引文信息、外部特征信息等。
NO.7數(shù)字?jǐn)?shù)據(jù)驗(yàn)收。對(duì)上述步驟得到的文字、圖片、版式文件等數(shù)字?jǐn)?shù)據(jù)進(jìn)行再檢驗(yàn),以確保完整性和正確性。
NO.8數(shù)據(jù)入庫。將文字入全文數(shù)據(jù)庫,圖片入圖片數(shù)據(jù)庫,版式文件入版面數(shù)據(jù)庫,三種數(shù)據(jù)庫是相關(guān)聯(lián)的,可以聯(lián)合檢索。
NO.9建立雙平臺(tái)檢索系統(tǒng)。一般采用B/S架構(gòu),用戶通過瀏覽器即可檢索上述三種數(shù)據(jù)庫。
5*8小時(shí)技術(shù)支持電話:010-62978955
北京藍(lán)太平洋科技股份有限公司 ? 2000-2019版權(quán)所有 京ICP備05006839 京公網(wǎng)安備11010802016364號(hào)