聯合知識庫 - PCZONE 討論區

返回   PCZONE 討論區 > ▲ -- 網 路 生 活 分 享 區 > -- 優 質 網 站 分 享


PCZONE 討論區



通知

-- 優 質 網 站 分 享 您 逛 過 新 奇、有 趣、實 用 的 各 類 網 站 , 也 請 分 享 推 薦 給 大 家 去 瞧 瞧 吧。(就請別在這裡廣告 , 好站自然有人會推薦)

悄悄地愛上死亡

聯合知識庫 舊報紙的新生

聯合報系線上新聞資料庫─「聯合知識庫」 udndata.com將從二月十九起正式上線,並計畫在四年內收錄聯合報系過去50年產出的所有新聞,根據統計,聯合報系過去50年來一共出版了130萬個報紙版面、一千多萬則新聞、七十餘億個字。

聯合知識庫如何完成?簡單地說,它是先以光學辨識技術(OCR)進行整版掃描,再用圖文切割方式,將報紙版面上的內容分區切塊辨識儲存,然後再以新開發的系統進行「半自動、半人工」的兩循環校對除錯,最後在使用上輔以人工智慧資料加值與搜尋引擎技術。

另外,報紙數位化的生產線上,必須先透過大尺寸的數位掃描器將報紙影像掃入電腦中,後端的影像處理伺服器進行去除影像雜訊,接著切割報紙標題與內文區塊,進行版面校對,並逐版把切割完成的報紙影像登入資料庫中。

http://udndata.com



回覆







 XML   RSS 2.0   RSS 
本站使用 vBulletin 合法版權程式
站務信箱 : [email protected]

本論壇所有文章僅代表留言者個人意見,並不代表本站之立場,討論區以「即時留言」方式運作,故無法完全監察所有即時留言,若您發現文章可能有異議,請 email :[email protected] 處理。