“研制漢字信息處理工程”(“748”工程)
2009-09-17 16:34 來源:中華印刷包裝網(wǎng) 責編:涂運
漢字是中華民族智慧的偉大創(chuàng)造,它一字一義,直觀簡明,語法簡單,詞序排序規(guī)則,富于想象和聯(lián)想,聯(lián)合國各國文字的文件中最薄的總是中文。但是,漢字是一種方塊字,結(jié)構(gòu)復雜、筆畫多、字數(shù)多、字體多、一字一音,書寫和讀音都比較困難。 《康熙字典》收入的漢字多達47000多個,現(xiàn)在常用的也有6700多個,這么多的字要認、要記、要用,對于一般老百姓來說確實是一件很困難的事。
20世紀中葉, 電子計算機技術(shù)在世界范圍內(nèi)迅速發(fā)展, 極大地推動世界各國社會經(jīng)濟文化的進步,人類進入了信息化時代。用計算機處理信息,包括數(shù)據(jù)、文字、圖形、語言等等,但基本的是文字信息處理。西方國家采用拼音文字,一般字母只有幾十個(英文為26個) ,字形簡單,信息量較少,容易實現(xiàn)對文字信息的處理。而我國漢字字數(shù)多,印刷用的漢字字體也多,有宋體、黑體、楷體、隸書體等10余種,還有10余種不同字號,印刷用的漢字字模數(shù)量超過65萬個,其對應的存儲量超過200億字節(jié),比西文信息存儲量高出上百倍。要使系統(tǒng)軟件具有漢字處理和西文處理互相兼容的能力,許多人都認為是一道難以逾越的障礙,一個世界性公認的難題。
1975年,北京大學王選等一批年輕的學者立志攻克這個世界性難題。那時王選38歲,北大數(shù)學系畢業(yè),在北大無線電系任助教。他們接受了國家計委和電子部安排的“漢字信息處理技術(shù)”國家重點研究課題中的漢字精密照排項目任務。這個課題因在1974年8月立項,因此被稱為“748工程” 。
王選反復地研究漢字字形的特點和規(guī)律,他發(fā)現(xiàn)漢字雖然字形繁多,但基本筆畫還是很有規(guī)律的,如橫、豎、折等是由基本直線和起筆、收筆及轉(zhuǎn)折等筆鋒所組成,這種規(guī)則筆畫占漢字筆畫總數(shù)一半以上。這種規(guī)則筆畫以宋體為例,可用4~5個字節(jié)表示,這樣對提高壓縮倍數(shù)起了重要作用。對不規(guī)則筆畫,如撇、捺、點等雖然不規(guī)則,但也有一定的曲線變化,也有規(guī)律可循,可以用一連串折線逼近其輪廓曲線。王選一連幾個月趴在桌子上用放大鏡分析漢字字形的規(guī)律,進行艱苦復雜的統(tǒng)計和比較,精確地計算不同筆畫的曲率變化,再分類合并,用參數(shù)描述橫、豎、折等規(guī)律筆畫的長、寬、傾斜度及變化多端的各種筆鋒,用輪廓描述點、撇、捺等不規(guī)則筆畫,這樣使?jié)h字字形信息量下降數(shù)百倍。同時,他還研究出一整套把折線輪廓復原成點陣的快速算法和使文字變倍失真盡可能小的變倍算法。高倍率漢字信息壓縮技術(shù),高速度還原技術(shù)和不失真的文字變倍技術(shù)是漢字激光照排技術(shù)的核心。這項技術(shù)的突破就打開了用計算機進行漢字信息處理的大門,表現(xiàn)了中國人的聰明和智慧。
- 關(guān)于我們|聯(lián)系方式|誠聘英才|幫助中心|意見反饋|版權(quán)聲明|媒體秀|渠道代理
- 滬ICP備18018458號-3法律支持:上海市富蘭德林律師事務所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098