57pao视频国产在线观看_狼友视频国内精品五月天综合网缴情五月中文_欧美激情另类第一页_午夜福利区免费久久_一级黄片在线播放_一区二区三区亚洲高清在线播放_国产无码小电影在线免费_99www精品视频久久在线热免费观看

  • 用戶名
  • 密碼
  • 產(chǎn)品
供應(yīng)
求購(gòu)
公司
資訊
展會(huì)
評(píng)論訪談專題話題印搜動(dòng)態(tài)
國(guó)內(nèi)國(guó)際環(huán)保視頻產(chǎn)品導(dǎo)購(gòu)
活動(dòng)展會(huì)設(shè)備印品世界
行業(yè)動(dòng)態(tài)企業(yè)動(dòng)態(tài)營(yíng)銷電子商務(wù)政策法規(guī)統(tǒng)計(jì)商機(jī)
印前印中印后包裝器材耗材油墨
膠印數(shù)碼標(biāo)簽CTP紙箱創(chuàng)意絲印柔印其他
展會(huì)專題企業(yè)專題資訊專題技術(shù)專題
文化人物社會(huì)
展會(huì)預(yù)告會(huì)議預(yù)告展會(huì)資訊國(guó)內(nèi)展會(huì)國(guó)際展會(huì)推薦展會(huì)
印刷包裝絲印
印刷包裝絲印
印刷包裝絲印
您當(dāng)前位置: CPP114首頁(yè)> 新聞?lì)l道> 國(guó)內(nèi)> 正文

  • 今日排行
  • 本周排行
  • 本月排行

膠印油墨
膠印材料
絲印材料

電子書亟待高質(zhì)量轉(zhuǎn)檔

2012-08-17 09:41 來(lái)源:中國(guó)新聞出版報(bào) 責(zé)編:陳培

摘要:
電子書是校對(duì)者的噩夢(mèng),每當(dāng)需要將PDF文件轉(zhuǎn)化為epub格式時(shí),那些原本完美顯示的頁(yè)面就會(huì)出現(xiàn)一系列令人困惑的排版和格式錯(cuò)誤。對(duì)于出版商和內(nèi)容供應(yīng)商來(lái)說(shuō),在電子書如此暢銷的今天,能夠使PDF文件準(zhǔn)確無(wú)誤地轉(zhuǎn)化為epub格式,從而存入電子書閱讀器已經(jīng)成為亟須關(guān)注、亟待解決的問題。
  【CPP114】訊:電子書是校對(duì)者的噩夢(mèng),每當(dāng)需要將PDF文件轉(zhuǎn)化為epub格式時(shí),那些原本完美顯示的頁(yè)面就會(huì)出現(xiàn)一系列令人困惑的排版和格式錯(cuò)誤。對(duì)于出版商和內(nèi)容供應(yīng)商來(lái)說(shuō),在電子書如此暢銷的今天,能夠使PDF文件準(zhǔn)確無(wú)誤地轉(zhuǎn)化為epub格式,從而存入電子書閱讀器已經(jīng)成為亟須關(guān)注、亟待解決的問題。

  “有人認(rèn)為轉(zhuǎn)換PDF格式就像從word文檔里復(fù)制文本一樣簡(jiǎn)單:只需要選取那些已編好格式的文本并保存就能制作一本電子書。”印度金奈紐貞知識(shí)機(jī)構(gòu)的首席執(zhí)行官大衛(wèi)·拉杰說(shuō)。然而,遺憾的是,“PDF文件并不是按照單詞、空格、段落和圖像的邏輯流程來(lái)編寫的,也就是說(shuō),沒有內(nèi)在信息可以顯示PDF文本的結(jié)構(gòu)與順序。”

  最嚴(yán)重且最常出現(xiàn)在電子書中的錯(cuò)誤是單詞間、標(biāo)點(diǎn)符號(hào)丟失或多余的空格。因?yàn)镻DF文件并沒有把每一個(gè)單詞視作被空格分開的獨(dú)立單元,轉(zhuǎn)換程序通常需要猜測(cè)空格從哪里產(chǎn)生。如果猜測(cè)錯(cuò)誤,就會(huì)出現(xiàn)一個(gè)單詞被分為兩個(gè)部分或者兩個(gè)單詞連在一起的情況。

  另一個(gè)問題存在于連字符中。只要轉(zhuǎn)換軟件需要判定連字符是非強(qiáng)制性的(在文本行末尾,由于該單詞過(guò)長(zhǎng),輸入連字符使頁(yè)面保持整齊美觀)或強(qiáng)制性的(比如像“e-books”這樣必須使用連字符的單詞),那么就可能出現(xiàn)判定錯(cuò)誤的情況。

  同樣的問題還存在于判定文本格式上:粗體、斜體、下劃線、下標(biāo)、上標(biāo);字體的選擇上:有襯線字體、無(wú)襯線字體、傳統(tǒng)字體、現(xiàn)代字體等。在制作PDF文件中字間距、行間距的設(shè)置,反白字的使用都會(huì)影響轉(zhuǎn)換結(jié)果的準(zhǔn)確性。

  如果作者沒有使用統(tǒng)一編碼標(biāo)準(zhǔn)的字符,那么這些特殊字符比如非拉丁語(yǔ)字母就成了轉(zhuǎn)換軟件面臨的又一個(gè)困難。對(duì)于這些特殊符號(hào)而言,建立字符轉(zhuǎn)換庫(kù)是有用的,但是把所有可能出現(xiàn)的字符集結(jié)成庫(kù)并不現(xiàn)實(shí),所以大多數(shù)轉(zhuǎn)換軟件在遇到特殊字符時(shí)會(huì)以亂碼的形式呈現(xiàn)。

  此外PDF文件還不能識(shí)別多列文本。轉(zhuǎn)換軟件會(huì)讀取整個(gè)頁(yè)面而不是按順序從上到下依次讀取每一列的內(nèi)容,因此,識(shí)別與分列就會(huì)導(dǎo)致不同的列線混亂,從而產(chǎn)生完全錯(cuò)誤的顯示。

  與此相似的是,PDF文件沒有強(qiáng)制性分隔段落的概念,這就增加了正文內(nèi)容混亂或幾個(gè)段落連在一起的可能性。另一種情況是,轉(zhuǎn)換后段落中的每一行都成為獨(dú)立的一段,或者是轉(zhuǎn)換程序會(huì)將頁(yè)面中的頁(yè)眉、頁(yè)腳作為正文中的內(nèi)容進(jìn)行轉(zhuǎn)換。

  轉(zhuǎn)換程序最大的挑戰(zhàn)在于如何破解表格、數(shù)學(xué)方程式以及圖表。將這些元素識(shí)別為獨(dú)立的單元并與正文分開成為許多轉(zhuǎn)換軟件不能完成的任務(wù)。

  在紐貞知識(shí)機(jī)構(gòu),有一種使用自然語(yǔ)言處理和文本識(shí)別工具的程序,這種程序用來(lái)分析PDF文件文本結(jié)構(gòu),使用這種程序可以改正PDF文件轉(zhuǎn)換為epub格式過(guò)程中通常出現(xiàn)的錯(cuò)誤。如今這種產(chǎn)品已經(jīng)出現(xiàn)——在紐約舉辦的2012TOC數(shù)字出版大會(huì)上,可以將PDF文件高質(zhì)量轉(zhuǎn)換為epub2或3的產(chǎn)品“絲綢”(意為像絲綢一樣流暢光滑)閃亮登場(chǎng)。

  據(jù)介紹,使用“絲綢”的轉(zhuǎn)換規(guī)則系統(tǒng)可以得到高質(zhì)量的結(jié)果,同時(shí)最大限度保持PDF文件原文的風(fēng)貌。“絲綢”會(huì)運(yùn)行拼寫檢查工具找出連在一起或被分解的單詞,并使用內(nèi)在連續(xù)性檢查工具區(qū)分字符。不到一分鐘的時(shí)間,“絲綢”就可以對(duì)一本標(biāo)準(zhǔn)的300頁(yè)圖書完成以上所有工作。接下來(lái),“絲綢”會(huì)引導(dǎo)用戶查看它標(biāo)記的每一處可能出現(xiàn)的錯(cuò)誤,并將原始的PDF文件與轉(zhuǎn)化后的電子書進(jìn)行并排式對(duì)比。拉杰同時(shí)補(bǔ)充說(shuō):“‘絲綢’直觀的界面意味著用戶不需要精通HTML編輯也可以熟練地控制與使用這些功能。腳本處理選項(xiàng)可以快速有效地將PDF文件中出現(xiàn)的自定義或其他復(fù)雜的變化轉(zhuǎn)換為epub/HTML文件。”

  目前,“絲綢”正在進(jìn)行內(nèi)部測(cè)試,拉杰證實(shí)這種軟件運(yùn)營(yíng)服務(wù)模式很快會(huì)與廣大客戶見面。在更為復(fù)雜的PDF文件與電子書版面設(shè)計(jì)問世之前,我們無(wú)疑需要更先進(jìn)的解決方法,將零錯(cuò)誤的電子書和用戶對(duì)電子書質(zhì)量的高滿意度作為奮斗目標(biāo),將驅(qū)使轉(zhuǎn)換工具研發(fā)朝著更快、更可靠、更自動(dòng)化的方向發(fā)展。
  • 【我要印】印刷廠與需方印務(wù)對(duì)接,海量印刷訂單供您任意選擇。
  • 【cpp114】印刷機(jī)械、零配件供求信息對(duì)接,讓客戶方便找到您。
  • 【我的耗材】采購(gòu)低于市場(chǎng)價(jià)5%-20%的印刷耗材,為您節(jié)省成本。
  • 【印東印西】全國(guó)領(lǐng)先的印刷品網(wǎng)上采購(gòu)商城,讓印刷不花錢。