一区二区无码18禁_一级做a过程免费在线观看_亚洲аv电影天堂网最新_肥胖bbwwbbww高潮

歡迎來到中博奧技術(shù)有限公司官網(wǎng)

文本信息數(shù)字化

時間:2023-01-22 作者:老師 來源:網(wǎng)絡 點擊量:

文本信息數(shù)字化

鍵盤錄入語音識別輸入光學字符識別輸入。用數(shù)字鍵盤輸入文字信息的辦法。

文本數(shù)字化的方式有

鍵盤錄入。選定我們要處理的單元格,再點擊菜單欄里的數(shù)值,找到數(shù)值點小三角,從下拉選項中找到文本轉(zhuǎn)數(shù)字,就完成了。

數(shù)字化后的文字信息處理技術(shù)是什么

文字信息處理的實質(zhì),是先把文字信息數(shù)字化,即用一個固定的數(shù)碼代表一個字母或文字。例如,在英文信息中,以26個字母作為文字信息處理的單位,因此要對26個字母逐個地確定代替它的數(shù)碼。在漢字的情況下,一般是以一個整字作為文字信息處理的單位,因此要對每一個整字惟一地確定代表它的數(shù)碼。這一數(shù)碼統(tǒng)稱為代碼(code)。在計算機內(nèi)部處理文字信息時,就像處理數(shù)據(jù)一樣對待。處理完畢后,再把替代的數(shù)碼還原成相應的字母或文字。利用計算機能夠調(diào)整處理數(shù)據(jù)的性能,使文字信息處理也能夠分享計算機技術(shù)的這一獨特優(yōu)點,從而實現(xiàn)文字信息處理的高效化。
計算機之所以能有較高的運算和處理能力,是由于它利用了電子處理技術(shù)以及二進制數(shù)運算這一法則。計算機中的運算器,利用半導體器件的兩個狀態(tài)(通和斷)的變化,代表二進制數(shù)字串中的一個二進制數(shù)位上的“1”或“0”的變化,從而能夠高速地執(zhí)行二進制數(shù)的數(shù)值或邏輯運算。實際上,計算機無論做數(shù)值的或任何種類信息的運算或處理,最基本的運算操作就是這種二進制數(shù)的演算。

文字資料數(shù)字化

一、文字資料數(shù)字化原則

現(xiàn)存的航空物探資料是中心開展航空物探50年來勘查和科研成果的積累,真實記錄了中心航空物探技術(shù)進步和發(fā)展歷程,反映了航空物探在地質(zhì)找礦等方面的先行作用和突出貢獻。為實現(xiàn)航空物探資料的信息化管理和永久利用,擴大航空物探服務領(lǐng)域,航空物探文字資料數(shù)字化和信息化原則是“尊重歷史,忠實原著,保持原貌,統(tǒng)一要求,加強監(jiān)控,確保質(zhì)量”。

二、文字資料數(shù)字化流程

航空物探資料文字資料數(shù)字化是把航空物探勘查和科研項目紙質(zhì)文字資料錄入成電子文檔,同時把手寫、油印的文字資料掃描成圖像格式保存,并編寫項目成果簡介(圖8-5)。

圖8-5 文字資料數(shù)字化流程圖

三、文字資料數(shù)字化方法

文字資料數(shù)字化實質(zhì)是對中心現(xiàn)存的航空物探勘查和科研成果報告采用掃描識別和人工錄入兩種方法輸入計算機中,并按航空物探信息系統(tǒng)規(guī)定的格式和版式重新編輯,形成Word文檔(DOC格式)和Adobe Acrobat文檔(PDF格式)以滿足入庫要求。

(一)文字資料介質(zhì)質(zhì)量分類

為采取合理的數(shù)字化方法進行文字資料數(shù)字化,通過對中心庫存的文字資料進行較詳細的調(diào)查,按紙質(zhì)資料介質(zhì)質(zhì)量好壞、字跡和插圖清晰程度等將639份勘查和科研成果文字資料(報告)劃分為較差、中等、較好、良好4類(表8-4)。其中,1973年前資料均較差,較差和中等質(zhì)量的資料都出現(xiàn)在20世紀80年代中期以前。20世紀80年代中期以后的項目資料質(zhì)量均屬較好和良好。

表8-4 文字資料介質(zhì)質(zhì)量分類統(tǒng)計表

(二)文字資料數(shù)字化方法

以資料分類為基礎,根據(jù)文字資料數(shù)字化原則,確定了文字資料數(shù)字化具體方法。

1.人工錄入法

文本信息數(shù)字化

由于較差和中等類資料多數(shù)是手寫、復寫或油印本,少數(shù)是鉛印本;存放時間長,幾經(jīng)輾轉(zhuǎn)搬遷,破損嚴重,字跡模糊;無法采用掃描、識別方法輸入,只能人工錄入。對錄入工作提出了具體要求,以保證人工錄入質(zhì)量。

2.掃描識別輸入法

較好和良好類資料都是正規(guī)鉛印或Word文檔(DOC格式)印刷出版,字跡清晰,可用掃描識別方法予以輸入,與人工錄入方法相比效率較高。

人工錄入、編輯航空物探勘查項目文字報告608份,約2739.6751萬字;人工錄入、編輯航空物探科研項目文字306份,約839.0241萬字。

為了保證中心資料獲得長久保存,同時對已人工錄入的全部較差和中等類617份約9719頁的文字資料(其中,勘查115份,約3240頁;科研502份,約6479頁)進行了掃描輸入,以PDF格式直接刻制光盤保存。

四、校對和檢查

文字資料由人工錄入或掃描識別,經(jīng)自檢形成的Word電子文檔全部校樣必須通過二校和部分三校或抽檢,才能進入編輯排版,最終生成統(tǒng)一的DOC格式的Word文檔。

由于歷史原因,在早期原稿(包括文字和插圖)中存在著其他一些錯誤或不規(guī)范等現(xiàn)象。在保持原稿真實性的前提下,盡可能地在校樣中對問題予以糾正和變通處理,有些則因本身遺漏或模糊無法彌補,留下空缺。按原文字資料所附的勘誤表對文字逐一進行了更正,原有勘誤表基本已失去存在意義了。

五、插圖掃描矢量化

使用MapGIS軟件對原文字報告中的測區(qū)示意圖、剖面圖、地質(zhì)解釋圖等1260幅插圖按照原插圖進行矢量化,原插圖比例尺使用數(shù)字比例尺表示的換算成線性比例尺,單剖面圖加上剖面比例尺,統(tǒng)一了地質(zhì)圖中的地質(zhì)符號等,提高文字報告的插圖質(zhì)量(圖8-6)。

六、編輯排版

除勘查項目與科研項目文字報告在內(nèi)容上客觀存在的不同外,既使是同一類報告在報告內(nèi)容、排版編輯上也都有較大的差別。這是航空物探技術(shù)進步必然的反映,也與以往文字資料缺乏統(tǒng)一標準和要求有關(guān)。在本次文字資料數(shù)字化過程中,根據(jù)項目統(tǒng)一要求,便于計算機管理和服務,在保持報告內(nèi)容不變的前提下,將所有錄入的文字成果報告采用Word編輯排版軟件按規(guī)定的編輯模版自動生成目錄,并在報告封面等形式上力求做到統(tǒng)一(校樣最終稿與原稿在報告封面、目錄級別、插圖和頁碼位置等方面都存在著差別,但報告內(nèi)容沒有改變)。按此要求完成了799份約47645頁文字資料的排版工作,并把文字資料格式由DOC格式轉(zhuǎn)換為PDF格式。

圖8-6a 矢量化前的插圖

圖8-6b 矢量化后插圖

七、項目簡介編寫

為了使用戶不閱讀項目成果報告全文,能夠快速地了解該項目概貌,獲得該成果報告的主要內(nèi)容和信息,按照航空物探信息系統(tǒng)建庫要求,編寫了航空物探勘查和科研項目簡介455份,約28萬字。其中,航空物探勘查成果報告423份,約26萬字;科研成果報告32份,約2萬字。以濃縮的形式概括項目成果的主要內(nèi)容,包括工作方法或研究方法、質(zhì)量評價,取得的主要成果和最終結(jié)論。

多種信息的數(shù)字化可以采取同一種加工處理方法嗎?

多種信息的數(shù)字化不可以采取同一種加工處理方法。多媒體技術(shù)能夠把文本、聲音、圖形、圖像、視頻等信息在計算機中進行數(shù)字化處理。多媒體技術(shù)是計算機技術(shù)融合音頻、視頻和通信技術(shù)的產(chǎn)物。

實物地質(zhì)資料相關(guān)文本資料數(shù)字化

文本信息數(shù)字化

張海蘭 王瑞紅

(國土資源部實物地質(zhì)資料中心,北京 101149)

摘要 本文簡要闡述了實物相關(guān)文本資料數(shù)字化工作的重要性,提出要根據(jù)文本資料原貌選擇掃描方式,依照具體情況進行分辨率、亮度和對比度的調(diào)整。

關(guān)鍵詞 文本資料;數(shù)字化

實物地質(zhì)資料的相關(guān)資料是成果地質(zhì)資料與原始地質(zhì)資料的原件或復制件,是說明實物產(chǎn)生的地質(zhì)背景及其保管價值的重要材料,是實物地質(zhì)資料的重要組成部分。

為了適應現(xiàn)代化管理與服務的需要,同時為了配合實物地質(zhì)資料數(shù)字化,解決圖文地質(zhì)資料信息長期保存問題,國土資源部實物地質(zhì)資料中心開展了相關(guān)地質(zhì)資料數(shù)字化工作。實物地質(zhì)資料相關(guān)的圖文資料包括兩大類:文本資料和圖紙資料,數(shù)字化工作也是針對這兩部分內(nèi)容而言的。本文僅就資料的數(shù)字化工作進行探討。

一、文本資料數(shù)字化工作流程

文本資料數(shù)字化工作是通過掃描的方法把以紙介質(zhì)為載體的地質(zhì)資料轉(zhuǎn)變?yōu)橐噪娮訛榻橘|(zhì)的電子文件,并進行文件組織的過程。主要工作過程包括資料準備、掃描、圖像處理、生成電子文件、文檔組織與保存等幾個方面(見圖1)。

圖1 文本資料數(shù)字化工作流程圖

二、掃描工作方法

1.掃描前的資料準備工作

做好文本資料的準備工作是十分必要的。資料的單冊厚度影響著文本的掃描質(zhì)量,越厚越不利于掃描,有些文本裝訂得比較厚時,可將文本拆開進行掃描,掃描工作結(jié)束后再按照檔案管理的標準進行重新裝訂。在進行若干份單頁的文件掃描時,掃描前要做好資料的登記工作,以免丟失。利用文檔掃描儀進行多頁文件掃描之前,要對文本資料進行去除靜電處理。

2.掃描

(1)選擇掃描方式

對于文本資料紙質(zhì)較好,又不超過標準A4版面大小的時候,可以采用專用的多頁文檔掃描儀進行滾動掃描,以節(jié)省掃描時間提高工作效率。其他的文本資料使用平板掃描儀逐頁進行掃描。

(2)選擇掃描參數(shù)

掃描類型 掃描類型的選擇是完成文本數(shù)字化工作的重要環(huán)節(jié)。正確的選擇掃描類型,是提高掃描質(zhì)量的保證。掃描類型的選擇是由原件的類型來確定的。常用文本資料的掃描類型有:黑白二值、RGB、灰階三種。黑白二值方式,當文字或表格質(zhì)量都非常高時,采用這種方式掃描,掃描效果較好?;译A方式,當文本資料字跡不清楚或是表格時,使用黑白二值方式產(chǎn)生的圖像效果較差,表格線會斷斷續(xù)續(xù),此時可選用灰階方式掃描,但這種方式掃描的圖像會有較多的灰色印跡,需在后期做圖像處理,使圖像達到最佳效果。RGB方式,對文本資料中的彩色圖件一般采用這種方式進行掃描,用這種方式掃描產(chǎn)生的文件占用的磁盤空間較大,掃描時可進行亮度、對比度及色度的調(diào)整,通過反復對比,使圖件色彩達到最佳的效果。

參數(shù)選擇 在掃描前進行預掃描,可進行掃描分辨率的選擇、亮度和對比度調(diào)整。掃描分辨率、亮度及對比度調(diào)整與文本資料的質(zhì)量有一定的關(guān)系,當一冊文本資料質(zhì)量變化不大時,選擇一頁或幾頁進行掃描實驗,結(jié)合掃描工作經(jīng)驗選擇適合的分辨率、亮度及對比度。當文本質(zhì)量有明顯變化時,每頁資料的亮度及對比度都要分別進行調(diào)整。每次掃描時若不進行掃描區(qū)域的選擇,掃描區(qū)域就會與上次的掃描區(qū)域相同,這樣有可能會漏掉文本內(nèi)容。若掃描區(qū)域過大,掃描時間就會延長,文件所占的空間也會增大,后期圖像處理的工作量亦會增大。

存儲格式的選擇 根據(jù)選擇掃描類型的不同,文件存儲格式也有所不同。黑白二值方式掃描產(chǎn)生的圖像不能進行糾斜和旋轉(zhuǎn),存儲格式為tiff;灰階和RGB方式掃描存儲格式都為jpg,這種格式是經(jīng)過壓縮的。

(3)確定文件名稱及路徑

當掃描參數(shù)調(diào)整完成時,就要選擇路徑將掃描文件進行保存。這個文件最好是放置在一個獨立的位置上,以免與其他文件混淆。文件的名稱是要能反映其中文本資料的主要內(nèi)容的。與此同時,還要給每頁文件確定一個適當?shù)拿Q,最好以文件的頁碼為文件的名稱,以便對文件進行排版時不會出順序上的錯誤。同時保證以后再對文件進行處理時能很快識別此文件是屬于哪個類別的、哪個地區(qū)的、哪個鉆孔的等,如圖2所示。

圖2 文件存儲結(jié)構(gòu)示意圖

(4)掃描并保存

在掃描方式、掃描參數(shù)、存儲格式、存儲路徑和文件名都已設定好之后,就可以進行掃描了。當頁面大于A4版面時,可以用A3大幅度掃描儀進行掃描,對于超過A3幅度的文本資料可以分次掃描,掃描完成后再進行拼接。掃描是整個數(shù)字化工作中最基礎、最關(guān)鍵的環(huán)節(jié),好的掃描質(zhì)量,能夠使電子文件獲取清晰度較高的效果,投入最少的整飾工作量,從而節(jié)省大量的時間、人力和物力。

3.圖像處理

當完成一冊文本資料的掃描工作后,此文本資料的電子文件已經(jīng)保存在一個固定的文件夾內(nèi)。但此時的文件只是一個個獨立的圖片,還需要一系列的圖像調(diào)整處理,才能達到文本數(shù)字化的真正目的。在Photoshop中打開掃描圖像,逐個進行糾斜、旋轉(zhuǎn)、剪裁、去污、亮度/對比度等的調(diào)整。經(jīng)過幾次這樣的調(diào)整,使圖像達到真實反映文本資料原貌的目的。

4.生成電子文件

將調(diào)整好的單個圖像文件逐個插入到Word文檔中,首先形成Word格式的文檔,然后再轉(zhuǎn)化成PDF格式文件,文件名要與每冊文本資料的名稱相同或相近,如秦嶺、大巴山地應力孔的《巖礦心接收登記表》,電子文件命名為“巖礦心接收登記表”。

5.文檔組織與保存

當完成一個礦區(qū)的所有文本資料的掃描工作以后,將形成的PDF文件按一定的順序重新組織編排,并編制PDF格式的目錄索引,鏈接整個礦區(qū)的PDF文件。最后將完整的電子文件進行備份保存。一般情況下同一礦區(qū)的電子文檔保存在同一張光盤中,并在光盤盒上貼標簽,注明文件目錄、形成時間及責任人等有關(guān)信息。若一張光盤存不下時,要將電子文件分成若干個分冊,一個分冊放在一個光盤中。電子文檔應保存一式三套,并且要實行異地保存。

三、影響文本資料掃描效果的幾個因素分析

將文本資料平放在掃描儀的掃描區(qū)域中,有的文本資料裝訂得比較規(guī)范,一般情況下在掃描前不拆開,進行掃描時掃描人員應用手緊壓文本資料,盡可能地緊貼掃描面板,以保證較好的掃描效果。如果文本資料較薄,則可用掃描儀的蓋板壓緊即可。這個環(huán)節(jié)的操作要輕拿輕放,避免文本資料在掃描板上滑動,將掃描板劃傷,這樣將直接影響掃描的效果。

我們采集來的一些實物資料是20世紀80年代初期產(chǎn)出的,隨著時間的推移,文本資料字跡已經(jīng)很模糊了,而收集來的又多以復印件為主,還有野外記錄表或整理資料這部分多數(shù)都是手寫資料,字體不一,書寫也不規(guī)范,資料內(nèi)容就更為模糊了,這樣的資料掃描難度較大,效果也不理想。

有的文本資料的厚度大又不宜拆開,直接影響了掃描質(zhì)量,文本資料越厚在掃描過程中就越不容易壓平,一側(cè)的資料就非常不清楚。因此在掃描較厚的文本資料時,需要掃描人員用手使勁壓平文本,才能保證掃描的質(zhì)量。顯而易見這樣掃描自然會降低掃描的效率,因此在掃描這種較厚的文本資料時,要求工作人員必須有耐心,將每一頁資料都能充分地擺正放平,使每一部分信息都能掃描得非常清晰。

四、結(jié)語

文本資料數(shù)字化是一項艱巨、繁瑣而責任重大的工作,是實現(xiàn)實物地質(zhì)資料現(xiàn)代化管理的一項重要基礎工作。由于這項工作開展時間不長,沒有更多的經(jīng)驗可以借鑒,目前此項工作還在不斷的探索和試驗中。

Digitization of Relevant Text Information of Geologicalsamples

Hailan Zhang,Ruihong Wang

(National Geologicalsample Center,ministry of Land and Resources,Beijing 101149)

Abstract This paper compendiously explains thesignificances of digitization of relevant textinformation of geologicalsamples,proposes to keep in accordance with the original configuration of text information whenselectingscanningmodes,in order to properly adjust the ratio,brightness and contrast referring to the actualsituations.

Key words text information;digitization

標簽

相關(guān)資訊

我是中博奧客服:小奧
中博奧技術(shù)有限公司& 版權(quán)所有工信部備案號:豫ICP備11015869號-8 Copyright ? 2023-2024

檔案整理檔案數(shù)字化

檔案掃描檔案管理軟件系統(tǒng)

TEL:18937133779

To Top