在DOS時代,擁有一個華麗的漢字菜單幾乎是每個高檔中文應用程序必須的包裝。中文Windows操作系統的出現使得高級開發平臺實現全中文的提示和界面非常容易和方便。在一般的應用程序中已經很少需要去專門考慮漢字處理的問題。
但是在許多工程控制和字符串處理的環境中,漢字字符的處理仍然有別于西文字符的處理,需要加以專門的考慮。
一、VB6對漢字處理的支持
對漢字處理,VB6主要是提供了一些輸入法設置方面的支持。它提供了一個ImeMode屬性和ImeStatus函數來確定和設置輸入法的狀態。而且此屬性和方法只在VB6的東亞區版本中有效。
IMEStatus函數返回一個整數,用來指定當前Windows的輸入法(IME)方式。
下面是中文地區的返回值:
常數 值 描述
vbIMENoOP 0 不安裝IME(缺省)
vbIMEOn 1 打開IME
ImeMode屬性返回或者設置被選定的對象的 IME (Input Method Editor,輸入方法編輯器)狀態。
可以先用ImeStatus函數來檢測當前的輸入狀態,并用IMEMode來控制其輸入狀態。
如Text1.IMEMode=0(預定值)、=1(切換為中文輸入)、=2(切換為英文輸入)
對于簡體漢字和繁體漢字 IME,只能使用設置 0 到 2。設置 3 到 10 對于漢字系統是無效的。
VB6功能上對漢字處理的直接支持也僅限于此。對于漢字字符串的處理,VB6并沒有提供專門的函數和方法。
二、確定漢字字符串的長度
各個版本的VB對漢字字符的長度定義并不相同。在Windows 3.x中,VB3中認為每個漢字的長度為2字節。VB自從32位版本以後,不管中英文字,均以2 bytes來儲存,這與中文WinArray5的漢字內核有關。但是VB4以后,VB認為每個漢字的長度為1。這在處理包含漢字的字符串時帶來很多的不便。
由于Len、Left、Mid等字符串函數認為一個漢字和一個西文字符的長度都為1,因此處理漢字字符串時有一定的難度。實現上必須要能把漢字按照兩個字符(字節)的形式讀出。因此在截取漢字字符串的子串時需特別注意。
由于漢字處理和漢字字模存儲的特殊性,在許多情況下我們希望漢字字符的長度為2,英文字符為1。由于VB5和VB6把一個漢字作為一個字符。因此處理漢字時首先必須能正確判斷漢字字符串的長度。
在VB3或C++里,漢字的 ASCII碼均大于零,而VB5和VB6中漢字的ASCII碼小于0。因此通過判斷一個未知字符的ASCII碼就可以判斷該字符是否漢字。
這里我們提供了兩種方法來判斷漢字字符串的長度。
1、方法1
VB6中提供了LenB函數用于字符串中的字節數據。如同在雙字節字符集(DBCS)語言中一樣,LenB返回的是用于代表字符串的字節數,而不是返回字符串中字符的數量。如為用戶自定義類型,LenB返回在內存中的大小。
LenB(StrConv(Str1,vbFormUnicode))
對要處理的字符串Str1,必須先使用StrConv函數把ANSI格式的Byte數組轉換為字符串,否則直接使用LenB函數得到的結果比實際結果大。
2、方法2
這里自定義了一個子函數CLen來計算漢字字符串的實際長度。同時還能判斷字符串中漢字的實際個數。
Function CLen(HzStr$) as Integer
Static HzNum as Integer
L = len(HzStr$)
For n=1 to L
If Asc(mid$( HzStr$,n,1))《0 Then HzNum = HzNum + 1
Next n
Clen = L + HzNum
End Function
CLen函數中的靜態變量HzNum返回字符串中實際漢字的數目。
三、漢字字模讀寫和存儲的機理
計算機是以編碼的方式來處理和使用字符的。西文字符采用一個字節表示,即ASCII碼,一般只用七位來表示128個字符,而把最高位用作奇偶校驗(或者不用)。我國國標規定漢字用內碼表示,內碼為兩個字節。為了保證中西文兼容,也就是說漢字系統的內碼必須同時允許ASCII碼和漢字的使用,兩者之間不應發生沖突。目前規定每個字節只用七位,若兩個字節的最高位均為1,則該字符為漢字。
國標對漢字字庫的結構作了統一規定,即將字庫分成若干個區,每個區有Array4個漢字,每個漢字在字庫中有確定的區和位,因此每個漢字各有一個區位碼,知道了區位碼也就相當于知道了漢字在字庫中的位置。由于漢字的內碼與區位碼有一定的關系,所以只要通過漢字的內碼就可得到該漢字的區位碼,也就得到了該漢字的字模。
查找一個漢字字模數據的算法為:
漢字內碼 -》 區位碼 -》 記錄號 -》 字模數據
一個16點陣漢字其字模數據共有32字節,可以看作是一條記錄,在程序中可以用一個數組存放。在DOS的圖形模式下,漢字是通過描點的方法逐點畫上去的。讀取字模中每個字節的每一位,就能確定漢字中的每個點。故一個16×16點陣的漢字必須要32個字節的字模數據才能確定。
以下是DOS的圖形模式下顯示一個16×16點陣漢字時的描點順序圖。每兩個字節的字模數據確定一行。
四、VB6中實現漢字字模轉換的技巧
在許多工程控制的應用環境中,經常需要對標準的漢字字模進行調整和轉換。
要對漢字字模進行轉換首先應該正確地讀出16點陣漢字在字庫中的32字節的字模數據。設某一漢字的內碼為ddff,其中dd表示區內碼,ff表示位內碼,則dd-&Ha1為該漢字的區碼,ff-&Ha1為該漢字的位碼。則該漢字在字庫中的位置為:
Location = [(dd-&Ha1)×Array4 + (ff-&Ha1)]×32
需要注意的是,以何種方式從字庫文件中讀取這32字節也是一個關鍵問題。由于二進制(Binary)方式訪問文件可以直接查看文件中指定的字節,而且二進制方式也是唯一支持用戶到文件的任何位置讀寫任意長度數據的方法。因而以二進制方式打開漢字字庫文件是最適合的。
VB6雖然提供了較強的位運算功能,但是對于在字模轉換中使用較多的移位操作,卻沒有提供對應的移位運算符、指令或函數。其實通過and(與)、or(或)二個位運算符即可編制一個自定義子函數來實現移位運算。
下面的自定義子函數就是實現循環右移的:
Public Function byteRight(byte1 As Byte, n As Integer) As Byte ’將byte1右移n位
Dim TemVar As Byte ’臨時變量
Dim TemVar1 As Byte ’臨時變量
Dim X, Y As Integer
TemVar = byte1
For X = 1 To n ’移多少位就循環多少次
For Y = 1 To 8 ’從第一位(右邊第一位)開始循環右移
Select Case Y
Case 1
If (TemVar And &H1) = &H1 Then ’如果臨時變量TemVar的第一位是1,
TemVar1 = &H1 ’則將臨時變量TemVar1置1,
Else
TemVar1 = &H0 ’則將臨時變量TemVar1置0,
End If
Case 2
If (TemVar And &H2) = &H2 Then ’如果臨時變量TemVar的第二位是1,
TemVar = TemVar Or &H1 ’則將其第一位置1(其它位不變),
Else
TemVar = TemVar And &HFE ’反之將第一位置0(其它位不變)
End If
Case 3
If (TemVar And &H4) = &H4 Then ’操作與上面相同
TemVar = TemVar Or &H2
Else
TemVar = TemVar And &HFD
End If
Case 4
If (TemVar And &H8) = &H8 Then
TemVar = TemVar Or &H4
Else
TemVar = TemVar And &HFB
End If
Case 5
If (TemVar And &H10) = &H10 Then
TemVar = TemVar Or &H8
Else
TemVar = TemVar And &HF7
End If
Case 6
If (TemVar And &H20) = &H20 Then
TemVar = TemVar Or &H10
Else
TemVar = TemVar And &HEF
End If
Case 7
If (TemVar And &H40) = &H40 Then
TemVar = TemVar Or &H20
Else
TemVar = TemVar And &HDF
End If
Case 8
If (TemVar And &H80) = &H80 Then
TemVar = TemVar Or &H40
Else
TemVar = TemVar And &HBF
End If
If TemVar1 = &H1 Then ’移完第八位后,如果TemVar1是1(即第一位是1)
TemVar = TemVar Or &H80 ’則將TemVar的第八位置1
Else
TemVar = TemVar And &H7F ’反之置0
End If
End Select
Next Y
Next X
byteRight = TemVar ’將TemVar的值返回給函數名
End Function
尤其需要注意的是當把二進制數據寫入文件中時,必須使用Byte數據類型的數組變量,而不是 String 變量。 String 被認為包含的是字符,而二進制型數據可能無法正確地存在 String 變量中。
五、一個實際應用案例
圖形點陣液晶在現代單片機系統中是一種十分常用的顯示設備,BP機、手機上的顯示屏就是圖形點陣液晶。它能顯示漢字和圖形,與行列式鍵盤組成了單片機系統中最常用的人機交互界面。但是直接從中文系統漢字字庫中提取的漢字字模并不能直接在液晶上顯示,通常都必須經過格式上的調整和轉換。
1、圖形點陣液晶的漢字字模
與在西文DOS中顯示漢字不同的是,圖形點陣液晶并不是簡單地用畫點的方式來描出漢字。以常用的HD61202圖形點陣液晶顯示控制模塊為例,它能控制 64×64點陣液晶的顯示,其顯示RAM共64行,分8頁,每頁8行,每一頁的數據寄存器分別對應液晶屏幕上的8行點,對顯示RAM的一個字節單位賦值就是對當前列的8行(一頁)的像素點是否顯示進行控制。連續16列和相鄰的2頁的32字節顯示RAM就可以控制一個漢字的顯示區域。對這些顯示RAM賦以相應的值就可以顯示出一個漢字。
HD61202圖形點陣液晶顯示控制模塊的漢字字模的排列實際上是標準漢字字模排列形式旋轉而成的。對標準漢字字模轉換的目的就是在單片機系統的數據存儲器中(如E2PROM)存儲經過調整的連續32字節的16進制數。
2、實際源程序
以下這段程序是放置在漢字源文本輸入框(SrcTxt)的Change事件中。通過判斷輸入在文本框內的字符的ASCII碼是否小于零,就能判斷輸入的字符是不是漢字。這段程序還能計算漢字字符串的長度。同時把輸入的漢字存儲在一個臨時文件TempSrc.txt中。由于這段代碼是放在文本框的 Change事件中,它能立即更新漢字個數的顯示。
Private Sub SrcTxt_Change( )
Static SStr As String
Dim i As Integer
Dim TempFile, TempFileBinary As String
TotalNum = 0
L = Len(SrcTxt.Text)
For i = 1 To L
tmpStr = StrConv(Mid$(SrcTxt.Text, i, 1), vbWide)
If Asc(Mid$(SrcTxt.Text, i, 1)) 《 0 Then
TotalNum = TotalNum + 1
SStr = SrcTxt.Text
Else
MsgBox “寫入的不是漢字!”
SrcTxt.Text = Left(SrcTxt.Text, Len(SrcTxt.Text) - 1)
Exit Sub
End If
Next i
LblNum.Caption = Str$(TotalNum) + “個漢字”
TempFile = App.Path + “\” + “TempSrc.txt”
’TempFileBinary = App.Path + “\” + “TempSrcBinary.txt”
Open TempFile For Output As #1
Print #1, SrcTxt.Text
Close #1
End Sub
在實例中選用了UCDOS 5.0漢字系統中的16點陣字庫Hzk16作為提取漢字字模的標準字庫。
Private Sub CmdCnt_Click( )
Dim TempSrcFile As String
Dim TempDestFile As String
Dim TempFile As String
Dim HzFile As String
Dim To61202(32) As Integer
Dim p(1 To 2) As Byte
Dim C1, C2
Dim rec As Integer
Dim Location As Long ’漢字在字庫中的位置
Dim Hz(0 To 31) As Byte ’轉換完的32字節的字模數據
Dim Buf1(0 To 31) As Byte ’暫存轉換過程中的32字節字模數據
Dim HzAll( ) As Byte ’存放全部字模數據的動態數組
Dim LoopAll As Integer
Dim bit, k2, k3 As Byte
Dim i, j, i1, k, k1, k4, k5, k6 As Integer
DestTxt.Text = “” ’DestTxt是目標文本框,存放轉換后的16進制數據
Flag = 0
TempDestFile$ = App.Path + “\” + “TempDest.txt”
If FileExists(TempDestFile$) Then Kill TempDestFile ’FileExists是一個檢查文件是否存在的自定義函數
If SrcTxt.Text = “” Then ’漢字輸入框內無漢字則退出
MsgBox “沒有可以轉換的字模源文件!”
Exit Sub
End If
HzNum = Len(SrcTxt.Text) ’獲得漢字的個數
ReDim HzAll(0 To HzNum * 32 - 1) ’重新定義動態數組的上界
Open TempFile For Output As #1
Print #1, SrcTxt.Text
Close #1
For LoopAll = 0 To HzNum - 1
Open TempFile For Binary Access Read As #1 ’按二進制方式打開
Get #1, 2 * LoopAll + 1, p
Close #1
C1 = CStr(p(1)) - &Ha1 ’區內碼
C2 = CStr(p(2)) - &Ha1 ’位內碼
rec = C1 * Array4 + C2
Location = CLng(rec) * 32 + 1 ’該漢字在16*16點陣字庫中字模第一個字節的位置
HzFile = App.Path + “\” + “hzk16”
Open HzFile For Binary Access Read As #1 ’讀取該漢字在16點陣字庫中的原始字模
Get #1, Location, Hz
Close #1
’以下是將UCDOS字庫的存儲格式調整為HD61202的規范格式
For j = 0 To 3
If j = 0 Then k4 = 14
If j = 1 Then k4 = 15
If j = 2 Then k4 = 30
If j = 3 Then k4 = 31
For k = 0 To 7
bit = &H80
bit = byteRight((bit), (k))
For i = 0 To 7
k2 = byteleft(Buf1(j * 8 + k), 1) ’整個流程是由低位向高位移動,最后湊成一個字節
k3 = byteRight((Hz(k4 - i * 2) And bit), 7 - k) ’將字節中的某位移到最低位
k3 = k3 And &H1 ’屏蔽掉其余7位
Buf1(j * 8 + k) = k2 Or k3
Next i
Next k
Next j
For i1 = 0 To 31 ’將調整后的漢字字模再裝入原數組
Hz(i1) = Buf1(i1)
HzAll(LoopAll * 32 + i1) = Buf1(i1)
Next
Next LoopAll
Open TempDestFile For Binary Access Write As #1 ’轉換結果保存到TempDestFile中
Put #1, 1, HzAll
Close #1
MsgBox “OK!”
End Sub
以上程序均在中文VB6專業版上調試通過。
以上程序在實用中取得了很好的效果。此漢字字模轉換程序豐富了單片機系統開發工具的功能,是包含液晶顯示功能的單片機系統在系統調試和開發過程中不可或缺的功能模塊。
評論
查看更多