VB中的Unicode和Ansi格式

东坡下载 2010年10月14日 14:32:10

VB中的Unicode 和 Ansi 格式 Visual Basic 32-bit 版本的字串处理采用 Unicode，也就是说字串在 VB 内部是以Unicode 的格式来存放。 何谓 Unicode？简单的说，就是每一个字符都是以 2-byte 的形式表示，而每个「实体字符」 就是一个「字符」。因此， Len("大家好") Len("abc") 所返回的值都是 3，因为「大」和「a」都是一个字符。 但是这对一些中文字串处理，例如纯文字的数据文件，却是一个大灾难，因为你必须以byte 来定位每个字符，可是 Unicode 却把一切的处理全搞砸了。例如： Len("Good Morning") 返回 12，而 Len("今天天气很好") 返回 6 对初学者而言，好不容易能使用 VB 来写程序已经是件了不起的事了，却马上在中文处理上 挨了一记闷棍，所受到的打击实在不小。但是不要怕，事实上只要再多了解一些指令，就可 以把中文处理的问题解决了。 是什么指令呢？最重要的莫过于 StrConv 了。StrConv 函数的语法为：StrConv(待转换字 串, 转换格式) 其中转换格式在这里用到的是： vbUnicode 将 Ansi 字串转换为 Unicode vbFromUnicode 将 Unicode 字串转换为 Ansi 将字串转成 Ansi 之后，所有的字串处理指令都要加个 B，例如：LeftB, RightB, MidB, ChrB, InstrB, LenB, InputB 等。例用这些指令来处理就行了。 当你处理完毕之后，你可以再将它再转回 Unicode，这样就可以使用一般的字串处理指令了。 这样讲看得懂吗？如果还是不了解，看看下面的实例说明： 简易使用范例 看看下面的基本范例您应该就会对 VB 的字串处理方式有些概念。 Private Sub Command1_Click () Dim sUnicode As String Dim sAnsi As String ' Unicode 运算 sUnicode = "王小明,A123456789,651023,上海市中山路100号,(02)2345678" Debug.Print Len(sUnicode) ' 返回 44 Debug.Print Mid$(sUnicode, 5, 10) ' 返回 A123456789 Debug.Print Instr(sUnicode, "上海市") ' 返回 23 ' 将 Unicode 字串转成 Ansi sAnsi = StrConv(sUnicode, vbFromUnicode) ' Ansi 运算 Debug.Print LenB(sAnsi) ' 返回 54 Debug.Print MidB$(sAnsi, 8, 10) ' 返回 ?????，因为忘了转回 Unicode Debug.Print StrConv(MidB$(sAnsi, 8, 10), vbUnicode) ' 返回 A123456789，请注意转 回 Unicode 的动作一定要做 Debug.Print InStrB(sAnsi, StrConv("上海市", vbFromUnicode)) ' 返回 23, 不要忘了 要把"上海市"也转成 Ansi，否则会找不到 End Sub 读入文本文件 在 VB 的小技巧中，有一个是快速读文件法： Private Sub Command1_Click () Dim sFile As String Open "C:\filename.txt" For Input As #1 sFile = Input$(LOF(1), #1) Close #1 End Sub 但是很不幸地，如果你读取的文件内含中文字，那上面这段程序会出现 Input pastend of file 的错误。因为 LOF 返回的是文件的 byte 数，而 Input 函数读取的是字符数，由于 文件内含中文，因此文件中的字符数将会小于 byte 数，于是就发生错误了。 要解决这个问题，我们就要用到 StrConv 和 InputB 这两个函数了： Private Sub Command1_Click () Dim sFile As String Open "C:\filename.txt" For Input As #1 sFile = StrConv(InputB$(LOF(1), #1), vbUnicode) Close #1 End Sub 上面修正程序先用 InputB 将文件读进来，不过使用 InputB 所读入的文件是 Ansi格式的， 所以要再用 StrConv 转成 Unicode 才行。 随机数据文件 许多文字数据文件是以固定字节的位置来加以区格，例如下面的数据格式： 王小民650110上海市中山路100号 (02)1234567 张大呆660824花莲县大甲镇广东街23号(03)9876543...... 像这种类型的文件要如何处理呢？这是就必须用到 Type 以及 byte array 了。 Private Type tagRecord Username(5) As Byte ' 姓名 6 bytes Birthday(5) As Byte ' 生日 6 bytes Address(21) As Byte ' 地址 22 bytes TEL(11) As Byte ' 电话 12 bytes CrLf(1) As Byte ' 换行字符 2 bytes End Type Private Sub Command1_Click() Dim uRecord As tagRecord Open "C:\filename.dat" For Random As #1 Len = LenB(uRecord) Get #1, 2, uRecord ' 取第二笔数据 With uRecord ' With ... End With 应该会用吧 Debug.Print .Username ' 返回 ??? Debug.Print StrConv(.Username, vbUnicode) ' 返回 "张大呆" End With Close #1 End Sub 在这个例子中，一定要用到 byte array，因为只有 byte array 才能正确地定位到每个 byte 的位置。以前使用字串来定位的方法已经不适用了，千万要记住！但是使用byte array 所 读入的数据是 Ansi 格式，若要处理或是做运算的话，记得还要转成Unicode 格式才行。 [●] 使用 Byte Array 除了上面必须使用 byte 精确定位的例子之外，纯文字的处理基本上是用不到 bytearray 的。byte array 通常是用在处理 binary 数据。这方面的问题我们将另文讨论。 看吧！只要熟悉使用 StrConv，你就可以在 Unicode 及 Ansi 格式之间自由自在地变来变 去，相信当您看完这篇文章之后，对处理中文应该不再烦恼了吧！

查看原文