解决网爬工具爬取页面信息出现乱码的问题

文章类别：Asp.net | 发表日期:2008-10-5 22:06:52

问题：
   网爬工具中自动搜集页面信息时，有的页面出现了出现乱码现象
原因：
   读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的，本人认为对不是ASP.NET的应用程序，它读过来的编码信息都是错误的。
解决：
   思路：必须先在运行时获取得该页面的编码，再去读取页面的内容，这样得来的页面内容才不会出现乱码现象。
   方法：
   1:使用ASCII编码去读取页面内容。
   2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但HTML标志是正确的，所有可以从HTML标志中得到编码的信息。
   3.用正确的编码类型去读取页面信息。
   如果哪位有更好的方法，请多赐教啊！

下面附上代码：

代码演示
using System;
using System.Collections.Generic;
using System.Text;
using System.Net;
using System.Web;
using System.IO;
using System.Text.RegularExpressions;
namespace charset
{
    class Program
    {

        static void Main(string[] args)
        {
            string url = "http://www.gdqy.edu.cn";
            GetCharset1(url);
            GetChartset2(url);

            Console.Read();
        }
        // 通过HttpWebResponse直接获取页面编码
        static void GetCharset1(string url)
        {
            try
            {
                WebRequest webRequest = WebRequest.Create(url);
                HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();

                string charset = webResponse.CharacterSet;
                string contentEncoding = webResponse.ContentEncoding;
                string contentType = webResponse.ContentType;

Console.WriteLine("context type:{0}", contentType);

Console.WriteLine("charset:{0}", charset);

                Console.WriteLine("content encoding:{0}", contentEncoding);
                //测试或取页面是否出现乱码
                //Console.WriteLine(getHTML(url,charset));

            }
            catch (UriFormatException ex)
            {

                Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {

                Console.WriteLine(ex.Message);
            }

        }
        //使用正则表达式获取页面编码
        static void GetChartset2(string url)
        {

            try
            {
                string html = getHTML(url,Encoding.ASCII.EncodingName);
                Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");
                string enconding = null;
                if (reg_charset.IsMatch(html))
                {
                    enconding = reg_charset.Match(html).Groups["charset"].Value;
                    Console.WriteLine("charset:{0}",enconding);
                }
                else
                {
                    enconding = Encoding.Default.EncodingName;
                }
                //测试或取页面是否出现乱码
                //Console.WriteLine(getHTML(url,enconding));
             }
            catch (UriFormatException ex)
            {

                Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {

                Console.WriteLine(ex.Message);
            }

        }
        //读取页面内容方法
        static string getHTML(string url,string encodingName)
        {

            try
            {
                WebRequest webRequest = WebRequest.Create(url);
                WebResponse webResponse = webRequest.GetResponse();
                Stream stream = webResponse.GetResponseStream();
                StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName));
                string html = sr.ReadToEnd();
                return html;
            }
            catch (UriFormatException ex)
            {

                Console.WriteLine(ex.Message);
                return null;
            }
            catch (WebException ex)
            {

                Console.WriteLine(ex.Message);
                return null;
            }
        }

    }
}

http://www.gdqy.edu.cn页面的使用的编码格式是：gb2312
第一个方法显示的内容是：
context type:text/html
charset:ISO-8859-1
content encoding:
第二个方法显示的内容是：
charset:gb2312

所以第一个方法获取的信息是错误的，第二个方法是对的。
为什么第一个方法获取的的编码格式是：ISO-8859-1呢？
我用Reflector反射工具获取了CharacterSet属性的源代码，从中不难看出其原因。如果能获取出ContentType属性的源代码就不以看出其出错的原因了，但是搞了许久都没找出，如果那位那补上，那就太感谢了。
下面我附上Reflector反射工具获取了CharacterSet属性的源代码，有兴趣的朋友看一看。

CharacterSet源码
public string CharacterSet
{
      get
      {
            this.CheckDisposed();
            string text1 = this.m_HttpResponseHeaders.ContentType;
            if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1))
            {
                  this.m_CharacterSet = string.Empty;
                  string text2 = text1.ToLower(CultureInfo.InvariantCulture);
                  if (text2.Trim().StartsWith("text/"))
                  {
                        this.m_CharacterSet = "ISO-8859-1";
                  }
                  int num1 = text2.IndexOf(";");
                  if (num1 > 0)
                  {
                        while ((num1 = text2.IndexOf("charset", num1)) >= 0)
                        {
                              num1 += 7;
                              if ((text2[num1 - 8] == ';') || (text2[num1 - 8] == ' '))
                              {
                                    while ((num1 < text2.Length) && (text2[num1] == ' '))
                                    {
                                          num1++;
                                    }
                                    if ((num1 < (text2.Length - 1)) && (text2[num1] == '='))
                                    {
                                          num1++;
                                          int num2 = text2.IndexOf(';', num1);
                                          if (num2 > num1)
                                          {
                                                this.m_CharacterSet = text1.Substring(num1, num2).Trim();
                                                break;
                                          }
                                          this.m_CharacterSet = text1.Substring(num1).Trim();
                                          break;
                                    }
                              }
                        }
                  }
            }
            return this.m_CharacterSet;
      }

http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html

上一篇：{技巧}在使用ASP.NET网站管理工具出现“遇到错误。请返回上一页并重试。”的解决办法！人气:3746
下一篇：{技巧}将web窗体页文件(test.aspx)转换成用户控件文件(test.ascx) 人气:4304

Asp.net视频教程

视频教程列表

计算机基础入门及办公自动化:

网页制作开发视频教程:

平面广告设计视频教程

初级程序设计及ASP动态网站开发

Asp.net动态网站开发视频教程

Flash 动画角本编程视频教程

文章教程搜索

Asp.net推荐教程

.Asp.Net 4.0 新特性，输出更纯净

.Asp.Net 4.0 SEO增强之 UrlRout

.C#中海量数据的批量插入和更新

..net用OLEDB方式操作SqlServer和

..net2.0 LOGIN登陆控件使用问题

.在ASP.NET中图片上传并生成缩略

.Asp.Net2.0中实现多任务异步页的

.Asp.net数组学习技巧

.asp.net2.0学习一步一步从菜鸟到

.利用ASP.NET页面重启远程服务器

.asp.net2.0学习方向如何系统看书

.Asp.net"三层结构"原理与用意学

.Asp.net"三层结构"原理与用意学

.Asp.net"三层结构"原理与用意学

.Asp.net"三层结构"原理与用意学

.Asp.net"三层结构"原理与用意学

.Asp.Net2.0视频教程(21视频教程

.关于2.0 中的用户控件编程使用

.动态修改.Net StreamReader Enc

.在ASP.NET代码里访问跟踪信息

.ASP.NET页面事件

.在ASP.NET页中检测浏览器类型

.如何在asp.net2.0下面使用基于数

.在ASP.NET中把图片保存到SQL SE

.用ASP.NET 2.0 FormView控件控制

Asp.net热门教程

.Asp.net教程：热点问题解答3

.Asp.net教程：热点问题解答2

.Asp.net教程：热点问题解答1

.asp.net教程：Asp与ASp.net编程思

.asp.net教程：项目实战讲解（二）

.asp.net教程：项目实战讲解（一）

.asp.net教程：对象

.asp.net教程：转换编程思维

.ASP.NET教程：GridView控件应用模

.Asp.net教程：提高ASP.Net应用程

.Asp.net教程：提高ASP.Net应用程

.ASP.NET教程：初学者asp.net学习

.ASP.NET教程：ASP.NET代码编写规

.ASP.NET教程：生成静态HTML页面代

.ASP.NET教程：发送电子邮件源码

.ASP.NET教程：ASP.NET使用非托管

.ASP.NET教程：ASP.NET页面实现数

.ASP.NET教程：ASP.NET页面中实现

.ASP.NET教程：ASP.NET页面中实现

.Asp.net教程:调用Office来制作3

.Asp.net教程:4种页面导航方式的

.Asp.net教程：避免Sessiont丢失无

.Asp.net教程：动态页面转静态页面

.Asp.net教程：什么是cookie

.Asp.net教程：.Net值类型和引用类

.ASP.NET教程：AJAX 调用案例

.asp连接多个sql数据库的处理方法

.Asp.net教程：for和do循环语句用

.ASp教程：ASP.NET2.0不能识别eur

.Asp.net教程:Session为何会丢失

Windows操作 [文]	Word教程 [文]	Excel教程 [文]	PowerPoint [文]	Dreamweaver [文]	Fireworks [文]
Flash教程 [文]	PhotoShop [文]	CorelDraw [文]	C语言教程 [文]	Html教程 [文]	Div+Css布局 [文]
Javascript [文]	ACCESS数据库 [文]	ASP教程 [文]	SQLServer [文]	ASP.NET教程 [文]	FlashAS [文]

Word教程网	Excel教程网	Dreamweaver 教程网	Fireworks教程网	PPT教程网	FLASH教程网	PS教程网
HTML教程网	DIV CSS教程网	FLASH AS教程网	ACCESS教程网	SQL SERVER教程网	C语言教程网	JAVASCRIPT教程网
ASP教程网	ASP.NET教程网	CorelDraw教程网