0

我的程序使用WebRequestandWebResponse以便在迭代中从给定的 URL 下载 HTML 文件。例如,URL 字符串看起来像

http://www.aaaa.com/cccc=varB

wherevarB是循环中每次迭代的不同字符串。

将文件下载到流中后,它将在流中搜索特定的文本字符串并将它们存储到单独的文本文件中。但是,我发现在某些迭代中它似乎没有读取任何内容(当我在地址栏中键入它时,它的 URL 字符串是有效的,因此它不是无效的 URL)。

我将流和WebResponse对象放在using块中,我也有一个try…catch块,但没有出现异常。在循环中使用WebRequest和有问题吗?WebResponse

try
{
    foreach (string name in names)
    {
        string urlstr = "…"; // URL format like I mentioned earlier

        HttpWebRequest myRequest = (HttpWebRequest)WebRequest.Create(urlstr);
        myRequest.Timeout = 30000;

        //store the response in myResponse 
        using (HttpWebResponse myResponse = (HttpWebResponse)myRequest.GetResponse())
        {
            //register I/O stream associated with myResponse
            using (Stream myStream = myResponse.GetResponseStream())
            {
                //create StreamReader that reads characters one at a time
                using (StreamReader myReader = new StreamReader(myStream))
                {
                    myReader.ReadLine();
                    sw.WriteLine(name + " " + myReader.ReadLine());
                }
            }
        }
    }

    sw.Close();
}

结果将如下所示:

name1 stuffReadfromfile
name2 stuffReadfromfile
name3 stuffReadfromfile
name4                        
name5 stuffReadfromfile
name6 
name7 stuffReadfromfile
name8 stuffReadfromfile
name9 
name10 stuffReadfromfile

即使每个名字stuffReadfromfile后面都应该有。

4

2 回答 2

1

这里有两件事:

首先:尝试读取字符串中的整个响应,然后使用 ReadToEnd() 处理字符串:

//create StreamReader that reads characters one at a time
using (StreamReader myReader = new StreamReader(myStream))
{
    string content = myReader.ReadToEnd();
    // Process content
}

第二件事:尝试设置 request.CachePolicy 以便始终确保从服务器获取最新内容。

我同意上述关于在您对内容进行任何操作之前检查状态代码的评论。

希望有帮助

于 2012-02-11T10:37:08.083 回答
0

我会使用 Fiddler 之类的东西来了解实际发生的情况 - 您期望的数据是否从服务器返回。顺便说一句,你为什么要两次调用 ReadLine() - 在某些情况下,第一次调用不能吞下你的数据?

于 2012-02-11T09:03:35.797 回答