0

我使用 Azure KeyPhrase API 得到的结果好坏参半——有时成功(我的意思是 200 个结果),有时我得到 400 个错误请求。为了测试该服务,我将 Azure PDF 中的内容发送到他们的 NoSQL 服务上。

文档说每个文档最多可以有 5k 个字符。为了排除这种情况,(我从 5k 开始)我将每个字符限制为最多 1k 个字符。

我怎样才能获得有关失败原因的更多信息?我已经检查了门户网站,但那里没有太多细节。

我正在使用这个端点:https ://eastus.api.cognitive.microsoft.com/text/analytics/v2.0/keyPhrases

一些样本失败:

  • {"documents":[{"language":"en","id":1,"text":"David Chappell 了解 Microsoft Azure 上的 NoSQL 由 Microsoft Corporation 赞助 版权所有 © 2014 Chappell & Associates"}]}

  • 但是专门设计用于处理此类信息的存储技术可能更简单。已经创建了 NoSQL 技术来解决此类问题。顾名思义,标签涵盖了各种存储"}]}

** 添加了我的快速/脏 poc 代码 ***

List<string> sendRequest(object data)
    {
        string url = "https://eastus.api.cognitive.microsoft.com/text/analytics/v2.0/keyPhrases";
        string key = "api-code-here";
        string hdr = "Ocp-Apim-Subscription-Key";
        var wc = new WebClient();
        wc.Headers.Add(hdr, key);
        wc.Headers.Add(HttpRequestHeader.ContentType, "application/json");

        TextAnalyticsResult results = null;

        string json = JsonConvert.SerializeObject(data);
        try
        {
            var bytes = Encoding.Default.GetBytes(json);
            var d2 = wc.UploadData(url, bytes);
            var dataString = Encoding.Default.GetString(d2);
            results = JsonConvert.DeserializeObject<TextAnalyticsResult>(dataString);                
        }
        catch (Exception ex)
        {
            var s = ex.Message;
        }
        System.Threading.Thread.Sleep(125);

        if (results != null && results.documents != null)
            return results.documents.SelectMany(x => x.keyPhrases).ToList();
        else
            return new List<string>();
    }

调用者:

foreach (var k in vals)
        {
            data.documents.Clear();
            int countSpaces = k.Count(Char.IsWhiteSpace);
            if (countSpaces > 3)
            {
                if (k.Length > maxLen)
                {
                    var v = k;
                    while (v.Length > maxLen)
                    {
                        var tmp = v.Substring(0, maxLen);
                        var idx = tmp.LastIndexOf(" ");
                        tmp = tmp.Substring(0, idx).Trim();
                        data.documents.Add(new
                        {
                            language = "en",
                            id = data.documents.Count() + 1,
                            text = tmp
                        });
                        v = v.Substring(idx + 1).Trim();

                        phrases.AddRange(sendRequest(data));
                        data.documents.Clear();
                    }

                    data.documents.Add(new
                    {
                        language = "en",
                        id = data.documents.Count() + 1,
                        text = v
                    });
                    phrases.AddRange(sendRequest(data));
                    data.documents.Clear();
                }
                else
                {
                    data.documents.Add(new
                    {
                        language = "en",
                        id = 1,
                        text = k
                    });

                    phrases.AddRange(sendRequest(data));
                    data.documents.Clear();
                };
            }             
        }
4

2 回答 2

3

我使用您指出有错误的文档样本手动创建了一些请求,并且它们已由服务正确处理并返回关键短语。所以看起来可能是编码问题。

以后还可以看一下服务返回的内部错误。通常,您会在下面的响应示例中看到更多详细信息。

{
  "code": "BadRequest",
  "message": "Invalid request",
  "innerError": {
    "code": "InvalidRequestContent",
    "message": "Request contains duplicated Ids. Make sure each document has a unique Id."
  }
}

此外,还有一个用于文本分析的 .NET SDK,可以帮助简化对服务的调用。 https://github.com/Azure/azure-rest-api-specs/tree/current/specification/cognitiveservices/data-plane/TextAnalytics

于 2018-01-03T17:23:11.537 回答
1

尝试更改此行

var bytes = Encoding.Default.GetBytes(json);

var bytes = Encoding.UTF8.GetBytes(json);
于 2018-01-03T03:45:08.050 回答