出力形式:API v2 | ドキュメントv2 | Website Categorization API | WhoisXML API

出力形式:API v2

{
    "categories": [
        {
            "tier1": {
                "confidence": 0.6479678859489982,
                "id": "IAB-379",
                "name": "News and Politics"
            },
            "tier2": {
                "confidence": 0.9644738361093003,
                "id": "IAB-390",
                "name": "Weather"
            }
        }
    ],
    "domainName": "cnn.com",
    "websiteResponded": true
}

出力パラメータ

domainName
ウェブサイトのURL
websiteResponded

クロール中にウェブサイトがアクティブであったかどうかを判断します。以下の場合、ウェブサイトはアクティブであるとみなされます:

  • タイムアウト 20秒以内に応答(接続タイムアウト - 10秒、応答読み取りタイムアウト - 10秒)
  • 200 HTTPステータスコードで応答。
  • Content-Typeヘッダtext/htmlまたはtext/plainで送信。
categories

可能なウェブサイトのカテゴリーのリスト。こちらで可能な全てのカテゴリを取得できます。

categories[0].tier1

トップレベルのカテゴリーオブジェクト。

Website Categorization APIは、IAB Content Taxonomy 2.2の分類に基づいています。

当初、IAB Taxonomyでは、一部のカテゴリーに最大4階層を使用していました。しかし、下位レベルのカテゴリーが狭すぎるため、下位レベルの階層を統合し、2階層に縮小しました。オリジナルのIDは全て変更せずに保持していますので、必要に応じてIABファイルから完全なパスを復元することができます。

  • Tier 1:コンテンツの最上位カテゴリを反映。通常、このようなカテゴリーは広すぎるため、一般的なコンテンツのトピックを指すに過ぎません。
  • Tier 2:IABのTier 2、3、4を反映。より狭く、より具体的に内容を示します。

通常、Website Categorization APIは、関連性の降順でソートされた複数のカテゴリーを返します。「minConfidence」パラメータを指定しない場合、APIは0.5以上の関連性を持つ全てのカテゴリーを返します。結果は全て降順で関連度順にソートされます。関連性は、両方の層の確率の最大値として計算されます。例えば、階層1の確率が0.90でTier 2の確率が0.99の場合、セット全体の関連性は0.99になります。またその逆で、Tier 1の確率が 0.98、Tier 2の確率が0.8の場合、最終的な確率は0.98となります。

categories[0].tier2
第2レベルのカテゴリーオブジェクト(存在する場合)。
categories[0].tier1.id
一意のカテゴリー識別子。
categories[0].tier1.confidence
そのカテゴリーがウェブサイトにどのように関連している可能性があるか。
categories[0].tier1.name
カテゴリーの読み取り可能な名前。