Angelfish FAQ 設定編



  • Angelfish 設定に関する用語を教えてください?

  • ●Profiles プロファイル
     プロファイルはWebサイトのレポートのセットです。各プロファイルには、フィルタ、データソース、
     およびその他の設定で構成することができます。
     一般的に、あなたが追跡したい各Webサイトごとに1つのプロファイルが必要になります。
     
    ●Datasources データソース
     データソースには、処理されるログファイルの設定、ファイル名、および場所が含まれています。
     プロファイルは1つ以上のデータソースを持つことができ、1つのデータソースは多くの
     プロファイルで使用できます。
    ●Filters フィルタ
     フィルタは処理中に、プロファイルに追加されたデータを操作するために使用されます。
     内部からのアクセスをIPアドレスで除外したり、クローラーを除外したり設定できます。

  • このページの上部へ戻る

  • Angelfish トラッキング方法を教えてください?

  • どのようなWebサイトでも解析できるように6つのトラッキング方法があります。
    ①AGF: Angelfish Tracking Method (JavaScript-based)
     AGFは、最も完全な機能とレポートデータを提供するため、Angelfishの推奨追跡方法です。
     このトラッキング方法では、ウェブサイトの各ページのJavaScriptファイル(angelfish.js)へのHTML参照が必要です。
     
    ②UGA: Urchin / GA Tracking Method (JavaScript-based)
     UGAトラッキング方法では、UrchinまたはGoogleアナリティクストラッキングコードによって生成された
     __utm.gifリクエストからレポートを生成できます。  
    ③SID: Session ID Tracking Method (log-based)
     多くのWebサイトでは、訪問ごとに自動的にセッションCookieが割り当てられます。
     Cookieには固有の値が含まれており、訪問が終了すると失効します。
     一般的なセッションCookie名の例を次に示します。
      •ASPSESSIONID
      •ASP.NET_SessionId
      •JSESSIONID
      •PHPSESSID
     SIDメソッドは、JavaScriptやGIFの追跡をブロックするデバイスを追跡する場合に特に便利です。
     
    ④USR: Username Tracking Method (log-based)
     あなたのWebサイトがユーザー名をCookieまたはユーザー名のログフィールドに格納している場合、
     USRの追跡方法はユーザー名を使用してユニークビジターを識別します。
     SharePointでは、USRを使用することをお勧めします。  
    ⑤IPUA: IP Address + User Agent Tracking Method (log-based)
     サイトにアクセスするすべてのデバイスには、IPアドレスとユーザーエージェントがあります。
     処理中、Angelfishはそれぞれの固有のIPアドレスとユーザーエージェントの組み合わせを使用して訪問数を計算します。
     IPUAにはいくつかの問題があります。   •IPUAは、スパイダーやロボットを正当なトラフィックとして扱う傾向があります
      •IPUAはトラフィックの多いサイトには推奨されません
      •プロキシサーバーやNATデバイスなどの一般的なインターネットデバイスで精度の問題が発生する
    ⑥IP: IP Address Tracking Method (log-based)
     IPトラッキング方法は、Google検索アプライアンスのログファイルなど、CLF形式を使用するログに最適です。
     処理中、Angelfishは一意のIPアドレスごとに訪問先を割り当てます。
     IPにはIPUAと同じ問題があり、他のオプションが利用できない場合にのみ使用してください。

  • このページの上部へ戻る

  • ボットはどのようにレポートから除外できますか?

  • Angelfishには、任意のプロファイルにアタッチできる事前定義のボットフィルタが付属しています。
    この除外フィルタは、今日の一般的に見られるボットのほとんどをカバーします。
    このフィルタを使用して、Angelfishから最も正確な結果を得られるようにすることをお勧めします。
    これは既存のフィルタ一致パターンです。
    (not set)|(akamai)|(spider)|(crawler)|(bot)|(slurp)|(winnt)|(python)|(synapse)|(curl)|(perl)|(java)|(fetch)|(google)|(yahoo)|(bing)|(baidu)|(yandex)|(ICDS-)|(cfschedule)
    ※参考にUrchinでのフィルタ
    bot|seek|scan|search|dig|agent|get|crawl|spider|scooter|lint|libwww|loader|mechanic|curl|link|catch|fly

     

  • このページの上部へ戻る

  • データソースの設定するログファイルは、ローカルファイルしか解析できませんか?

  • Angelfishは、ローカルサーバーまたはリモートサーバーからのログをUNCパスまたはFTP経由で処理できます。

    ※UNCパスとは?
    Windowsネットワーク上で共有されている様々な資源(ファイルやフォルダ、プリンタなど)の位置を表記する標準的な記法。
    資源の存在するコンピュータ名と、その中での位置(共有名やパスなど)を組み合わせ、
    「\\コンピュータ名\資源の共有名\資源内での位置」(英語環境では\はバックスラッシュ)という形式で表される。


  • このページの上部へ戻る

  • データソースの設定するログファイルは、圧縮ファイルでもOKですか?

  • Angelfishは、圧縮されていないファイル、または.zip、.gz、または.bz2形式の圧縮ファイルを処理します。


  • このページの上部へ戻る

  • データソースの設定するYYYYMMDDの基準時間を教えてください?

  • 基準時間は、GMT+1 になります。
    日本時間では、AM10:00となりますので、ログファイルのローテーションと合わせて設定してください。



  • このページの上部へ戻る

  • Angelfishで、「スキャン除外フォルダ」にしたほうがよい場所はありますか?

  • どのディレクトリも除外する必要はございません。
    もし問題が発生した場合は、/tmp と /Angelfish/data を除外してみてください。
    ※操作中は、/tmp内の一時ファイルを使用します。


  • このページの上部へ戻る