【デジタル】Apache LOG の分析と、回遊しているbotについて

できるだけ簡単にログをまとめて可視化するツールが欲しいなぁと思っているのですが、なかなか「これだ!」ってツールがないんですよね。Datadog が一番良さそうだったんだけど、x-serverでの使い方がいまいちわからず。というのも、x-serverはターミナルツールがデフォ実装されていないことに今気づいたんですよね。SSH接続して、鍵設置して繋げば、Macのターミナルからもいけるんだけど、なんかめんどくさくて….。もともと、x-serverもログ解析ツール積んでるんだけど僕がみたい情報と違うので。そういう意味で、Datadog もマーケティング目的ではなくLOG監視が目的なのでやっぱり違うってことになりそうな感じです。

サイトオーナーの僕がマカーなのが原因かもしれませんが、アクセスの半分以上がMacOSもしくは、iOSというあたりに相当な偏りを感じますw。一定数Linuxがいるというのも、僕のサイトの特徴かもしれません。
サイトオーナーの僕がマカーなのが原因かもしれませんが、アクセスの半分以上がMacOSもしくは、iOSというあたりに相当な偏りを感じますw。一定数Linuxがいるというのも、僕のサイトの特徴かもしれません。

と言う事で、まだどのツールを入れるかについては熟考して決めようかなーって感じです。なにぶん、分析ツールはそれなりにランニングコストがかかるので。個人的に、Apacheログからのように時間帯分析を回してみたいので、ツールについては気長に探し続けてみようと思います。

さて、このx-serverのログ解析ツールは色々面白くて通常ログとは別に、「ロボット・スパイダー」の分析も見せてくれます。これも、結構興味深く思っていた部分なので時系列が見えなくても量的把握ができるだけでもありがたいなーって。

ダントツに訪れているクローラーは「MJ12bot」。これは、Majestic-12プロジェクトが走らせているもの。そういえば、Googleを超える検索エンジンを作っていると聞いた事がりますが、まだそれっぽいものは出来上がっていなさそうですね。結構まめに回るボットのようで、ほかのボットの倍くらいはデータ収集している模様。ちなみに、このプロジェクトで収集された自サイトのデータについては確認できたりします。そういう意味では、取得されたとしても外部ダッシュボードが確認できるので特に問題ないというのが僕の解釈です。有償版にしないと、ちゃんと見ることはできないんですけど。考え方は、人それぞれでコード書いて排除している方もいらっしゃるようです。

次点はWordpressのbotで、その次がSemrush。このツールは、自部署でもSNS担当に「使ってみたら?」って紹介したりしていました。一個人で使うにはちょっと高いのですが、企業で使うのであれば費用対効果の高いツールだと思っています。個人的には、このツールに付帯しているSEO対策データを使ってみたいのですが、今はmatomoを使いこなしてなんぼなので、ちょっと様子を見ている感じです。

https://ja.semrush.com/

今のところ、LOGデータについてはPyCharmで確認しています。本当は、この膨大なログを収斂して時系列データに書き起こしてくれるツールが欲しいんです。

次が、「Ahref」のボットで「bing」「Google」「msn」がこれに続きます。すごいなーと思うのは、世界的に有名な「bing」「Google」「msn」よりも新興の「Semrush」や「Ahref」の方がかなり深くまでデータの海にダイブしている事。こういう視点で見ると、外部分析ツールにおいてはGAだけではなく上記のようなツールも並行してみておいた方がいいのかなぁとか考えてしまいます。もちろん、GAについては世界最大の検索エンジンとの親和性があるので切る気もないですが、違った視点で顧客と向き合う事や、サンプリングではなく実データを正しく分析するという視点ではオルタナティブが思った以上に選択肢として存在していることを改めて感じました。ちなみに、11位には「Twitter」のbotも入っています。こういうことも、学びになりますねー。多分、Twitterからリンクして入っていってるからだろうなーとかね。

やっぱり、こういうデータを掘り起こして、発見につなげて「みたことのない情報」や「触れたことのない事象」について学ぶのってやめられないなーと思うこと仕切りで。これみていて感じたのが「通常のログ解析で見落としていた、クローラーの回遊頻度とかこの辺も見ておいた方がいいなぁ」ということ。僕らが業務で見ているログって、この辺を排除した形で見ているんだけど、効果測定比較ではクローラーが拾い上げてきたデータを見ているんですよね。このクローラーが精度の高いデータを提供しているか否かを判断するにおいては、このクローラーの回遊頻度と深さを見ていくというのも一つの手段ではないかと考えてのことです。その視点で、データを定点観測し「今使うべきツール」についての決定要因の一つとしてこのデータを使うという視点が必要かなーと考えました。

さて、明日もこの辺の情報をさらに深掘りして行こうかな♪( ´▽`)

あわせて読みたい

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください