はじめに
こちらの続きです。
データを読み込んだところまでは良かったものの、不要なデータも多く含まれていたので、これを整理していきたいと思います。
記事以外を除外する
記事以外にアーカイブやトップページなども含まれているので、これを除外していきたいと思います。
記事のURLは「/entry/」ではじまるので、これを利用します。
テキストフィルターで、「/entry/」で始まる行でフィルタするのですが、なぜか、これだとdraft(/draft/entry/...)が残ってしまいます。
仕方がないので、「entry」ではじまり、かつ「draft」を含まないものでフィルタをします。
これで、/entryではじまる記事だけになりました。
トラッキング用のパラメーターを除外する
が、このままだと、記事URLの末尾に?xxxxxxxというトラッキング用のパラメーターが付いたものが残ってしまいます。ぼかしだらけでわかりにくいかもしれませんが、赤枠の部分が該当します。
これらのデータについてはフィルタしてしまうのではなく記事へのアクセス数としてカウントしたいので、「?」以降を削除する処理を行いたいと思います。
変換タブの「抽出」から、「区切り記号の前のテキスト」を選びます。
そして、区切り記号として「?」を指定します。
これで、トラッキング用のパラメーターはきれいになくなりました。
おわりに
ここまでで、記事ごとのページビューはPower BIで表示されるようになりました。
ただ、これだとGoogle Analyticsで確認するのとあまり変わりません。
次の記事では、このデータと内部のデータを結合して、該当の記事を誰が書いたか分かるようにしていきたいと思います。
舟越 匠(日本ビジネスシステムズ株式会社)
人材開発部に所属。社内向けの技術研修をしつつ、JBS Tech Blog編集長を兼任。2024年8月からキーマンズネットでPower Automateの連載を開始。好きなサービスはPower AutomateやLogic Apps。好きなアーティストはZABADAKとSound Horizon。
担当記事一覧