JBS Tech Blog

MT形式でエクスポートデータしたブログをExcelで分析する-Power Queryでの分析編-

Power Query Business Applications Excel Microsoft 365

はじめに

前回に引き続き、大変ニッチな内容となっております。

ブログの記事内の見出し要素の利用傾向を分析するために、正規表現でデータを加工するところまでやりました。今度は実際に読み込んでみたいと思います。

Excelで読み込む

テキストを読み込んでPower Queryで、と思っていたのですが、どうもテキスト内にあるテーブル情報を読みに行ってしまうらしく、思ったように読み込めませんでした。

仕方がないので、一度、Power Queryを使わずにExcelで読み込みます。

ヘッダを加えてテーブル形式にし、幅をそろえるとこうなりました。（下書きデータなども入っているのでフィルタしています）

Power Queryで分析する

データを読み込む

このままExcel関数を使って分析してもいいのですが、今回はPower Query使いたいので、このテーブルをPower Queryで読み込みます。

まず、「テーブルまたは範囲から」で読み込みます。

必要な列だけに絞ります。CATEGORYは手間かけたんですが実は今回は不要でした。

見出しを分析する列を作る

Text.Containsを使います。

docs.microsoft.com

こんな感じですね

Text.Contains([BODY],"<h1")

同じようにh2-h6まで作ります。

こんな感じになりました。

これでいったんPower Queryは終わりにして、Excelでフィルタしながら確認してみたいと思います。

Excelのフィルタで確認する

前提

今回、見出しのルールとしては以下のようなものを作るつもりです

見たまま編集に合わせて、h3, h4, h5を利用する*1
見出しを使うときはh3,h4,h5の順で使う（h3,h5など途中を抜かない）

h1要素の確認

h1は使われていませんでした。

h2要素の確認

h2は結構使われてました*2。また、中にはh2とh4、といったものもありました。

記事を修正する

後は修正するだけなんですが、ここは近道がないので、絞り込んだデータを見ながら手動で修正をかけます。*3

おわりに

ということで何とか分析をすることができました。

もちろん見出し以外にもできると思いますが、記事全部をHTMLレベルで分析する機会が果たしてどれくらいあるかは疑問です。

もしも誰かの役に立てたのであれば幸いです。

*1:markdown派のh6は許可

*2:半分以上僕なんですが

*3:といってもソースをエディタに一度張り付けて一括置換など適宜省力化は行います

About

JBS Tech Blogは、日本ビジネスシステムズ（JBS）の社員が分担して執筆を担当し、技術情報を発信しているブログです！

Microsoft製品や生成AI関係の最新情報をはじめ、様々な製品やサービスの情報を幅広く公開しています。

2022年3月より運用を開始し、毎営業日の1記事以上公開を継続中です！

RSSで購読する

Log Analyticsシンプルモードを使ってみる
Log Analyticsのシンプルモードは、複雑な設定や知識がなくても、ログデータの分析・…
【Microsoft Fabric】APIを使用したメタデータの取得
本記事ではMicrosoft Fabric（以下、Fabric）のAPIを使用して、メタデータの取得を行…
Windows Hello for BusinessでPINの回復が利用できない事象の解決方法
Windows Hello for Business(以下WHfB)の検証時、正常に暗証番号(以下PIN)の回復が出…
はじめてのSnowflake 【ユーザー作成編】
Snowflakeでユーザー管理を正しく設定することは、セキュリティや運用の安定性にとて…
【Juniper Networks】MX204におけるRPM、event-optionとinet filterによるサー…
Juniper機器におけるrpm、event-option機能と、以前に解説したinet filterを組み合わ…
はじめてのSnowflake 【環境構築編】
現代では、データの活用がますます重要になってきています。そのため、たくさんのデ…
JamfとIntuneにおけるアプリケーション配布方法
Jamf Pro、Intuneはどちらもデバイス管理およびエンドポイント管理を行うためによく…

もっと見る

カテゴリー

月別アーカイブ