@nqounetです。

ここのところWordpressばかりいじっているような気がします。

ということで、今日はその関係のネタです。

今回、ブログを引っ越すに際して、過去記事をインポートしようと思っていました。

bloggerを使っていた前回で、すでに3つに点在していたので、一つに集めようと思いました。

一番古いMT3時代の記事が、出力後のHTMLファイルしかなくて困っていたんですが、それを解決してくれるプラグインがありました。

HTML Import 2です。

これは、HTMLファイルからスクレイピングしてインポートしてくれるので、必要な部分をタグで示してやればうまくインポートしてくれます。

html-import2

もともと機械的に出力したものなので、構造がしっかりしていて読み込みが簡単そうでした。

ただ、一番困ったのが時間です。

ファイルの更新時を取得する、という方法が示されていたのですが、さすがにそれは無理でした。

で、なにか情報がないかと思ってソースを眺めていたら、コメントの中に更新時間のメタ情報()があったので、それを使うことにしました。

このプラグインはコメント部分は無視するのか、あるいは無効な文字があるのか

スクリプトを書こうかと思ったのですが、1回しか使わないので、エディタを使っていくつか加工してからインポートしました。

加工したのは以下のとおり。


  • コメントを外す(開始タグ(<!–)のみを適当に置き換えました)

  • の部分を
    で読めるように置き換え

  • moreを作るために、から
    までのタグを削除

こうすることで、

を読み込むだけで綺麗にインポートできるようになりました。

時間のかかる処理は控えめに

インポートした記事数は全部で350弱だったと思いますが、さすがにHTTP越しでやるとブラウザが固まったようになります。

返ってきたと思ったら真っ白な画面だったので、インポートできていないのかと思いましたが、確認するとちゃんと出来ていました。

プラグインがどこまで可能なのかはわかりませんが、こういう処理の見せ方がもう少し丁寧に作りこまれるといいなぁ、と思いました。