よかろうもん!

アプリからインフラまで幅広くこなすいまどきのクラウドエンジニアが記す技術ブログ

Microsoft Office 2007/2010のファイルから全文字列を抽出できるgemを公開しました!

Office 2007 以降、ワード/エクセル/パワーポイントのファイル保存形式がOffice Open XML形式となりました。

そのため、Office 2003 以前のファイルから文字列を抽出するために使っていた xlhtml や ppthtml 等では抽出することができなくなっています。

なので今回、officex2strというgemを作成し、 rubygems.org で公開しています。

現在対応できてるのは、docx/xlsx/pptx の3タイプです。

導入手順や使い方は下記を見て下さい。

https://github.com/interu/officex2str

コンソールからも簡単に試すことができますので、ぜひ一度試してみて下さい。