Microsoft Office 2007/2010のファイルから全文字列を抽出できるgemを公開しました!
Office 2007 以降、ワード/エクセル/パワーポイントのファイル保存形式がOffice Open XML形式となりました。
そのため、Office 2003 以前のファイルから文字列を抽出するために使っていた xlhtml や ppthtml 等では抽出することができなくなっています。
なので今回、officex2strというgemを作成し、 rubygems.org で公開しています。
現在対応できてるのは、docx/xlsx/pptx の3タイプです。
導入手順や使い方は下記を見て下さい。
https://github.com/interu/officex2str
コンソールからも簡単に試すことができますので、ぜひ一度試してみて下さい。