Scribble at 2024-01-09 09:50:59 Last modified: unmodified

添付画像

Polars: DataFrames for the new era

このサイトをざっと見るだけでは何のことかわからないかもしれないが、これは Pandas の強力な再実装でもある。Pandas は Python 用にリリースされている「データ・フレーム」と呼ばれるライブラリで、簡単に言えばデータウェア・ハウスで使う ETL ツールのようなもので、データベースや CSV ファイルなど、色々なフォーマットのデータを読み込んでから、専用のデータ・ストリームが存在するかのようにクエリ式の呼び出し方で扱えるようにするものだ。

データベースだと抽象レイヤーによって、MySQL であれ PostgreSQL であれ SQLite であれ同じように扱うためのライブラリがあるけれど、一口に「データ」とは言っても色々なフォーマットがあるため、フォーマットの違いを吸収する仕組みには色々ある。従来だと ETL とか、あるいはオンラインのサービスだと Splunk のようなものが有名だが、これらにはベンダーの仕様にロック・インしてしまうという別の制約があって、専用の API を覚えたり仕様上の制約を理解するといった学習が必要となり、場合によってはそういうツールやサービスの学習に費やすコストが大きくなる場合もある。Business Intelligence のツールなどに連携しているデータウェア・ハウスなどの動作については、専門の資格試験があるほどだ。

こうした、僕には本末転倒としか思えない状況は、もちろん「入口」の問題をできるだけ解消することも大切なのだが、それはつまり自社で扱いやすいデータ・フォーマットを取引相手に要求するということでもあるから、そんなことができるのは実質的に官公庁や巨大企業だけであろう。よって、このようにデータのフォーマットを吸収してくれるライブラリやサービスを活用しなくてはならない。ここで紹介されている Polaris は Python のライブラリだが、PHP にも PHP Pandas がある。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook