The Nameless City

何故か製薬やSAS関連のブログ、の予定。

SASデータセットでストレージが圧迫されて困る人へのTips

とりあえずの策

COMPRESSを有効にして保存してみる事をお勧めします。
特に文字データが多い場合には有効です。固定長文字列を採用している事もあって、SASデータセットは文字データを含んでいると無駄な容量食ってる事が多いです。
暇なら、固定長文字列の長さの妥当性もチェックしてみるのをオススメします。

次くらいの策

作業中のデータセットを無駄に永続化していないか確認しましょう。
SASでのデータ加工は、作業中のデータセットを何個も作りつつ実施する事が多いです。まあプログラムの作り上、インタプリタ言語という特性もあって、ありがちなのですが。
特に、過去の資産の中にその手のゴミを放置しておくと、いつまで経っても放置されっぱなしになるので、整理する際に消してしまうのも手です。
SASのビューを使ってみるのも一つの手です。

本質的な策

データセットの設計を見直し、正規化標準化マスタ利用等考えて下さい。
しばしば、特に必要のない項目をそのままなんとなく保存しているケースを見る事があります。
見るための帳票とデータセットが分離せず、ビューをそのまんまデータとしているようなデータセットは、容量の無駄が相当あります。
まあ、ここら辺になってくると、スキルとかの問題が発生するんですが・・・・・・しばしば他言語での開発でも、「Webの見た目そのまんまのデータを作ってしまう」パターン。
ただ、そう言いつつ今までその手の人を排除出来た試しがなく、スキルでは見抜きづらいところもあります。テストとかで「やる能力がある」のは確認出来ても、「そういう行為を自然と行えるか」という事とは違うんですよね。ついつい、「短時間で物が作れるか」を判定しがちです。パフォーマンスの観点も入れるとちょっとは変わるんですが、大きな課題のパフォーマンスの観点は、ナカナカ短時間のハック見てても分からないです。


SDTMも無駄多いんすよねえ・・・・・・