Amazon商品の価格変動チェック「あまとも」
コミックダッシュ!は初音ミクGTプロジェクトを応援しています
個人ニュースサイトを巡回する「メガとんトラック」
全ての記事 携プレMP3 デジカメ レコーダ ゲーム メモリ デジモノ コラム 雑談 ブログ あまとも コミックダッシュ!
前の記事次の記事
2010/07/17 23:59 - 2010/07/17

4GB超えファイルだとgzipの情報表示も何かおかしい? ほかDBデータ整理のお話

カテゴリ : 雑談 タグ :

    ■2010/07/12 [zipの4GB制限が原因で、DBのバックアップファイルコピーに失敗]
    MySQLの全データのダンプを吐き出して、それをzipで圧縮して数世代ぶん取っておくというやり方をしていたのですが、zipのところで4GBオーバーのファイルを扱えないというエラーが出て止まっているようでした。
    ということで、対象ファイルが 4GBを超えた 時点からzipがエラーを出し、
    代わりにgzipを使い始めたというお話をしたのですが、
    そのgzipで圧縮した4GB超のファイルをgzip -lしてみると、
     

    $ gzip -l mysql_dump.gz.1
    compressed uncompressed ratio uncompressed_name
    992808208 26333294 -3670.2% mysql_dump.gz.1

    何だか表示されるサイズが異常になっています。
    compressed で 992MB なのに、uncompressed が 26MB、そしてそこから
    単純計算をしているであろうratio(圧縮率)はマイナス表示です。。。
     
    でも、gzip -dで解凍してみるとこれがちゃんと解凍でき、
    元のサイズである 4.31GB (4317780562 bytes)のファイルが確かに
    復元されました。おかしいのは情報表示上の問題だけなのかもしれません。
     
    あわせて、以下の点にも手を入れる作業を行いました。
    意外かもしれませんが、実は一番容量を喰っているのは「コミックダッシュ!」ではなく 「メガとんトラック」のリンク情報 のほうです。
    DBの中で一番容量を喰っていたのは「メガとんトラック」の中にある
    リンク情報 のDBです。これは巡回している個人ニュースサイトの中に
    一度でも出てきたリンクは一応辿ってみて タイトルや概要 (本文の先頭
    数百文字)を保存していく、というものなのですが、これについて、
     
    「1サイトからのリンクしか確認できずに 半年以上 経ったものは
     タイトルと概要(本文数百文字)をDBから消す」
     
    という処理を加えたところ、
     

    $ gzip -l mysql_dump.gz
    compressed uncompressed ratio uncompressed_name
    598520491 2674564417 77.6% mysql_dump

     
    4.31GBのファイルが 2.67GB まで減りました。。。実に1.6GB(-38%)の削減です。
    定期的にこうしたゴミデータ整理をするのはとても重要ですね(;´Д`)

    CK@デジモノに埋もれる日々 @ckom
    ブログ「デジモノに埋もれる日々」「アニメレーダー」「コミックダッシュ!」管理人。デジモノ、アニメ、ゲーム等の雑多な情報をツイートします。



    投稿者 CK : 記事URL | 雑談 | | 2010/07/17 23:59


    « SuperGT「初音ミク×GSRポルシェ」2010年1期個人スポンサーグッズが到着!

    トップに戻る

    ニコニコ動画の新プレイヤーリリース、エンコード基準は「640×360」へ! »



    ▼ コメント ▼

    ご自由にコメントください(=゜ω゜)ノ  ▼ コメント入力欄を開く ▼
    ※管理人は多忙のためお返事はほとんどできません(スミマセン)。
    スパムおよび本文と無関係なコメントは削除対象になる可能性があります。


    ▼ はてなブックマークのコメント ▼


    ▼ トラックバック ▼

    このエントリーのトラックバックURL:

    ★コミックダッシュ! 10,000人突破ありがとうキャンペーン!(9/18~10/23)
     
    デジモノに埋もれる日々 : (C) CKWorks