| 次の記事 |
コミックダッシュ! シリーズ新規作成時の候補抽出ロジックを修正変更
カテゴリ : コミックダッシュ! タグ :さくらVPS 8Gプランへのサーバ移行から1週間が経ちましたが、
概ねトラブルもなく安定した運用に入ることができてホッとしています。
それと同時に進めていた文字コードの移行についても、一部RSSに
対処漏れが見つかったほかは目立ったトラブルはありませんでした。
実はこれをVPS側だけで進めていたために、VPSへの移行が終わるまで
自宅サーバ側のプログラムをいじることができない期間が続いていた
のですが、これでちょっと落ち着いてきました。
ということで、たまには コミックダッシュ! の手直しのお話です。

今回、新規シリーズ作成時の 「シリーズ候補名」の自動抽出ロジック に
手を入れました。この部分はかなり古いロジックで作られており、
最近のAmazonのタイトル名ルールではおかしな切り方がされていました。

例)シリーズ作成時のシリーズ名候補抽出
元コミック名 :「らいか・デイズ 1 (まんがタイムコミックス)」
シリーズ名候補:「らいか・デイズ 1 (まんがタイムコミックス」
この場合当然、「らいか・デイズ」の部分までをシリーズ名、そして
新刊チェックのためのチェックワードとして指定すべきなのですが、
自動で放り込まれるキーワードには「1」のような巻数や、
「(まんがタイムコミックス」のような雑誌名までが含まれてしまっています。
このように 巻数やコミック雑誌名 などが含まれたままシリーズ名として
登録されたものは、その後続刊が出てもほとんどチェックができないという
問題が発生しますが、この状態になっていたシリーズが数多くありました。
今回、シリーズ新規作成時の候補名抽出ロジックを改善したことにより、
巻数やコミック雑誌名の部分をかなりの確率で取り除けるようになりました。

例)シリーズ作成時のシリーズ名候補抽出
元コミック名 :「らいか・デイズ 1 (まんがタイムコミックス)」
シリーズ名候補:「らいか・デイズ」
これにより「登録はされているものの実質、新刊チェックが活きていない」
というシリーズが出現する可能性はかなり減るものと思われます。
これは見た目ほど単純な修正ではなく、意外と苦労をすることとなります。
どこまでがタイトル名でどこからが巻数や雑誌名のような商品補足情報
なのかというのは 文字列から判断 するしかないのですが、たとえば
後半に出現する「()括弧書き」の部分だけを除去する、といったやり方では、

例)シリーズ作成時のシリーズ名候補抽出
元コミック名 :「+チック姉さん(プラスチック姉さん)(3) (ヤングガンガンコミックス)」
シリーズ名候補:「+チック姉さん」
のようにタイトルに「()括弧書き」が含まれているとそれも吹き飛ばして
しまうとか、いろいろ面倒なことがあったりします。このあたりは
細かい調整を地道に、納得いくまで続けていくしかありません。
つづいて、過去に登録して頂いたシリーズのうち、旧ロジックによって
巻数やコミック雑誌名が含まれていたシリーズ名になってしまっていたもの
について、一斉調査と自動修正 を試みました。その結果、修正対象とされた
シリーズの数はおよそ 5,800件 にも及びました(全体の1割)。

加えて、上記の自動修正ののち結果的に「作者名」と「チェックワード」が
ほかのシリーズと完全に一致したものについては、シリーズの自動統合 も
合わせて行いました。この数もおよそ 1,000シリーズ に及びます。
明日から徐々に修正後のチェックワードで新刊チェックが進んでいきますので、
上記のようなチェックワードの問題によって正しくチェックできていなかった
コミックがカレンダーに急に上がってくる可能性がありますが何卒ご容赦ください。
今回の措置により、今後の新刊チェックの精度が少しでも上がれば幸いです。
今後とも「コミックダッシュ!」を何卒よろしくお願いいたします m(_ _)m

投稿者 CK : 記事URL | コミックダッシュ! | | 2011/06/12 07:03
« Let's note S10 のHDDをSSDに換装してみる - ネジ2本で難易度は低め? | トップに戻る | あまとも通信 - 東芝REGZAブルーレイ「RD-BZ810」が更に値下がり » |
▼ はてなブックマークのコメント ▼
▼ コメント ▼
ご自由にコメントください(=゜ω゜)ノ
※管理人は多忙のためお返事はほとんどできません(スミマセン)。スパムおよび本文と無関係なコメントは削除対象になる可能性があります。
▼ twitterのコメント ▼
▼ トラックバック ▼
このエントリーのトラックバックURL:





