SQL Server 2012 新機能(BI ソリューション)
- yukio_saitoh
- 4164
- 0
- 0
- 1
DQSプロセス(構築:データの探索・発見→ナレッジの管理)、(利用:クレンジング→照合・重複の排除) #sql2012
2012-04-19 14:42:36Data Quality クライアント:ナレッジベース管理、データ品質プロジェクト、管理。これら3つを紐解いてみていく。 #sql2012
2012-04-19 14:43:20ナレッジベースとは:データを理解し完全性を維持するための、データに関するナレッジのリポジトリ。特徴はサンプルデータからナレッジを自動抽出、作成したルールを使用してデータ分析することで内容更新向上できる、新しいナレッジベースを派生。参照データプロバイダ利用。 #sql2012
2012-04-19 14:45:04ナレッジベースはドメイン管理(複合ドメイン CD) と ポロシーの照合を包含している。 ←正しいデータとは?ドメインの値を一部修正、1つのドメインから別のドメインの値を修正。 // 2012/04/19 現在、日本語圏の WLID 使用時は参照データプロバイダなし
2012-04-19 14:46:55基本はドメイン1つずつ使用するが、複合的に使用することがある。それは、姓名が姓+名だったり、区別していたり。住所が住所1+住所2のように分離していたりするとき。そして名寄せをすることもあるときは、必ず最初にドメインルールを作成しておくこと。(各列がドメインに) #sql2012
2012-04-19 14:48:15ドメイン:品質を管理する列。複合ドメイン:複数の度メインを結合して評価する場合に作成。 (ex. ドメインルールは正規表現できるので、これまでの知識活用可能) #sql2012
2012-04-19 14:49:10ナレッジベースの作成:①作成なし:ドメインを1つずつ作成、サンプルデータを使用しドメイン作成、②既存のナレッジベース:DQSサーバに登録されているナレッジベースから派生、③DQSファイルからインポート:DQSサーバに登録されているナレッジベースをエクスポートし他のDQSサーバへ。
2012-04-19 14:51:05ドメインの作成:ドメイン名(必須)+データ型(Date, Decimal, Integer, String)+先頭の値を使用(シノニムのアたいではなくシノニムのグループの先頭値を出力)+文字列を正規化する+スペルチェックを有効化+後部ねらーのアルゴリズムを無効化する、とな。
2012-04-19 14:52:36// もう、これまでの SQL とは全く違う。さらに進化している。コアのところは 2005 くらいで完成しているので、付加機能が本気でビジネスシーンに浸透できるように進化。どうやって使うのか不明(非現実的)な機能は含まれていない。 それが SQL Server 2012 BI
2012-04-19 14:54:43データ品質プロジェクト(照合):重複データの確認、結果をエクスポート(照合結果、サバイバーシップの結果「ピボットレコード、最も完全で最長のレコード、最も安全なレコード、設定されたフィールドの数が最も多いレポート、最長のレコード、ソースフィールド内の語句が最も多いレコード」
2012-04-19 15:07:59// 従来の頻出度数でみるピボットはそのまま BI 標準に入ってるのが嬉しいかな?さらに意味を持つアルゴリズムでもって照合したいような気もするが、それは欲しがりすぎなのかな? BI を初めて導入する企業(OLAP 程度は経験あり)には良いのかな?
2012-04-19 15:09:21マスターデータを読み込んで、複数のデータソースからも。そして管理する。 Web で一元管理、Excel から属性管理も可能。 ①モデリング、②検証、③トランザクションコメント、④データ照合、⑤バージョン管理。 使用する重要なコンポーネントとして IIS も。 #sql2012
2012-04-19 15:13:34MDS で使用可能な Excelは Excel 2010 のみ。 ビューはサブスクリプションビューで参照変換し、別の DB へ流し込むことも出来る。ここでのポイントは MDS Add-in for Excel 2010, 改善された WebUI #sql2012
2012-04-19 15:14:53マスターデータ構造:モデル(マスターデータサービスの最上位のデータ編成単位)。エンティティ(マスターデータを含むテーブル、行がメンバー、列が属性)。属性(自由形式属性、ドメインベースの属性)。階層(明示的階層、派生階層) #sql2012
2012-04-19 15:20:55マスターデータマネージャー:再設計され高パフォーマンスを実現、Excel用マスターデータサービス・アドインのインストール、モデルやエンティティなどの定義、サブスクリプション・ビューの作成を行える。 #sql2012
2012-04-19 15:22:15実際モデルの作成をするとき: [マスターデータ マネージャー] → [システム管理] で表示されるモデルビューから、モデルの作成。 // ちなみに操作はすべて IE上。 #sql2012
2012-04-19 15:23:16モデルの構築 (Excel 用 MDS アドイン) の詳細はココ (IE での参照推奨、User-Agent を見て Chrome 等では参照できない) → http://t.co/xdD7faUR #sql2012
2012-04-19 15:25:16Microsoft® Excel® 用 Microsoft® SQL Server® 2012 マスター データ サービス アドイン → http://t.co/vjH4lNkk #sql2012
2012-04-19 15:29:13SQL 2012 「エクスプローラ」:マスターデータサービスに登録されているデータの確認、メンバーの追加が可能。 (この操作は IE から) #sql2012
2012-04-19 15:31:04MDS ツール機能の比較(マスターデータマネージャと Excel用アドイン)でタスク差があるので、ここはシステム企画時に留意しなくては。運用対象者のスキルにもよるでしょうし。 #sql2012
2012-04-19 15:32:07DQSクレンジング例を見ている。例では、メアドのクレンジングで、信頼度(81%, 100% など)を見ながら修正変更をエンドユーザが妥当判断可能となっている。 // SMTP エラーログともマッチングしてクレンジングするとか、そういうデモは、我々パートナーが担うんだろうな。
2012-04-19 15:48:59データ品質プロジェクトとしてクレンジングしたものを、Excel エクスポートも可能だが、メアドなど個人情報を扱うシーンでは持ち出さずに、Web画面上でアクセスおよびデータ操作履歴を記録し、常に保全ありきで行うシナリオが顧客提案の妥当性が高まると考える。 #sql2012
2012-04-19 15:51:09新しい Analysis Services として Business Intelligence Semantic Model :表形式と多次元モードを混在出来ない。インストール時に決める必要あり。 #sql2012
2012-04-19 15:58:35BI セマンティックモデルとは→すべてのユーザで使用できる単一のモデル。 シェアポが必要。(統合されたアナリシスサービスを使う) // これまではクライアント側のメモリで展開されていたものがシェアポサーバ上で展開するので、クライアントは非力で ok になる。 #sql2012
2012-04-19 16:00:47