4月16日(月)に第7回ビックデータ研究会を開催しました。今回は4名の方に参加していただきました。残念ながら就活中のM2の学生さんは参加できませんでしたが、次回からは新たに新M1の方にご参加いただけるように予定しています。また初参加の方が1名いらっしゃいました。4名ですが非常に濃いディスカッションができました。ご参加いただいた皆様、ありがとうございました。
今回のテーマは私、井上の「検索エンジンの評価方法」についてです。
最近は「データプロダクト」と言って、「データ」と「プロダクト」が融合したサービスが主流になっています。Amazon、Facebook、Googleなどは、常に大規模なフィードバックループが働いています。つまりユーザーの行動がデータプロダクトを変化させ、データプロダクトがユーザーの行動を変化させるのです。
私の会社ではECサイト向けの検索エンジンを提供していますが、まさに「データプロダクト」を作っています。お客様がキーワードを入力して検索し、検索結果をクリックして、商品を閲覧し、カートにいれて、チェックアウトするという流れを全てログに落とします。そのログからデータを解析することによって常に検索結果を変えています。変更された検索結果に対して、お客様の行動が微妙に変わるので、それを元にまた検索結果を変えていき、、、ということを常に行っています。これにより、単純な検索エンジンよりも、大幅に売上の上がる検索結果を提供することが可能になります。
それでは「良い検索」とは何でしょうか?一般的にはCoverage(網羅性)、Freshness(即時性)、Relevance(関連性)が高い検索が良い検索とされています。
今回は検索エンジンの評価方法ということで、以下の三つの評価方法をご紹介しました。
・相関性テスト
・バケットテスト
・行動履歴テスト
昨日はこのテーマではなしたら二時間かかりました。どの評価方法も、曖昧なものではなく、ある特定の尺度で「数値」で良し悪しを出しています。詳しく書くと膨大な分量になってしまいますので、詳細は割愛します。
それぞれ微妙に違うものを測定しているので、検索エンジンとして正式に採用するためには3つともテストを行ってからリリースしています。
勉強会の後はいつもの通りみんなで食事に行きました。今回は新宿通り沿いの中華「皇記」でした。今回も中華になってしまいました。四谷のまわりにはなぜか安くてうまい中華が多いです。
今後もビッグデータを通じて同窓生の絆を深めていきたいです。
次回は
7/23(月) 19:00 ソフィアンズ・クラブ (6号館6階)A会議室
です。
ご興味のあるかたはぜひご連絡下さい!
井上俊一(1993年 電気電子卒)