知らないと怖い「データ」のこと（前編）

こんにちは、Erinaです。

AI (Artificial Intelligence＝人工知能)、シンギュラリティ、データサイエンス・・・なんて言葉を、ここ数年は日本語でもよく聞くようになりました。

「将来、AIに奪われない仕事」とか「ロボットと競争しないために」なんていう危機感を持って勉強したりする人もいるかもしれませんが、じゃあ実際に、これらを管理しているものは何なのか？ということを知らなければならないと思います。

私がデータ分析の仕事をしていたのは、今から10年以上も前のことで、今で言う、「データサイエンティスト」という仕事でした。

実際にこの仕事をしてみて、「こういう仕事もあるのか！」と驚いたことばかりで、データのこともそうでしたが、「世の中のほとんどの人が知らないこと」を勉強する3年間になりました。

やはりこの時間があったことで、舞台裏で何が起こっているかを知ることができたし、この情報化社会でどんなことに気をつけるべきか、子供たちに何を教えるべきかを考えることになった気がします。

AI（人工知能）、ロボット、シンギュラリティ・・・とあらゆる「ようわからんもの」は「データ」に基づいています。

そもそもサイエンスの一般的な流れとしては

データという「過去」→ パターン化（モデリング）→ 「未来」を予測

というのが基本的なコンセプトです。

このパターン化のときに数式を使われることが多いので、数学科出身者がこの手の進路に進むことが多いのです。（というかそもそも数学自体が未来を予測する学問ですね）

未来を予測と聞くと難しく聞こえますが、実際に応用されているものを考えると、わかりやすいです。

例：PandoraやApple Musicに代表されるオンラインラジオは、リスナーのこれまでの再生曲（データ）をもとに、同じジャンルや似たような歌手の曲を選曲します。

これはリスナーが「あの歌手のあの曲を聞きたい」と指定しなくても、各曲につけられたタグをもとにモデルが選んでいるからです。

例えば、私が若い頃に聞いていた Mr.Children（ミスチル）の「名もなき詩」を聞いて「いいね」をつけると、この曲についているであろうタグ（日本人男性アーティスト、90年代、ロック、ポップス・・・等）の曲がピックアップされる。

これらのタグがついている曲の中から、スピッツの「チェリー」が引っかかって、次に演奏される。

私は、「おぉ！懐かしい！」と思ってまたそれを聞く・・・。

という流れのわけです。

これはつまり、

というタグ（コーディングではハッシュというコード）を選べ、というコマンドがユーザー（私）からあったからであり、これは私の好きな音楽の「データ」として記録されます。

考えてみてください。

20年ほど前は、自分でCDを選び、プレイヤーに入れて再生ボタンを押していました。この時は、自分がどんな音楽を聴いているかという情報を（音楽自体が漏れない限り）他人とシェアすることがありませんでした。

そこから、「いつでもどこでもいろんな音楽を聴ける」というキャッチコピーとともにこのオンラインラジオという技術は発達しました。

しかし裏舞台で何が起こっているかというと、リスナーたちのデータが集められ、この人はこういう音楽が好き、だけどこのアーティストは好きじゃない、という膨大なデータが残っていくわけです。

まぁこれがエンターテインメントならそれほど危なくはないのだけれど、もっと私たちのプライバシーや生活に密着しているデータは他にもあります。

大きなところで言えば、移民局。アメリカ在住の日本人は、おそらく100％がアメリカの移民局のデータベースに入っています。SSN（ソーシャルセキュリティナンバー）もそうだし、運転免許を持っていればDMVのデータベースにも入っています。

スマホにはGPSがつけられて、個人の動向をリアルタイムで把握することができるし、写真はデジタルだから撮影場所のデータが残る。

クレジットカードが普及したおかげで購買パターンも全てデータに残る。

このアメリカで、「どのデータベースにも情報のない人間」というのはおそらくほとんどいないはずです。

これらのツールは便利な反面、機能の管理が間違った人間の手に入ってしまった場合、とても危険であるというリスクもあります。

次回の後編では、データとの付き合い方や意識について書いてみたいと思います。

投稿者: Erina