VanaはユーザーにRedditデータをAIのトレーニングに貸し出すことを計画しています
生成AIブームにおいて、データは新しい資源です。なぜ自分自身のデータを売却できないのでしょうか?
ビッグテック企業からスタートアップまで、AIメーカーはデータブローカーから電子書籍、画像、動画、音声などをライセンス供与し、より能力の高い(および法的に強力な)AI製品をトレーニングしようとしています。Shutterstockは、モデルトレーニングのために何百万もの画像を提供するために、Meta、Google、Amazon、そしてAppleと取引しています。一方、OpenAIは、ニュースアーカイブをモデルのトレーニングに利用するために、いくつかのニュース機関と契約を結びました。
多くの場合、そのデータの個々の作成者や所有者は金銭のやり取りをする際に一文の利益も得ていません。Vanaというスタートアップはそれを変えようとしています。
MIT Media Labで新興マーケット向けのテクノロジーを構築することに焦点を当てた授業で出会ったAnna KazlauskasとArt Abalは、2021年に共同でVanaを設立しました。Vanaの前に、KazlauskasはMITでコンピュータサイエンスと経済学を学び、Y Combinatorから出たフィンテック自動化スタートアップIambiqを立ち上げるために最終的に去りました。教育やトレーニングで企業の弁護士であるAbalは、ボストンのコンサルティング会社であるThe Cadmus Groupのアソシエイトであり、その後、データアノテーション企業Appenでインパクトソーシングを率いました。
Vanaでは、KazlauskasとAbalは、チャット、音声録音、写真などのデータを「プール」し、それを生成AIモデルトレーニングに使用できるデータセットにするプラットフォームを構築することを目指しています。彼らはまた、よりパーソナライズされた体験を創造したいと考えており、例えば、ウェルネス目標に基づいた毎日のモチベーションボイスメールや、あなたのスタイルの好みを理解するアート生成アプリなどを、そのデータを使用して公開されたモデルを微調整することで実現したいと考えています。
Vanaのインフラストラクチャは、KazlauskasがTechCrunchに語ったように、「ユーザー所有のデータ財政」を実質的に作り出します。「これは、ユーザーが非預託的な方法で個人データを集約することによって実現されます... Vanaは、ユーザーにAIモデルを所有し、AIアプリケーション全体でデータを使用することを可能にします」と述べています。
ここに、Vanaが開発者に向けて自社のプラットフォームとAPIを売り込む方法が示されています:
Vana APIは、ユーザーのクロスプラットフォーム個人データを接続し、アプリケーションを個人化できるようにします。あなたのアプリケーションは、ユーザーの個別に設定されたAIモデルや基礎データに即座にアクセスして、オンボーディングを簡素化し、計算コストの問題を解決します。...我々は、ユーザーがInstagram、Facebook、Googleなどの閉じられたガーデンから自身の個人データをあなたのアプリケーションに持ち込んで、ユーザーがコンシューマーAIアプリケーションと初めてやり取りする際から素晴らしい個人化された体験を作成できるようにしたいと考えています。
Vanaでアカウントを作成することは非常に簡単です。メールを確認した後、デジタルアバター(例:セルフィー、自己紹介、音声録音)にデータを添付し、Vanaのプラットフォームとデータセットを使用して構築されたアプリを探索することができます。アプリの選択肢は、ChatGPTスタイルのチャットボットやインタラクティブなストーリーブックからHingeプロファイルジェネレーターまでさまざまです。
さて、あなたはおそらく尋ねるでしょう-個人データを匿名のスタートアップ、さらにはベンチャー支援を受けているスタートアップに提供する理由は、増加しているデータプライバシー意識やランサムウェア攻撃の時代にありますか?(VanaはこれまでにParadigm、Polychain Capitalなどから2000万ドルを調達しています) 利益を追求する企業は、実際には利用可能なデータを悪用したり誤用したりする可能性があるのでしょうか?
その質問に対して、KazlauskasはVanaのポイントがユーザーが「自分のデータを取り戻す」ことであると強調し、Vanaユーザーは自分のデータをVanaのサーバーに保存するのではなく、自己ホストするオプションを持ち、そのデータがどのようにアプリや開発者と共有されるかを制御します」と述べました。そして、月額料金(3.99ドルから)をユーザーに請求し、開発者に「データ取引」手数料(例:AIモデルトレーニング用のデータセットの転送)を課すことで、Vanaはユーザーや彼らが持ち込む個人データの豊富さを悪用しないようにインセンティブが働いていると主張しました。
「私たちは、データに貢献するユーザーによって所有および管理されるモデルを作成し、ユーザーがデータとモデルを任意のアプリケーションに持ち歩けるようにしたい」とKazlauskasは述べています。
まずRedditの投稿から始めて、Vanaはユーザーが自分のRedditデータをAIモデルトレーニングに貸し出すことを許可することを望んでいます。
この月、Vanaは、複数のユーザーのRedditデータ(カルマや投稿履歴を含む)をプールし、それらの結合されたデータがどのように使用されるかをユーザーが共同で決定できるReddit Data DAO(Digital Autonomous Organization)と呼ばれるプログラムを立ち上げました。Redditアカウントで参加し、自分のデータをRedditにリクエストし、それをDAOにアップロードした後、ユーザーは、共同データをAI会社に共有して共同で利益を得る決定をするためにDAOのメンバーたちと一緒に投票する権利を得ます。
私たちは数字を精査しました、r/datadaoは現在史上最大のデータDAOになっています:第1フェーズは、21,000のフルデータアップロードを伴う141,000人のRedditユーザーを受け入れました。
- r/datadao (@rdatadao) 2024年4月11日
Redditは最近、そのプラットフォーム上のデータを商業化する動きを見せています。Redditは以前、生成AIトレーニングの目的で投稿やコミュニティへのアクセスを制限していませんでした。しかし、IPOの前に方針を変更したRedditは、この政策変更以来、Googleなどの企業から2億3000万ドル以上のライセンス料を得ています。
「DAOは、大手プラットフォームからデータを奪うことを目指しています」とKazlauskasは述べています。「これは初めてのことであり、AIモデルのトレーニングに使用されるためにユーザー所有のデータをデータセットにプールするための私たちの取り組みの一部です」。
Redditは(公式には)Vanaと共同していないため、RedditはDAOについて満足していません。
Redditは、DAOについて議論するためのVanaのサブレディットを禁止しました。そして、Redditの広報担当者は、GDPRやカリフォルニア消費者プライバシー法などのデータプライバシー規制に準拠するように設計されたデータエクスポートシステムを「悪用」するとVanaを非難しました。
「私たちのデータ取り決めにより、Redditは非公開の個人データを商業企業と共有しておらず、Redditユーザーが私たちからデータエクスポートをリクエストした場合、彼らは該当する法律に準拠して、私たちから非公開の個人データを受け取ります。 Redditと厳選された組織との直接的なパートナーシップ、明確な条項と責任構造が重要であり、これらのパートナーシップと契約がデータの誤用や乱用を防ぎます」とRedditの広報担当者はTechCrunchに語りました。
しかし、Redditが懸念する理由は実際にあるのでしょうか?
Kazlauskasは、DAOが成長し、Redditがデータに対して顧客に請求できる額に影響を与える可能性があると見込んでいます。ただし、その現実化には長い道のりがあり、それが実現するかどうかは未だ分からない状況です。DAOには141,000人のメンバーしかおらず、Redditの7300万人のユーザーベースのごく一部です。そして、そのメンバーの中にはボットや重複アカウントも含まれる可能性があります。
次に、DAOがデータ購入者から受け取る支払いを公正に配分する方法です。
現在、DAOはRedditのカルマに対応する「トークン」-暗号通貨-をユーザーに授与しています。しかし、カルマは、特にそれを獲得する機会が少ない小さなRedditコミュニティにおいて、データセットへの質の高い貢献を示すのに最適な尺度とは言えないかもしれません。
Kazlauskasは、DAOのメンバーがクロスプラットフォームやデモグラフィックデータを共有する選択をすることで、DAOをさらに価値あるものにし、サインアップの動機づけを高めることができる可能性があると提案しています。しかし、それはユーザーにより多くの機密性の高いデータを適切に扱うようVanaにさらに信頼を置くことを要求します。
個人的には、VanaのDAOが臨界量に達することはないと考えています。立ちはだかる障害はあまりにも多いためです。しかし、生成AIモデルのトレーニングに使用されるデータを管理するために創出技術などのスタートアップが取り組んでいる一方で、Getty Images、Shutterstock、Adobeなどのベンダーは引き続き補償スキームを試行しています。しかし、まだ誰もがコードを解読しているわけではありません。それを解読できるのでしょうか?生成AI業界の競争の