適切なデータセットを探すのは、特に機械学習 (ML) やデータ サイエンス プロジェクトで必要な場合には困難を伴う場合があります。無料のデータセットの究極のリストを提供することで、研究の労力を軽減します。
データセットは単なるデータのコレクションです。それは、金融、地域社会の健康、株式市場のデータ、銀行取引のデータ、地理的データ、素粒子科学の研究データ、電子商取引サイト上の製品の評価などです。
データセットには、科学的調査標準を通じて収集されたデータが含まれており、さらなる視覚化、抽出、予測などに重要です。データはデジタル宇宙における原油に相当するため、データセットは商用化され、希少になりつつあります。
読み続けて、データセットの基本を理解してください。また、機械学習 (ML) またはデータ サイエンス プロジェクトに真に無料で使用できるオープン ソース データセットもいくつか見つかります。
データセットとは何ですか?
データセットは、構造化され整理されたコンテナー内のデータのコレクションです。通常、調査員はデータセットを固有の団体 (たとえば、 世界銀行オープンデータ) に関連付けます。
繰り返しになりますが、データ収集者は、米国国勢調査局が発行する米国の 2020 年国勢調査データなどのトピックに特化したデータセットを保管しています。
地球規模および地域の問題に関する多くのデータセットが見つかります。ほとんどのデータセットには、相互に関連するデータ ポイントが含まれています。たとえば、国の人口と、肥満がこの人口のさまざまな階級にどのように関係するかなどです。
データ サイエンティストは、プラスチック使用量データの分析によるプラスチック廃棄物の削減、賃金データの分析による労働力問題の解決、人工知能 (AI) のトレーニングなどの貴重な結論に達するために、ビッグ データ ツールを使用してそのようなデータセットをクリーニング、再構築、処理する必要がある場合があります。の上。
データセットの種類
データセットのソースに応じて、データセットはパブリックまたはプライベートになります。公開データセットはすべての人に公開されており、研究開発に大きく貢献します。
繰り返しになりますが、データセットは、そこに含まれる情報に応じて次のタイプになります。
- 多変量: このようなデータには複数の変数が含まれます。
- カテゴリカル: さまざまなカテゴリの人々が描かれています。
- 数値: このようなデータセットは、データを年齢、身長などの数値で測定します。
- 相関: このタイプでは、データ ポイントが相互に関連しています。
- ファイルベース: ここでは、データセットはファイルに保存されます。
- 二変量: 2 つの変数とそれらの間の関係を含むデータセット。
- Web データセット: 1 つまたは複数の同様のインターネット ポータルから収集されたデータ。
- データベース: このようなデータセットは、データをテーブル、列、行に保存します。
データ サイエンス プロジェクト用のオープンソース データセット
無料のデータセットは、データ サイエンスのキャリアへの情熱を高める原動力となります。データ サイエンスのキャリアの初期段階にある場合は、自信やポートフォリオ構築のために個人的な非営利プロジェクトに取り組みたいと思うかもしれないからです。
まず、現実世界のデータセットの問題にツールやテクニックを適用することで、新しく学んだスキルを簡単にテストできます。
たとえば、がん研究データ、新型コロナウイルス感染症 (Covid-19) データ、FBI の犯罪記録データ、 CERN の粒子分析データなど、自由に利用できるデータがあります。これらのデータを使用して、重要な社会的、財政的、健康上の問題に答えるためのデータ サイエンス モデルを構築できます。 。
第二に、そのようなプロジェクトはあなたのキャリアのポートフォリオを強化するものとして機能します。実用的な洞察を提供できる成功したデータ分析モデルを構築できれば、ポートフォリオ Web サイトを作成して、それらのモデルをオンラインで紹介できます。雇用主は目的宣言よりもプロジェクトを好みます。
機械学習プロジェクト用の無料データセット
データ サイエンスの専門家と同様に、ML の専門家も自分のスキルを調べるために自己管理プロジェクトに取り組む必要があります。プロジェクトが成功すると、ML プロジェクトのオンラインまたはオフラインのポートフォリオにとって理想的なコンポーネントにもなります。
したがって、データ サイエンスと ML の成長は構造化されたデータセットに依存していることが理解できるようになりました。このようなデータセットが商用化されすぎると、データサイエンス分野の研究開発は完全に企業中心になってしまうでしょう。
データ サイエンス ML 研究をすべての人に公開し続けるために、次の機関、機関、 プラットフォームが無料のデータ セットを提供しています 。
Data.gov
米国政府によって収集および処理されたすべてのオープンデータが見つかります。 Data.gov 内。このプラットフォームは、調査の実施、データ視覚化の設計、モバイル/Web アプリの開発などのためのリソースとツールも提供します。
その注目すべきデータセットには、持続可能な土地利用データ、地方の住宅データ、内陸の電子航海図などが含まれます。
オープンデータセット: Kaggle
Kaggle は、 データ サイエンス プロジェクト向けに大量の公開データとコンピューター コードを提供しています。生データの場合はデータセット、プログラミング コードの場合はコードを選択できます。 Kaggle のトレンド データセットは、AMEX データ、Simpsons Viewership、Chatbot トレーニング データなどです。
セグメント データセット: YouTube 8-M
YouTube 8-M の セグメント データセット では、人間の監査人によって検証されたセグメント アノテーションが提供されます。同じポータルから YouTube-8M データセットにアクセスすることもできます。このデータセットには、610 万のビデオ ID、35 万時間のビデオ、26 億のオーディオ/ビジュアル機能、3,863 クラスのビデオ、およびビデオごとに平均 3.0 のラベルが含まれています。
AWS 上のオープンデータのレジストリ
ROD on AWS は、 データ サイエンティストが AWS リソースでホストされているデータセットを共有および発見するのに役立ちます。ここで見つけることができる興味深いデータセットには、The Cancer Genome Atlas、Foldingathome COVID-19 Datasets、Common Crawl などがあります。
機械学習リポジトリ: UCI
UCI Machine Learning Repository は 現在、データ サイエンティストや ML エンジニアが AI モデルをトレーニングするのに適した 622 のデータセットを維持しています。また、データベースを調査するための検索可能なインターフェイスもあります。人気のあるアトラクションは、加速度計データセット、同期マシン データセット、Wikipedia Math Essentials、Turkish Headlines データセットなどです。
BigQuery 公開データセット: Google Cloud
多くの公開データセットは BigQuery に保存されています。 Google は、Google Cloud Public Dataset Program を通じてデータセットに無料でアクセスできるようにしています。ただし、無料のクエリには月あたり 1 TB の制限があります。標準 SQL クエリとレガシー SQL クエリを実行できます。
素晴らしい公開データセット: GitHub
Awesome Public Datasets は 、トピック中心の公開データを含むオープンソース データセットです。さまざまなブログ、回答、ユーザー フィードバックから収集および分類され、物理学、スポーツ、ソフトウェア、自然言語、機械学習に関する無料および有料のデータ セットが結合されています。
世界銀行データ

世界銀行オープンデータは、 世界の開発データに無料でアクセスできるプラットフォームです。また、フォーマット済みの表やレポートなど、その他の貴重なリソースも提供します。国または指標ごとに簡単に参照して、必要なデータセットを取得できます。
FiveThirtyEight: データ
FiveThirtyEight は 、世論調査分析、政治、経済、スポーツを扱うアメリカのウェブサイトです。そのプラットフォームのデータセットを通じて、これらの世論調査や予測にアクセスできます。ワンクリックでデータセットをダウンロードできます。
イメージネット
ImageNet は、世界中の研究者が非営利プロジェクト用にオープン ソース データセットを取得できる画像データベースです。ここでは、画像は WordNet 階層に基づいて編成されています。このプロジェクトは、高度なレベルの深層学習研究において重要な役割を果たしています。
データセット アーカイブ: ユニセフ データ
データセット アーカイブ を使用すると、ユニセフが世界中で収集したデータセットを入手できます。移住、避難、食生活、つながり、教育、健康、学習、死亡率、暴力、児童発達、児童婚、児童労働、およびさまざまな統計に関するデータはここから入手できます。
オープンデータを探す: 政府。英国の
プロジェクトで地方自治体や英国の中央政府が公開したデータが必要な場合は、 Find Open Data をチェックしてみるとよいでしょう。政府支出、ビジネス、健康、教育、防衛などのデータセットをカバーしています。
データ: アメリカ合衆国国勢調査局
関連するプロジェクトに米国国勢調査データが必要ですか? USCB Data からサポートを受けることができます。ここでは、データを視覚化し、データ ツールを使用しながら、2020 年の国勢調査データ、表、地図、データ プロファイルを探索できます。
データと統計: CDC
米国連邦政府機関 疾病予防管理センター も、このポータルのデータと統計にアクセスするための無料のデータ セットを一般に提供しています。データセットのトピックは、環境衛生、慢性疾患、出生と出生率、死亡と死亡率、平均余命、傷害と暴力、リプロダクティブヘルス、国家通知疾患などです。
世界銀行データカタログ

データ カタログは、 世界銀行の開発関連データに簡単にアクセスできるようにする無料のデータ セットを収集します。好みの情報を簡単に見つけてダウンロードできるため、さまざまなプロジェクトで使用するのが簡単です。これには、世界銀行のマイクロデータ、金融、エネルギー プラットフォームをカバーする 5,000 を超えるデータ セットが含まれています。
NASA 宇宙科学データ
NASA は、 宇宙科学データ 調整アーカイブ上のアーカイブ データへのアクセスを提供しています。このプラットフォームは、一般の人々、特に教育や宇宙研究に従事する人々にとって非常に役立ちます。 550 の宇宙科学に関する情報を含む 400 TB のデジタル データが含まれています。
データを取得する: Airbnb の内部

Airbnb はホームステイやバケーション レンタルの世界的に有名なオンライン マーケットプレイスです。また、 「Get the Data」 から世界中のさまざまな都市に関するデータ収集も提供します。市内を閲覧してデータをすばやく取得できます。さらに、このポータルで必要なデータをリクエストしたり、データの前提条件を読み取ることができます。
ウェブデータ: Amazon レビュー
市場調査や製品レビューに興味がある場合は 、Snap Web Data が提供するデータセットを使用してください。 1995 年 6 月から 2013 年 3 月までの Amazon の 3,400 万件を超えるユーザー レビューが含まれています。データセットには、プレーン テキスト、製品情報、ユーザー名、評価、レビューが含まれています。
IMFデータ

IMF データ ポータルは、あらゆる種類の経済および金融データに役立ちます。 IMF の財務データ、外部部門の統計、主力出版物、ミクロ経済学のデータなど、どのようなデータを探している場合でも、ここで見つけることができます。さらに、フィルターを使用して国ごとのデータを取得できます。
Google ブックス Ngram
品詞や言語に取り組んでいる場合は、 Google Books Ngrams が 非常に役立ちます。このオープンソース データセットは、歴史全体または特定の期間における特定の単語やフレーズの使用に関するアイデアを提供します。このデータセットのソースは、Google によってインデックス付けされたデジタル ドキュメントです。
市場データ: フィナンシャル・タイムズ

信頼性の高い正確な世界および地域の株式市場データを入手したい場合は、フィナンシャル タイムズ紙の Markets Data が役に立ちます。これにより、アメリカ、アジア太平洋、ヨーロッパ、アフリカ、および世界市場の市場データを操作できます。
地球データ: NASA
NASA は、地球を理解し、それを使ったプロジェクトを行うのに役立つ Earth Data プログラムを通じて、科学データへの完全かつオープンなアクセスを提供しています。大気、生物圏、雪氷圏、人間の次元、地表面、海洋、固体地球、太陽と地球の相互作用、陸域水圏に関する無料のデータ セットを見つけることができます。
データセット検索: Google
プロジェクトをサポートするデータセットを探している学生、研究者、またはデータ サイエンティストは、 データセット検索 ポータルから支援を受けることができます。キーワード検索を通じて、Web 上のさまざまなレポートでホストされているデータセットを検出できるため、データ セットの検索エンジンと呼ぶことができます。
オープンデータ: CERN
欧州の研究機関 CERN には、CERN の研究で生成されたデータにアクセスするために使用できる オープン データ ポータルがあります。このデータ セット ポータルには、素粒子物理学に関連する 2 ペタバイトのデータが含まれています。さらに、データ分析に必要なアプリケーションとドキュメントが付属しています。
犯罪データ エクスプローラー: FBI

Crime Data Explorer (CDE) は、犯罪、非犯罪、法執行機関のデータ共有へのアクセスを容易にすることを目的とした FBI のオープンソース データ セットです。このプラットフォームでは、視覚化とカテゴリ フィルタリングを通じて必要なデータを発見できるほか、CSV 形式でデータをダウンロードできます。
最後の言葉
ここまで、高品質のデータセットの完全なリストを調べてきました。この記事では、物理科学、医療記録、宇宙研究、犯罪記録、製品評価など、さまざまな分野のデータが紹介されています。
取り組んでいるデータ サイエンスまたは機械学習プロジェクトに応じて、選択できます。ほぼすべてのデータセットには、プロジェクトに役立つ適切な手順も含まれています。
データ サイエンスと ML を学ぶために、これらのリソースにも興味があるかもしれません。