Apache Spark a unified analytics engine for big data processing. |
出典: ビッグデータ 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2021年12月6日 (月) 15:30 UTC、URL: https://ja.wikipedia.org/ ビッグデータ(英: big data)とは、組織が非常に大きなデータセットとそれらが保存されている施設を作成、操作、および管理できるようにするすべての技術を指す。一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。組織が非常に大きなデータセットを作成、操作、および管理できるようにするすべてのものと、これらが格納されている機能を指す。ビッグデータを取り巻く課題の範囲は、情報の収集、取捨選択、保管、検索、共有、転送、解析、可視化等多岐にわたる。これら課題を克服しビッグデータの傾向をつかむことで「ビジネスに使える発見、疾病予防、犯罪防止、リアルタイムの道路交通状況判断」に繋がる可能性がある。 [概要] データ量の上限 コンピュータの性能に上限があるように、我々が取り扱えるデータ量の大きさにも上限がある。2012年現在、現実的な時間内に処理することが可能なデータサイズの上限は、エクサバイトのオーダーとされる。換言すると、我々は事実上これ以上のデータは扱えないという制限を抱えていると言える。科学者はしばしばこの制限に遭遇する。その分野にはゲノミクス、気象学、コネクトミクス、複雑な物理シミュレーション、生物調査および環境調査等がある。インターネット検索、金融、ビジネスインフォマティクスの分野でも、データ量の上限がビジネスや研究活動に制限を与える。 ・・・ |
Apache Spark a unified analytics engine for large-scale data processing. |
出典: Apache Hadoop 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2018年12月27日 (木) 07:09 UTC、URL: https://ja.wikipedia.org/ Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。 [アーキテクチャ] Hadoopは、以下の4つのモジュールによって構成されている。 ● Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 ● Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 ● Hadoop YARN: Hadoopクラスタのリソース管理や、Hadoop上で動作するアプリケーションのスケジューリングを担当する。 ● Hadoop MapReduce: Hadoop上で動作するMapReduceフレームワークの実装。・・・ |
出典: Apache Spark 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2018年5月24日 (木) 06:26 UTC、URL: https://ja.wikipedia.org/ Apache Sparkはオープンソースのクラスタコンピューティングフレームワークである。カリフォルニア大学バークレー校のAMPLabで開発されたコードが、管理元のApacheソフトウェア財団に寄贈された。Sparkのインタフェースを使うと、暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。 [概要] フォールトトレラントシステムで管理され、複数マシンのクラスタに分散されたデータ項目の読み取り専用多重集合であるRDD(resilient distributed dataset)と呼ばれるデータ構造を中心とするアプリケーションプログラミングインターフェイスを備えている。 ・・・ Spark Core プロジェクト全体の基盤であり、RDD抽象化を中心とするアプリケーションプログラミングインターフェイス(Java、Python、Scala、R)を介して公開される分散タスクディスパッチ、スケジューリング、および基本I/O機能を実装している。(Java APIは他のJVM言語でも使用でき、Juliaなどの他の非JVM言語でも使用できる。)「ドライバ」プログラムは、関数をSparkに渡すことによってRDD上でmap、 filter 、reduceなどの並列操作を呼び出し、関数の実行をクラスタ上で並列にスケジュールする。 ・・・ |
同義語・類義語 | 関連語・その他 |
---|---|
Apache Hadoop | Apache Spark |
əpɑ́ʃ hæ̀dú:p | アパッチ スパーク |
Apache Hadoop 3.0 | big data |
アゥパチィー ハェドュープ | ビッグ・データ |
アゥパチィー・ハェドュープ | ビッグ・データ解析 |
アゥパ́チィー・ハェ̀ドュ́ープ | ビッグ・データ処理ツール |
アパッチ ハドゥープ | ・ |
アパッチ・ハドゥープ | EB |
アパッ́チ・ハ̀ドゥ́ープ | exabyte |
Hadoop | エクサバイト |
hæ̀dú:p | 1PBの1000倍 |
ハェドュープ | 1000PB |
ハェ̀ドュ́ープ | 1000ペタバイト |
ハドゥープ | 10^18バイト |
ハ̀ドゥ́ープ | 100万TB |
・ | ・ |
Hadoop Common | |
Hadoop Distributed File System | |
Hadoop MapReduce | |
HBase | |
HDFS | |
MapReduce | |
更新日:2023年11月24日 |
同義語・類義語 | 関連語・その他 |
---|---|
Apache Spark | Hadoop |
əpɑ́ʃ spɑ́rk | hæ̀dú:p |
アゥパチィー スパァーク | ハェドュープ |
アゥパチィー・スパァーク | ハェ̀ドュ́ープ |
アゥパ́チィー・スパァ́ーク | ハドゥープ |
アパッチ スパーク | ハ̀ドゥ́ープ |
アパッチ・スパーク | Apache Hadoop |
アパッ́チ・スパ́ーク | ・ |
Spark | Matei Zaharia |
spɑ́rk | ビッグデータ解析 |
スパァーク | ・ |
スパァ́ーク | unified |
スパーク | júːnifàid |
スパ́ーク | ユニファイドゥ |
https://spark.apache.org/ | ユ́ニファ̀イドゥ |
ユニファイド | |
ユ́ニファ̀イド | |
[形容詞] | |
一つにした | |
統合された | |
とうごうされた | |
統一された | |
・ | |
analytics | |
æ̀nəlítiks | |
アェナゥリィデクス | |
アェ̀ナゥリィ́デクス | |
アナリティクス | |
ア̀ナリ́ティクス | |
[名詞] | |
分析論 | |
分析性 | |
分析学 | |
解析 | |
かいせき | |
更新日:2024年 4月12日 |