InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
データメッシュ組織の構築
データメッシュ組織は、プロデューサー、コンシューマー、そしてプラットフォームで構成される。Matthias Patzak氏によると、プラットフォームチームの使命は、プロデューサーライフとコンシューマーライフをシンプルで効率的かつストレスフリーにすることだという。データは組織全体で、検出可能で理解しやすく、信頼でき、安全かつ簡単に共有できなければならない。
-
Uberのバッチ・データ・プラットフォームの拡張:データ・メッシュの原則によるクラウドへの道のり
数ヶ月前、UberはGoogle Cloud Platform(GCP)上でバッチデータ分析と機械学習プラットフォームのクラウドへの移行を開始した。最近のエンジニアリング・ブログへの投稿で、Uberは重要なデータ・メッシュの原則を取り入れたバッチ・データのクラウド移行に関する追加情報を提供した。
-
UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり
Uber社は、公式エンジニアリング・ブログへの最近の投稿で、バッチデータ分析と機械学習(ML)トレーニング・スタックをGoogle Cloud Platform(GCP)に移行する戦略を明らかにした。Uberは、世界最大級のHadoopを導入しており、2つの地域にある数万台のサーバーで1エクサバイト以上のデータを管理している。オープンソースのデータエコシステム、特にHadoopは、データプラットフォームの礎となっている。
-
Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約
Uber社は、DynamoDBとblobストレージから新しい長期的なソリューション、LedgerStoreと名付けられた専用のデータストアにすべての支払いトランザクションデータを移行した。同社はコスト削減を模索しており、以前はホットデータ(12週間前のもの)を保存するためのDynamoDBの使用を削減していた。この移行により、大幅なコスト削減とストレージアーキテクチャの簡素化が実現した。
-
データ処理ワークロードと柔軟なストレージを実現するAmazon ECSとAmazon EBSの統合
AWSは最近、Amazon Elastic Container Service (AmazonECS) がAmazon Elastic Block Store (AmazonEBS) との統合をサポートすることを発表した。
-
Netflix、MaestroとApache Icebergを使ったインクリメンタル処理ソリューションを構築
Netflixは、データ・プラットフォームにおけるインクリメンタル処理のための新しいソリューションを構築した。インクリメンタルアプローチは、完全なデータセットの処理を避けるため、コンピューティングリソースのコストと実行時間を大幅に削減する。同社は、Maestro workflow engineとApache Icebergを使用して、データの鮮度と精度を向上させ、マネージドバックフィル機能を提供する予定である。
-
Discord、CassandraからScyllaDBへ何兆ものメッセージを移行
Discordは、何兆ものメッセージレコードを Apache Cassandraから ScyllaDBに移行。最大のクラスタのサイズをのCassandraノードの177からScyllaDBノードの72まで縮小し、読み取りと書き込みのテールレイテンシを削減した。この移行により、データベースの安定性とパフォーマンスが向上したため、新しい製品のユースケースが生まれた。
-
Uber、Compressed Log Processor (CLP)を使用してログ処理のコストを169分の1に削減
Uberは先日、Compressed Log Processor(CLP)を使ってログ処理のコストを劇的に削減した方法を公開した。 CLPは、テキストログを可逆圧縮し、解凍せずに検索することができるツールである。 Uberのログデータに対して169倍の圧縮率を達成し、ストレージ、メモリ、ディスク/ネットワーク帯域幅を節約することができた。
-
Amazon Elastic MapReduceがサーバーレス製品として一般向け提供へ
AWSは最近、Amazon Elastic MapReduce(EMR)サーバレスが一般向け提供(GA)となったことを発表した。この製品はサーバレスデプロイメントの選択肢の1つである。これは、クラスタやサーバを設定、管理、スケーリングすることなく、Apache SparkやHiveなどのオープンソースフレームワークを使ってビッグデータ分析アプリケーションを実行する顧客を対象としたものである。
-
Googleは最新のC2DマシンタイプとN2Dマシ��タイプでコンフィデンシャルコンピューティングを提供
最新のAMD EPYCテクノロジーを採用するために、汎用(N2D)仮想マシンとコンピューティング最適化(C2D)仮想マシンをアップグレードしてから数か月後、Googleは現在、これらのマシンタイプ上でコンフィデンシャルコンピューティングをプレビュー版として利用できるようにした。
-
PipelineDPによりGoogleの差分プライバシーライブラリをPythonで提供
GoogleとOpenMinedは新たなオープンソースライブラリのPipelineDPをリリースした。これにより、研究者や開発者がバッチ処理システムを使って大規模なデータセットに差分プライベート集計を適用できるようになる。
-
Googleがコスト最適化のためにCloud Bigtableの自動スケーリングを導入
Cloud Bigtableは、Google Cloud Platform(GCP)上の大規模な運用および分析処理向けの、フルマネージドでスケーラブルなNoSQLデータベースサービスである。そして最近、このパブリッククラウドプロバイダーは、Bigtable Autoscalingの一般向け提供を発表した。これにより、アプリケーションの需要の変化に応じて、容量が自動的に追加、削除され、コストの最適化ができるようになる。
-
Amazon OpenSearchに履歴データの異常検出を追加
Amazon OpenSearch は先ごろ履歴データの異常検出サポートを導入した。この機械学習ベースの機能は、OpenSearch データの傾向、パターン、季節性を特定するのに役立つ。
-
Google Analyticsに対するオーストリアDPAの判決がEUベースのクラウドサービスへの道を開く
最近の判決で、オーストリアのデータ規制当局は、EU GDPR規制に基づいてGoogleアナリティクスの使用を違法を言い渡した。判決は非常に具体的に議論され、言葉で表現されている。一方で、それが意味するところはこの特定のケースの範囲をはるかに超えている。
-
Microsoft、分散マシンラーニングライブラリSynapseMLをオープンソース公開
Microsoftは、分散マシンラーニング(ML)パイプラインの構築と管理を行うオープンソースライブラリのSynapseMLをリリースすると発表した。SyanpseMLはApache Spark上で動作し、複数のデータストアを対象に言語非依存のAPI抽象化を提供するもので、Open Neural Network Exchange(ONNX)など既存のMLテクノロジに統合される。