[B! DB] bfojのブックマーク

インデックスとは何？MySQL(InnoDB)とPostgreSQLのインデックスの違いとは？調べてみました

はじめにこんにちは。calloc134 です。前のハッカソンイベントで、UUID をプライマリキーに利用するかどうかの議論がありました。結果的にはあまりパフォーマンス要件の高くないアプリケーションであったため、プライマリキーとして UUID を採用することにしたのですが、イベント終了後に気になったため、調査を行いました。今回は、この調査の結果を元に、MySQL と PostgreSQL におけるインデックスの内部構造の違いと、UUID をプライマリキーにする際の問題についてまとめてみたいと思います。インデックスの概要インデックスとはインデックスとは、データベースのテーブルに対して、アクセスを高速に行うための指標となる構造のことです。インデックスとは日本語で索引ですが、まさに辞書の索引のように、アクセスにおいての手助けをしてくれます。より具体的に解説すると、データベースにお

bfoj 2024/09/20

リンク

なぜDBから引くときに1000件ずつchunkingするのか、説明できますか - Lambdaカクテル

MySQLやPostgreSQLといったRDBMSからデータを引いてくるとき、扱うデータの規模によっては、1000件ずつLIMITをかけて順に引いていくということがある。以前slow queryが出たらよくやっていたのを思い出して、ふとこのあたりってどういう根拠があってやっているのだっけ、自分が知っている他に効能があったりするのかな、と思ってSlackに書き込んだところ、同僚の id:onk に教えていただいた。その内容に加えて軽く調べた内容をまとめてみる。 Web系の話です。みなさまの知見がありましたら教えてください。 TL;DR 刺さる*1から刺さったら困るからあたりまえ詳細もともとSlackに書いた原文は以下の通り(MySQL前提で書いているけどPostgresといった他のRDBMSにも適用できる話。): DB引くとき、Perl時代(？)によく1000件単位でchunkin

bfoj 2024/09/06

リンク

コサイン類似度とは？　新しい検索体験を支えるベクトルDBの基本技術を押さえる

生成AI（人工知能）のRAG（検索拡張生成）の導入など企業で使われ始めたベクトルデータベース。その特徴は検索にある。ベクトルデータベースとはどのようなデータベースで、なぜ「意味」で検索できるのか。ベクトルデータベースの基本技術についてデータベースの専門家が解説する。（編集部）ベクトルデータベースは自然言語処理などAI 技術の発展の中で生まれたデータベースであり、ベクトルの概念を用いてデータを管理するデータベースです。生成AIの登場とともに注目を集め、いまや多くの既存のDBサービスやその応用サービスにベクトルデータベースの機能が組み込まれています。以下で検索を例にベクトルデータベースの特徴や動作の仕組みを解説します。ベクトルによる「類似度」の判断ベクトルデータベースがストアするのは数値の羅列です。単語や文章などの「意味」「文脈」を数値化したデータであり、個々の数値を取り出して意味や違い

bfoj 2024/08/23

リンク

WebAssemblyとしてPostgreSQLをビルドした「PGlite」公開。Node.jsやブラウザ上でPostgreSQLを実行、DBの永続化も可能

PostgreSQLのソースコードをWebAssemblyバイナリとしてビルドしたことで、Node.jsなどのJavaScriptランタイムやWebブラウザ上で（ほぼ）フル機能のPostgreSQLを実行可能にした「PGlite」が公開されました。 PGliteはPostgreSQLのCのソースをEmscriptenでコンパイル PostgreSQLはオープンソースの代表的なリレーショナルデータベースであり、C言語で開発されています。 PGliteはこのPostgreSQLのCのソースコードのビルドにEmscriptenコンパイラを使用してWebAssemblyバイナリとして出力、JavaScript/TypeScriptからライブラリとして呼び出せるようにしたものです。ただしEmscriptenでコンパイルされたプログラムは新しいプロセスをフォークできないため、PGliteはPostg

bfoj 2024/08/19

ネイティブアプリ、専用クライアント、リッチクライアント時代のローカルDBを活用したアーキテクチャ/パターンを現代に復活させねば。あまりファットクライアントにしたくはない。

リンク

実践データベース設計

2024年度リクルートエンジニアコース新人研修の講義資料です

bfoj 2024/08/10

リンク

市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ

全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。エムスリーエンジニアリンググループ三浦(@[email protected]) [記事一覧 ]です。 Unit1（製薬プロモーション）およびUnit9（治験臨床研究支援）のエンジニアです。今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。ほしいのはこんな感じのデ

bfoj 2024/07/30

リンク

民事判決、原則全事件でデータベース化へ（共同通信） - Yahoo!ニュース

民事裁判の判決のデータベース化を議論する法務省の有識者検討会が29日、報告書を取りまとめた。民事訴訟と行政訴訟の判決全てが原則対象で、個人名などのプライバシー情報を伏せる。政府は2026年度中の運用開始を目指す。

bfoj 2024/07/29

DB
裁判

リンク

ダウンロード - 辞書検索 - 日本法令外国語訳DBシステム

翻訳についてこの「日本法令外国語訳データベースシステム」に掲載している法令翻訳は、正文ではなく、最終改正版でない法令も含まれています。法的効力を有するのは日本語の法令自体であり、翻訳はあくまでその理解を助けるための参考資料です。このページの利用に伴って発生した問題について、一切の責任を負いかねますので、法律上の問題に関しては、官報に掲載された日本語の法令を参照してください。なお、法令の翻訳整備は、「法令外国語訳推進のための基盤整備に関する関係省庁連絡会議」で決定される計画（翻訳整備計画）に基づいて行っています。「暫定版」について法令名に「（暫定版）」と表示されている翻訳は、ネイティブや法令翻訳専門家によるチェック及び修正前の翻訳であり、今後、修正される場合があります。引用、複製、転載についてこの「日本法令外国語訳データベースシステム」に掲載しているデータは、利用規約に従い、引

bfoj 2024/07/28

リンク

DB設計書の管理が楽になるDBML入門 – DBMLの書き方,dbdiagram.io, dbdocs の紹介 – | SIOS Tech. Lab

Table users { id integer [pk] first_name varchar last_name varchar em ail varchar [not null] password varchar [note: 'Hashed password'] created_at datetime [not null, default: `now()`] updated_at datetime Indexes { em ail [unique, name: "ui_users_em ail"] } Note: 'table: users' } 上記のテーブル定義を dbdiagram.io の左側のコード記載部分に張り付けると右側にプレビューが表示されます。以下は dbdiagram.io でのプレビューをした時の表示です。(Noteの箇所は説明のため加工しています) (1) Ta

bfoj 2024/05/22

リンク

ベクトルデータの容量を96%削減するBinary Embedding

導入こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。保管するベクトルデータの容量を96%ほど削減で

bfoj 2024/05/22

リンク

リレーショナル・データベースの世界

序文私の仕事は、DB エンジニアです。といっても別に望んでデータベースの世界へきたわけではなく、当初、私はこの分野が面白くありませんでした。「Web系は花形、データベースは日陰」という言葉も囁かれていました。今でも囁かれているかもしれません。ですが、しばらくデータベースを触っているうちに、私はこの世界にとても興味深いテーマが多くあることを知りました。なぜもっと早く気づかなかったのか、後悔することしきりです。もちろん、自分の不明が最大の原因ですが、この世界に足を踏み入れた当時、先生も、導きの書となる入門書もなかったことも事実です。今でこそバイブルと仰ぐ『プログラマのためのSQL 第2版』も新入社員には敷居が高すぎました (2015年2月追記：その後、自分で第4版を訳出できたのだから、人生は何があるか分からないものです)。そこで、です。このサイトの目的は、データベースの世界に足を踏み

bfoj 2024/04/14

DB
SQL

リンク

NewSQLはデータベースに革命を起こすか - NetflixにおけるCockroachDBのユースケース｜ミック

近年のデータベースの新潮流にNewSQLと呼ばれる一群のデータベース製品群の登場がある。そのコンセプトを一言でいうと、RDBとNoSQLのいいとこどりである。SQLインタフェースと強いデータ一貫性（ACID）というRDBの利点と水平方向のスケーラビリティというNoSQLの長所を兼ね備えた夢のようなデータベースである。下図に見られるように、RDBとNoSQLが鋭いトレードオフを発生させていたのに対して、NewSQLではそれが解消されているのが分かる。 RDB vs NoSQL vs NewSQL 本当にそのような夢の実現に成功しているか、というのはまだ議論が続いているが（クエリのスループットを出すためにレイテンシを犠牲にしているので本当にトレードオフを解消はしていない、などの問題が指摘されている）、商用でも利用可能な製品としてGoogle Spanner、TiDB、YugabyteDB、Coc

bfoj 2024/04/14

リンク

列指向、行指向データベースの特性を木構造を用いた集計クエリから理解する

この記事は毎週必ず記事がでるテックブログ "Loglass Tech Blog Sprint" の 34 週目の記事です！ 1 年間連続達成まで残り 19 週となりました！株式会社ログラスの龍島（りゅうしま）です。最近はもっぱら新生姜をガリにしてクラフトビールのつまみにする毎日を送っています。今日はデータベースとデータ構造の話です。この記事でやることデータ集計の高速化のため、多くの場合、列指向データベースが選ばれます。列指向が大量のデータ操作を効率的に処理できるためです。行指向のデータベースを利用している状況で、データ集計のパフォーマンス向上のため列指向データベースへの移行をすることはよくある例です。しかし、行指向データベースで有効なデータ構造やクエリが列指向で同様に優れているとは限りません。この記事では、行指向のPostgreSQLと列指向のBigQueryを使って、それぞれに

bfoj 2024/04/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

DBに関するbfojのブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス