タグ

statisticsに関するkeloinwellのブックマーク (97)

  • 『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ

    ベイズデータ解析(第3版) 森北出版Amazon 先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが見事な一冊です。菅澤さんといえば名著『標準ベイズ統計学』の翻訳も手掛けておられますが、先日直にお話を伺った際は「書の方が標準ベイズよりもさらに理論的な内容に踏み込んでしっかり書かれていて良い」とのコメントでした。 ということで、早速書をレビューしていこうと思います。ただ、何分にも全体で888ページもある大著であり、ぶっちゃけ斜め読みするだけでも1ヶ月近くかかるという有様でしたので、内容の理解が不完全であったり誤ったりしている可能性があります。それらの不備を見つけられた際は、何なりとご指摘くだされば幸いです。 書の概要 第I部 ベイ

    『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ
  • Amazon.co.jp: 超入門! Rでできるビジュアル統計学 学会・論文発表に役立つデータ可視化マニュアル: 藤井亮輔, 鈴木康司: 本

  • 食べログ3.8問題を検証 - クイックノート

    先日、twitter上でべログの星の数について、 ある問題が話題になりました。 べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 べログは飲店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「べログが評価を恣意的に操作しているかもしれない」という話は、 瞬く間にネットで話題となりました。 さて、この話は実際に行われていることなのでしょうか。 べログでは、当然評価点は公開されているので、 このような恣意的な操作があれば、 何らかの形で偏りが見つかるはずです。 ということで、

    食べログ3.8問題を検証 - クイックノート
    keloinwell
    keloinwell 2019/10/08
    明らかに分布がおかしい
  • ナメクジの出現を予測する!- 市民科学と最新統計の融合

    外来種問題は突然に 2014年7月某日、札幌市の円山原始林で私が出会ったのは、体長15cmもの巨大な豹柄のナメクジ、マダラコウラナメクジでした。私はそれを知っていました。過去に一度だけ、ドイツ・ドレスデンの森の中で見たことがあったからです。北欧原産のナメクジがどうしてここに? 慣れ親しんだ円山の森に現れた、不似合いな新参者との突然の出会いに、目眩がしました。私の知る北海道の生態系は、これからいったいどうなってしまうのか? 我々ヒトの生活への影響は? 体長15 cmほどのマダラコウラナメクジ 市民のブログが教えてくれた 予期せぬ出会いに衝撃を受けた私は、研究室に戻るや否や、飛びつくように現状を調べ始めました。わかったことは、マダラコウラナメクジが2006年に茨城県で最初に侵入・定着が確認されたということ、さらに2010年には福島県、2012年には長野県にも侵入し勢力を拡大しているということで

    ナメクジの出現を予測する!- 市民科学と最新統計の融合
  • 古典文学やベストセラーを統計を通して分析する──『数字が明かす小説の秘密』 - 基本読書

    数字が明かす小説の秘密 スティーヴン・キング、J・K・ローリングからナボコフまで 作者: ベン・ブラット,坪野圭介出版社/メーカー: DU BOOKS発売日: 2018/07/13メディア: 単行この商品を含むブログを見る小説を評する、分析するといえば基的には一人の人間が精読することによってそこで用いられている技法や、他の作品との関連、歴史的な意義などをあぶり出していく行為のことである。だが、それだけではなく、統計を通して語句の使用頻度、プロットの盛り上がり、書き出しについてなどを分析する手法も現在では発展してきた。書『数字が明かす小説の秘密』は、そんな後者のアプローチを古典文学からベストセラーまで幅広く応用した一冊だ。 かつては作家の文章における使用単語の頻度などを調べたい場合、地道に人間が数え上げていく他なかったが、近年はプログラムを組んでテキストデータを流し込めば、お手軽かつ精

    古典文学やベストセラーを統計を通して分析する──『数字が明かす小説の秘密』 - 基本読書
  • 「確率統計-機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録

    以前、社内の勉強会用の資料として作成した「確率統計-機械学習その前に」という資料を今回大幅に改定して公開しました。 改定の一番のポイントは、統計分析の総覧的なガイドとして使えるようにしたことです。正直な話、内容的に私自身も十分に理解出来ていない部分も多いのですが、いろいろ調べた結果、なんとなく統計分析の手法マップ的なものが頭の中に出来上がってきたので、それをアウトプットとしてまとめてみました。 確率統計-機械学習その前に v2.0 from Hidekatsu Izuno 確率統計に限った話ではありませんが、新しい分野を学ぶ初学者にとって、全体像がよくわからないため混乱することが少なくありません。この資料を読むことでなんとなくでも全体を把握できていれば、他の文献を読む際にも理解が容易になるのではと思っています。 例によって、確率統計については完全に素人なので、間違いもあるかもしれません。そ

    「確率統計-機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録
  • もっとも未熟な科学『不確かな医学』

    『病の皇帝「がん」に挑む』のシッダールタ・ムカジーが、現代医療に潜むバイアスを明らかにし、これからのモデルを提案する。 コアとなっているのはTEDのこの講演だ。ピル(薬)ではなくセル(細胞)による治療を謳っている。抗生物質に代表される、体の外で作成された「薬」で病(の原因)を殺すモデルが、現代の医学で支配的となり、一種の歪みをもたらしていることを示す。その一方で、体内で生成された「細胞」を育てることで免疫系を快復するパーソナル医療モデルを提案する。 書ではムカジー自身の医師としての遍歴を振り返つつ、現代の医療にとって重要な「医学の法則」を明らかにする。臨床医学がどこまで科学なのかという疑問に対する、一つの答えとなっている。 著者は言う、科学技術の革新による恩恵を、医学は最も受けてきた。医療処置そのものが病態生理学という原理に基づく科学だともいえるだろう。しかし、同時に先進医療が生み出すお

    もっとも未熟な科学『不確かな医学』
  • 因果推論の考え方を学ぶ。『「原因と結果」の経済学』 - NATROMのブログ

    ■「原因と結果」の経済学―――データから真実を見抜く思考法 中室牧子 (著), 津川友介 (著) 相関関係があるからといって必ずしも因果関係があるとは限らない*1。テレビを長時間見ている子どもほど学力が低いとしても、テレビの視聴が低い学力の原因とは限らない。たとえば、テレビ視聴そのものは原因ではなく、長時間のテレビ視聴を許すような家庭環境が低い学力の真の原因なのかもしれない。 因果関係の有無を検証するのはしばしば困難である。テレビの視聴以外の、家庭環境を含め条件がすべて同一で、唯一の違いがテレビ視聴時間だけの子どもの学力を比較できればよいが、通常はそのような比較は難しい。十分な数の子どもたちをランダムに二群に分け、テレビの視聴時間を減らした介入群と視聴時間が変わらない対照群との間に学力に差が出るかどうかを比較するランダム化比較試験を行えばいいが、コストも時間もかかる。ランダム化比較試験がで

    因果推論の考え方を学ぶ。『「原因と結果」の経済学』 - NATROMのブログ
  • big-names-in-statistics-want-to-shake-up-much-maligned-p-value-1.22375

    Thank you for visiting nature.com. You are using a browser version with limited support for CSS. To obtain the best experience, we recommend you use a more up to date browser (or turn off compatibility mode in Internet Explorer). In the meantime, to ensure continued support, we are displaying the site without styles and JavaScript.

    big-names-in-statistics-want-to-shake-up-much-maligned-p-value-1.22375
    keloinwell
    keloinwell 2017/08/01
    有意水準を0.05から0.005にしようという提案。
  • 藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita

    藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を1位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。 そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。 単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。 ではここで、26日の対局で藤井四段が勝利する確率はどれだけでしょう? $P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$として考えると、これはつまり藤井四段は必ず勝つので、100%になってしまいます。しかし、もちろんそんなことはありません。藤井四段ですらも負けることはあるはずです。 実はここ

    藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita
    keloinwell
    keloinwell 2017/06/28
    ベイズ推定の意味は「経験」を確率に反映させることだと思っている。
  • Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing

    “…make both calculations and graphs. Both sorts of output should be studied; each will contribute to understanding.” F.J. Anscombe, 1973 Anscombe’s Quartet It can be difficult to demonstrate the importance of data visualization. Some people are of the impression that charts are simply “pretty pictures,” while all important information can be divined through statistical analysis. An effective (and

    Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing
    keloinwell
    keloinwell 2017/05/03
    データをプロットするの大事
  • Bonferroni法、Holm法、False Discovery Rate | 大阪大学腎臓内科

    Clinical Journal Club 1. 多重比較 Familywise Error Rate さいころを1回振って、●が出る確率は1/6 = 0.167です。 さいころを2回振って、●が1回も出ない確率は、(5/6)2 = 0.694です。したがって、さいころを2回振って、1回でも●が出る確率は、1-(5/6)2 = 0.306です。 当然ながら、さいころを振れば振るほど、1回でも●が出る確率が上がっていきます。さいころを20回振って、一度も●が出ない確率は、わずか0.026です。 さいころを振る回数と1回でも●が出る可能性 さいころを繰り返し振るという事と、有意水準α = 0.05の検定を繰り返すという事は、確率論的には全く同じ事です。検定を繰り返せば繰り返すほど、偶然棄却される帰無仮説が増えます。複数回繰り返された検定全体において帰無仮説が棄却される可能性を、familywi

  • Amazon.co.jp: 実用SAS生物統計ハンドブック: SAS8.2及びSAS9.1対応: 臨床評価研究会(ACE)基礎解析分科会: 本

  • 自分の中に判断基準を持つために──『ダメな統計学: 悲惨なほど完全なる手引書』 - 基本読書

    ダメな統計学: 悲惨なほど完全なる手引書 作者: アレックスラインハート,Alex Reinhart,西原史暁出版社/メーカー: 勁草書房発売日: 2017/01/27メディア: 単行この商品を含むブログ (4件) を見るこの科学全盛の現代、世の中数字ばかりである。研究不正は後を絶たず、統計の誤謬が最低限見抜けなければ誤った情報で結論を導くはめになってしまうから、統計の基礎知識は科学者やデータサイエンティストのみならず必要不可欠になってきている。 世はまさに大科学時代 そこで『ダメな統計学: 悲惨なほど完全なる手引書』が登場する。書は統計学の入門書──というわけではなく、ダメな統計学の用いられ方/ダメな統計の取り方はどのようなものか、なぜダメな統計なんてものが出てきてしまうのかといった人間の心理面、環境面まで含めて一つ一つ取り上げ、仔細検討し、読んだ人間が統計手法を用いる際の誤りを減ら

    自分の中に判断基準を持つために──『ダメな統計学: 悲惨なほど完全なる手引書』 - 基本読書
  • 「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas

    統計をあまりよく知らない人が、統計の勉強をはじめるときに役立つ書籍について。おすすめの書籍を7冊紹介。 はじめに この記事では、統計についてあまりよく知らない人が、統計を学びはじめるときに役に立つ書籍を紹介したいと思う。まず、前半では、統計のまったくの初心者が勉強するときに役立つ書籍を3冊紹介する。後半では、前半に挙げた書籍の内容を大体理解した人が、その理解を定着させるために役立つ書籍を4冊紹介する。 まったくの初心者のために まったくの初心者が、統計を勉強したいというときに一番おすすめなのが、『マンガでわかる統計学』だ。 高橋信. (2004). 『マンガでわかる統計学』 東京:オーム社. マンガだからと言って、あなどってはならない。このはかなりしっかりと組み立てられていて、統計の基礎の基礎がしっかり押さえられるようになっている。このについてのさらに詳しい紹介が「統計学の初心者が入門

    「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas
  • Rで様々な表を書く。<br />パラメータの多いStanの結果も美しい表に。 – MrUnadon – Bayesian Statistical Modelings with R and Rstan

    まずはTwitterでこの記事をシェアする author: Unadon (見習い飯炊き兵) 動作環境:Mac OS Sierra 10.12.1; R version3.3.1; rstan 2.10.1 はじめに Rを使う時、私はわざわざ表など使わず、”head(data)”なんかでデータの確認を済ませてしまったりすることが多いです。 でも、他人と共有するとなると、見せ方を考えなければならない。それで、面倒だけどエクセルにコピペして…とやっていました。 また、Rのコンソールに収まりきれないデータを確認したいときなども、何らかの手立てを考える必要があるとおもいます。 今回は、そんなデータの確認に使える”表の出力”についてまとめていきます。 稿のお品書き package{DT}: dataframeをHTMLの表に一発変換(データが大きい場合有用) package{knitr}: dat

  • 多重共線性によって重回帰分析の推定は不安定になる(のはなぜか?) - jnobuyukiのブログ

    今回は、回帰分析を実用する上で気をつけたい問題の1つである多重共線性について考えます。 多重共線性って? 回帰分析では、一つの従属変数(予測される変数)に対して一つ以上の独立変数(予測する変数)を構成して予測モデルとします*1。このとき、予測する変数を「独立変数」と呼ぶように、予測する変数の間には関連性がない(つまり独立)ことが想定されています。複数の変数で予測するなら似たような者同士ではなく、異なるもので予測したほうが意味があると思えるので、この想定は納得のいくものです。 しかし、社会科学領域でしばしば起こるのですが、何かの調査項目同士にはある程度相関関係が見られます。 ここで相関が少しでも高いと直ちに回帰モデルが作れないわけではなく、ある程度は独立変数間に相関があっても分析可能です。しかし、独立変数間に極端に高い相関があると、予測そのものが不安定になることがあります。例えば、独立変数に

  • 「統計解析ソフトRのスクリプト集」(Ver. 3.0β)公開のお知らせ - 心理発達科学専攻からのお知らせ

    石井准教授の作成した「統計解析ソフトRのスクリプト集」の Ver. 3.0βを公開しました。記述統計量の算出の部分を統一的にしたのと、データ例を書籍にあわせて変えています。内容の紹介はこちらの記事をご覧下さい。 統計解析ソフトRのスクリプト集 (PDF)

    「統計解析ソフトRのスクリプト集」(Ver. 3.0β)公開のお知らせ - 心理発達科学専攻からのお知らせ
  • 『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas

    科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』というの日語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』というが勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong

    『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas
  • 統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum

    2016 - 12 - 24 統計・R・Stan関連の、用途別のオススメ10冊 書評 R Stan 年末年始向けに、比較的読みやすいを中心にオススメします。 統計学 入門 色々読んでみましたが、現在決定版と言えるものは存在しないように思えました。個人的には、シグマと 積分 の復習、場合の数・数え上げの方法、確率、確率変数、確率密度、度数分布と ヒストグラム 、代表値・平均・分散、確率分布、同時分布、周辺分布、確率変数の変数変換、検定、散布図と箱ひげ図、回帰、相関あたりをRなどを使いながらシンプルに説明していくがあるといいと思うのですが、なかなかバランスのとれたいいがありません。初歩の初歩しか説明してない、グラフが少ない、検定にページを割きすぎ、分厚い、ちょっと難しいなどの不満点があります。立ち読みして自分にあったを選ぶのがいいと思います。ネットで検索して調べるのでもいいと思います

    統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum