タグ

文章解析に関するfoooのブックマーク (17)

  • APIを見る(カテゴリ別) - Mashup Awards 9 (#MA9)

    mashupaward.jp

    fooo
    fooo 2013/10/14
    テキスト解析のリストが意外と充実してた
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    fooo
    fooo 2011/11/09
    辞書なしの完全クライアントサイド処理
  • さくらの500円レンタルサーバで MeCab を使う

    さくらの500円レンタルサーバで MeCab を使う 2008-11-15-1 [Tips][Programming][NLP] さくらの500円レンタルサーバで MeCab を使うための手順。 「MeCabをPerlから使う」[2006-02-25-4]を参考に。 MeCab は日形態素解析器です。 日語文を単語に切り分けてくれます。 - MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://mecab.sourceforge.net/ ソースの入手は上記 URL から。 MeCab 体のインストール まずは体を入れなければ話になりません。 tar zxfv mecab-0.97.tar.gz cd mecab-0.97 ./configure --prefix=/home/USERNAME/op

    さくらの500円レンタルサーバで MeCab を使う
  • 映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?

    ※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中.入門 自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい. ところで,少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て,登場人物の台詞や行動がなかなか面白くて気に入ったのだけど,この脚映画の公式サイトで公開されていることを最近知った.映画の脚となると,特徴的な表現が多く文章数もそれなりにあるので,興味深いコーパスになり得るのではないかと思う. というわけで,NLTK習い立ての

    映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?
    fooo
    fooo 2011/02/23
    python(NLTK)でThe Social Networkの脚本を解析
  • MECAPIのソースコード公開

    MECAPIのソースコード公開 2007-04-01-1 [MECAPI][NLP][Programming] MECAPI[2006-09-18-1]のソースコードを公開。 きちんと書き直そうと思ってたんだけど、手抜きでそのまま公開します。 - MECAPI - MeCab Web Service (MeCab API) https://maapi.net/apis/mecapi - ソースコード ttp://maapi.net/apis/mecapi?mode=code サーバ負荷の問題があるので、大量にアクセス(例えば毎秒数回等)する 人は自分のサーバに設置して使って頂けると幸いです。 ソースは「無償・無保証・著作権放棄」(http://lifehacks.ta2o.net/byebye-copyright.html) ですので、好き勝手に使って下さい。 設置方法: (1) MeCa

    MECAPIのソースコード公開
    fooo
    fooo 2010/09/22
    MeCabを使ったウェブ上形態素解析のソースコード。このソースコードとMeCabのPerlモジュールをサーバに乗っければ動かすことができる
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    fooo
    fooo 2010/08/17
    形態素解析エンジン
  • macromarionette | 分割による構成についてアレコレ〈色彩構成〉

    このサイトのコンテンツを閲覧するには最新版の Adobe Flash Player が必要です。 Flash Playerをインストールすると、縦書き表示されたコンテンツを閲覧できます。ぜひ、お試しください。 Flash をインストールできない環境の方へ:こちらにHTML版のページがあります。 ※ただし、縦組表示用に作成したコンテンツですので、表示に若干の不具合がある可能性があります。ご了承ください。

    fooo
    fooo 2009/11/10
    Flash10のFTE/TLFとWordpressで縦書きレイアウト
  • http://itog.sakura.ne.jp/markov/

  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
    fooo
    fooo 2009/11/10
    Rubyでマルコフ連鎖なるものを行う
  • キーフレーズ抽出API の紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、日語処理技術部の阿久津剛之です。 Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。 キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分(キーフレーズ)を抽出し、独自の算出方法により点数付けを行って返すAPIです。 例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、 「東京ミッドタウン」「青山一丁目駅」「15分」 という結果が返ってきます。 ここで、「青山一丁目駅」に注目してみましょう。 「青山一丁目駅」は、日形態素解析APIを用いて解析すると、 青山 / 一 / 丁目 / 駅

    キーフレーズ抽出API の紹介
    fooo
    fooo 2009/06/08
    Yahoo!デベロッパーネットワークにてキーフレーズ抽出APIを公開
  • 言語を分析し、自律的に文法規則を推論するアルゴリズム | WIRED VISION

    言語を分析し、自律的に文法規則を推論するアルゴリズム 2005年9月 7日 コメント: トラックバック (0) 高森郁哉/Infostand 2005年09月07日 米コーネル大学とイスラエルのテルアビブ大学は8月30日(米国時間)、各国の言語のテキストをスキャンして、自律的に文法規則を推論するアルゴリズムを開発したと発表した。人間が事前に情報を与える必要はなく、割り出した文法規則を使ってコンピューターが意味のある文章を組み立てられるという。 『構造の自動抽出』(ADIOS)と名付けたアルゴリズムで、言語の習得にかかわるプロセスに基づいているという。このプロセスは、パターン抽出の統計的な手法と、構造の普遍化の二つ。具体的には、複数の文章を繰り返し対照し、重複する部分を探すことにより、パターンを発見するという。現在特許出願中。 ADIOSは、自然言語に限らず、複雑な規則を持つ生のデータの解析

    fooo
    fooo 2008/08/27
    『構造の自動抽出』(ADIOS)と名付けられたアルゴリズム
  • 形態素解析 - Wikipedia

    形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを

    形態素解析 - Wikipedia
    fooo
    fooo 2008/07/17
    形態素解析の概要、解析ツールのアルゴリズム・欠点など
  • 文章で作曲する :: デイリーポータルZ

    音楽の分野に、「自動作曲」というものがあるらしい。 何かの数列とか、音楽とはまったく関係がないものをなんとかして楽譜に変換して、それを演奏するという考え方みたいだ。 とても楽しそうなのだが、調べていくと「フラクタル」とか「総音列技法」とかなんだかむずかしい言葉が出てきてたいへんだ。もうちょっとお手軽に自動作曲をためす方法を考えてみた。 (text by 三土たつお) 日語の文章を楽譜だと思い込む ここでのアイデアは、たとえば日語の文章だって、その中にひらがなで「ら」とか「し」とか書いてあったら、それを音階の「ラ」と「シ」だと思いこむで、楽譜になるだろう、というもの。 さっきからなにをいっているのか、という感じだと思うので、実例をひとつつくってみた。以下は、夏目漱石の「我輩はである」の冒頭(テキストは青空文庫からお借りしました)。 まずはこの文章をふつうに読んでみてください。 恥ずかし

    fooo
    fooo 2007/11/16
    こういう簡単でわかりやすいのはいい
  • 文章の特徴を分析して個人を特定するプログラム | WIRED VISION

    文章の特徴を分析して個人を特定するプログラム 2007年10月 3日 IT コメント: トラックバック (1) Noah Shachtman 2007年10月03日 Credit: Jupiter Images オンラインでは匿名だから、勝手なことを書きこんでもバレっこないとお思いの読者も多いだろう。だがやはり身許が特定される恐れはある。 アリゾナ大学人口知能研究所では、米連邦政府の資金援助を受けて、インターネット上の人々の動きを、その人の書き癖から追跡する方法を確立しようとしている。 全米科学財団(NSF)のプレスリリースによると、アリゾナ大学のきわめて野心的な『Dark Web』プロジェクトは、「テロリストが作成したすべてのウェブ・コンテンツを系統立てて収集、分析することを目的」としている。 『Arizona Daily Star』紙の記事によると、この「分析」には、「執筆者1人1人を

    fooo
    fooo 2007/10/09
    アルカイダなどの武装集団を特定することにも貢献するらしい。スゴス
  • 構造主義 - Wikipedia

    構造主義(こうぞうしゅぎ、仏: structuralisme)とは、狭義には1960年代に登場し主にフランスで発展していった20世紀の現代思想の一つである。なお、構造主義と構成主義は異なる。構造主義の代表的な思想家としてクロード・レヴィ=ストロース、ルイ・アルチュセール、ジャック・ラカン、ミシェル・フーコー、ロラン・バルトらが活躍した。 構造主義は広義には、現代思想から拡張されて、あらゆる現象に対して、その現象に潜在する構造を抽出し、その構造によって現象を理解し、場合によっては制御するための方法論を指す語である[注釈 1]。構成主義者のジャン・ピアジェが「構造主義」という著書を出版していたり、「構造主義」「構成主義」「構造構成主義」「構築主義」など、大学で哲学を学ぶ学生を混乱させる用語は多いが、構成主義と構築主義(社会構成主義)は同じである[1]。なお、構造主義と構成主義は日語では似てい

    fooo
    fooo 2006/10/26
    構造主義に関する記述
  • http://www012.upp.so-net.ne.jp/nikodebu/laboratory/index.htm

    こんにちは,今泉です。 私は「日語構造伝達文法」を研究しています。これは日語のいろいろな現象を理論的に説明しようとする文法です。 私のサイトは下記に移転しましたので,クリックしてそちらに行っていただければ幸いです。 (2010.10.12)

    fooo
    fooo 2006/10/26
    日本語構造伝達文法についての研究室サイト
  • シードウィン-文章解析の流れ

    私たちが、文章を分析しようとした目的は、今、いろいろなところで研究されている動機と少々異なっていました。 人を知りたかった。もっと人の気持ちを知りたかったのです。 人の行動と、その人の気持ちが一致しているとは限りません。書かれた文章は、書かれている内容が、真実とは限りません。別に疑っているのではありませんが、そのような行動や、そのような表現をされた背景が、分からないだろうか、というところから入ったのです。 だから、とてもファジーで、とても分かり難いところを読み取ってみようと研究が始まりました。多くの文章から特定のデータを引き出そうとする実利的な検索技術の研究ではなかったのです。 そのため、心理学や行動理論、教育技術言語学、日語文法などの学習から研究、論文、小説、エッセイなどの様々な文学ジャンル、データベース理論の研究、ビジネス光景などの観察が行われました。 実際の人間光景と表

    fooo
    fooo 2006/10/26
    文章解析を行って、人の行動の真意を読み取ろうとする試み
  • 1