[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2ch.scのread.cgiへ]
Update time : 05/27 16:01 / Filesize : 225 KB / Number-of Response : 1032
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【統計分析】機械学習・データマイニング30



1 名前:デフォルトの名無しさん mailto:sage [2021/01/01(金) 09:10:55.46 ID:a+OQlEaa0.net]
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1つずつ減るので、減ってたら3回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
  人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

982 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 19:26:51.33 ID:t9q3RQuP0.net]
>>951
使っている手法がcrfベースと古いから

983 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 20:53:05.50 ID:DbDPNUf30.net]
>>954
手法が古くても必要な結果を得られたら問題無いんじゃね?

984 名前:デフォルトの名無しさん [2021/08/30(月) 20:58:58.02 ID:D5v3tNv00.net]
バイトペアエンコーディング全盛の今、形態素解析なんて時代遅れだよねと思いきや、Whole Wordなんて手法も出てきてやっぱり重要だっていうね

985 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 21:56:49.19 ID:t9q3RQuP0.net]
>>955
ビッグデータ処理してると数パーセントの精度の違いが大きく出てくるから
なるべく高精度のが欲しい

986 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 21:59:20.42 ID:t9q3RQuP0.net]
松尾研の要約システム、ひどいな

987 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 22:00:46.32 ID:FcBMjYja0.net]
精度が売上に直結するならいいけど
弱い相関ならシンプルなロジック選んでしまうな

988 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 22:13:34.30 ID:IfLgW1Xz0.net]
40年以上前から言われているけど
何文字以内、何行以下の要約というのは
あまり意味がない。必須な部分がかけてしまうかもしれないし
余分な部分が残ってしまうことがある

989 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 22:23:27.16 ID:6Ldth3Lh0.net]
愚痴みたいになるけど形態素解析とかIMEみたいな古典的な分野ばっかやりすぎて
統計的機械学習やディープラーニングへの対応が遅れて
世界に取り残されたのが日本の自然言語処理のアカデミアってイメージ
アテンションやトランスフォーマーみたいな仕組みが
日本から出てこなかったのは悲しい

990 名前:デフォルトの名無しさん mailto:sage [2021/08/30(月) 23:06:53.06 ID:DbDPNUf30.net]
>>957
それなら古いからじゃなくて必要な精度を得られないからってことで
精度に関わる他の部分を変えることで目的を達成できるかも
何がその目的達成に影響するのかは判らない



991 名前:デフォルトの名無しさん [2021/08/31(火) 04:15:10.73 ID:D+Jl3XmV0.net]
>>950
spaCyかな。利点はGPUを使えるので圧倒的に早いこと。欠点はPython依存。

992 名前:デフォルトの名無しさん [2021/08/31(火) 04:39:38.87 ID:D+Jl3XmV0.net]
>>958
個人的にはあれはよくできてると思う。
まず、要約はextraction法とabstraction法の2種類がある。
extractionはbowを作って単語の頻出度で統計処理することでウェイトの高いセンテンスを抽出する。
一方、abstractionは要約済みの学習データをseq2seqで機械学習させることで、要約エンジンを作る。
松尾研のベンチャーが作ったのは、後者のabstractionの方で、日本語でabstractiono方式の要約エンジン
というのはほとんど見たことがない。
ただ、実際に売れるかどうかは別。
この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
企業は内部情報が外部に流出することになるのでまず100%導入はしない。
一般的なのは、企業が利用してるクラウドの中にシステム用のサーバーを立ち上げるか、
企業のイントラネットの中に専用サーバーを立ち上げることなんだが、
これをやるとSI業者には勝てない。
また、下手にこの領域に踏み込むとSI 業者が海外製の要約エンジンを日本語化して販売
を始めたりするので、敵を誘い込むことになる。

993 名前:デフォルトの名無しさん mailto:sage [2021/08/31(火) 07:41:34.77 ID:vHl4DeHq0.net]
>この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
>企業は内部情報が外部に流出することになるのでまず100%導入はしない。

用途で言えば内部情報より外部の公開情報を要約してリサーチ等に使う方が多そうな気がするが。
そうでなくても、契約文書をチェックするサービスなんてのも商売になっているくらいだし。

994 名前:デフォルトの名無しさん mailto:sage [2021/08/31(火) 14:21:53.09 ID:Sht6cbMy0.net]
optunaで指定するパラメータの範囲はどう決めれば良いの?

apiにパラメータの取りうる範囲が1 <= p < ∞とあるとき

995 名前:デフォルトの名無しさん mailto:sage [2021/08/31(火) 15:50:48.02 ID:j/ruVWceM.net]
1と∞で二分探索

996 名前:デフォルトの名無しさん [2021/08/31(火) 19:28:12.45 ID:l6anRrPu0.net]
無限の半分は・・・無限!!

997 名前:デフォルトの名無しさん mailto:sage [2021/08/31(火) 19:30:49.23 ID:IiAPjlBZ0.net]
>>966
無限大に発散するような関数はまずないはずだけどどういう式?

998 名前:id:ignore mailto:sage [2021/08/31(火) 20:06:05.81 ID:Yj2FMtNrr.net]
exp

999 名前:デフォルトの名無しさん mailto:sage [2021/08/31(火) 20:07:05.73 ID:TL2gsmuJ0.net]
表からともったら裏、裏かとと思ったら表

1000 名前:デフォルトの名無しさん mailto:sage [2021/08/31(火) 20:56:01.05 ID:Sht6cbMy0.net]
>>969
xgboostのパラメータ
reg_alphaとか



1001 名前:デフォルトの名無しさん [2021/09/04(土) 02:49:35.61 ID:9cArpdYt0.net]
>>877
Rejected internal applicants twice as likely to quit
doi.org/10.5465/amj.2018.1015

1002 名前:デフォルトの名無しさん [2021/09/04(土) 04:02:08.87 ID:9cArpdYt0.net]
>>965
いずれにしてもSeqモデルによる実装は簡単だから、要約済みの学習データさえ準備できれば
要約システムは簡単に構築可能。無料で出す分にはみんなは面白がって使うだろうけど、有料提供
となると、かなり困難に直面するんじゃないかと思っただけ。
Seqモデルは、かなり一般化してきてるので、NLP専攻の学卒者だったら、十分に構築は可能。
これが機械翻訳とかだと、かなり膨大な学習データが必要となるので、参入障壁になるが、
自動要約だと、元の学習量もしれてるので、NTTデータや富士通あたりだと多分、簡単に作れる。
また、要約の精度は学習データに依存するので、どこまで精度の高いデータを作れるかは、
最終的には開発元の資本力によって決まることになる。

1003 名前:デフォルトの名無しさん mailto:sage [2021/09/05(日) 22:01:26.67 ID:zykEaDwPr.net]
松尾研で文章を3つの文にまとめるアプリができてましたが
これを任意の文の数にまとめられて更に
「動作を文章にするアプリ」と組み合わせることで作業手順書の自動作成ができて
ひいては行動計画に関する人工知能の開発が進むといいんですがねえ

1004 名前:デフォルトの名無しさん mailto:sage [2021/09/05(日) 22:33:17.49 ID:vgQPhGSA0.net]
どうして文の「数」にこだわるの?
重要なことがその「数」以上あったらどうするの?

1005 名前:デフォルトの名無しさん mailto:sage [2021/09/06(月) 01:15:14.50 ID:otQfwK4Sr.net]
3つにする、5つにする、など試して最も妥当な説明書になっているものを最終出力出来たらいいんですがねえ

1006 名前:デフォルトの名無しさん [2021/09/06(月) 01:21:37.13 ID:owoO2Yj90.net]
妥当な説明を定式化せよ

1007 名前:デフォルトの名無しさん mailto:sage [2021/09/06(月) 08:50:13.28 ID:0zGOZ0ajM.net]
>>975
できるんじゃない?

1008 名前:デフォルトの名無しさん mailto:sage [2021/09/06(月) 09:29:44.52 ID:fsHJbGHja.net]
重要な項目が5つあって、3つの文にせよ
という場合は、一つの文に2つ盛り込むとか?
なんだか本末転倒だなあ
重要な項目がいくつあるか分からなくなるじゃないの

1009 名前:デフォルトの名無しさん mailto:sage [2021/09/06(月) 10:59:46.00 ID:fK8LC2SFr.net]
重要な項目の数に合わせて文の数も調整できたらなあ
更にはそれぞれの文の構造化まで自動化

1010 名前:デフォルトの名無しさん mailto:sage [2021/09/06(月) 11:36:22.35 ID: ]
[ここ壊れてます]



1011 名前:fsHJbGHja.net mailto: 例えば、裁判所の判決文とかは全部重要なのだそうで
要約できないらしい。法曹関係者が要約が下手なのは
そういう理由もあるらしい
[]
[ここ壊れてます]

1012 名前:デフォルトの名無しさん mailto:sage [2021/09/06(月) 16:50:04.99 ID:XuYnRkl0M.net]
ほう、そうかい

1013 名前:デフォルトの名無しさん mailto:sage [2021/09/06(月) 21:34:45.15 ID:3OGE1cne0.net]
マニュアルを要約して
手順を飛ばされてもやだな

1014 名前:デフォルトの名無しさん [2021/09/07(火) 08:21:33.30 ID:QjyEMXOy0.net]
だが待って欲しい
その手順は本当に必要だったのだろうか

1015 名前:デフォルトの名無しさん [2021/09/07(火) 09:23:15.96 ID:IHJavDsS0.net]
いやちょっと待って欲しい
そもそも三つの文に…

1016 名前:デフォルトの名無しさん mailto:sage [2021/09/07(火) 12:15:41.45 ID:X6g3xS9u0.net]
富士通あたりがやり出しそう(笑)

1017 名前:デフォルトの名無しさん mailto:sage [2021/09/07(火) 13:03:13.11 ID:oZHnA/lFa.net]
試しにここのテキスト入れてみたら
めちゃくちゃ的外れな要約が出てきた
どうやら掲示板は向いてないらしい

1018 名前:デフォルトの名無しさん mailto:sage [2021/09/07(火) 20:01:11.19 ID:Cp1uuQsT0.net]
新聞記事も読み終わって何がなんだかわからない
という記事が多いから、要約しても無駄だな

1019 名前:デフォルトの名無しさん [2021/09/12(日) 11:08:30.42 ID:PNU8wIel0.net]
> お前は毎朝起きるたびに俺に負けたことを思い出すよ^^

あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!

クソチョンw

1020 名前:デフォルトの名無しさん [2021/09/22(水) 19:51:03.76 ID:pNoEEii80.net]
リッジとラッソ回帰をうまく説明するためのデータセットて何かある?

勉強会の資料で探すてる
ボストンの住宅価格でやると効果わかりにくいからその他でいいのおすえて



1021 名前:デフォルトの名無しさん [2021/09/23(木) 12:44:23.64 ID:7tGJmFKPF.net]
次スレここの再利用?
https://mevius.5ch.net/test/read.cgi/tech/1578890891/

1022 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:33:41.18 ID:fnXwjiVa0.net]
次スレ
【統計分析】機械学習・データマイニング31
https://mevius.5ch.net/test/read.cgi/tech/1632587566/

1023 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:34:31.80 ID:fnXwjiVa0.net]
スカラー倍

1024 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:36:40.35 ID:fnXwjiVa0.net]
みっつの数に意味はない
ただの経験則

1025 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:41:50.83 ID:fnXwjiVa0.net]
アルタナティブ

1026 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:42:53.67 ID:fnXwjiVa0.net]
🉑

1027 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:44:07.46 ID:fnXwjiVa0.net]
(*´∀`*)

1028 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:44:53.74 ID:fnXwjiVa0.net]
(*´∀`*)

1029 名前:デフォルトの名無しさん mailto:sage [2021/09/26(日) 01:45:22.39 ID:fnXwjiVa0.net]
(*´∀`*)

1030 名前:1001 [Over 1000 Thread.net]
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 267日 16時間 34分 27秒



1031 名前:過去ログ ★ [[過去ログ]]
■ このスレッドは過去ログ倉庫に格納されています






[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<225KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef