【R言語】統計解析フリーソフトＲ第４章【GNU R】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 04/17 13:22 / Filesize : 381 KB / Number-of Response : 837
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：１３２人目の素数さん mailto:sage [2011/01/09(日) 17:31:49 ]: R は統計計算とグラフィックスのための言語・環境です。
統計計算で重宝するデータ型や、複数要素を処理する演算や関数、
解析結果を表示するグラフィックなど、多彩な機能を提供します。

●関連サイト
The R Project
www.r-project.org/
RjpWiki
www.okada.jp.org/RWiki/
リンク集
www.okada.jp.org/RWiki/?%A5%EA%A5%F3%A5%AF%BD%B8
116 名前：１３２人目の素数さん [2011/07/17(日) 13:55:02.20 ]: >>113
最近の調査では勤労者の平均年収が
３７０万円ぐらいらしいんですよ。
ただし最頻値は２５０万円ぐらいですから、
一部の高給取りが平均を上げていると思います。
また、公務員の平均は５００万円ぐらいらしいですが、
公務員だけの平均年収は公表されていません。

研究と称してPCで遊んでいるだけですから、
年収１５０万円でも十分だと思います。
117 名前：猫の夢と痴漢の埋葬 ◆MuKUnGPXAY mailto:age [2011/07/17(日) 14:08:35.01 ]: >>116
『研究と称してＰＣで遊んでる人』だけをそういう待遇にしたら良いと
思います。但しソレをどうやって判定スルのかは現実には難しく、なの
で『虚偽院生と優秀院生の分離』と同様の困難が伴い兼ねませんね。

では質問ですが、虚偽院生に対してはどういう扱いが宜しいのでしょう
かね？　やはり追放ですかね？

猫
118 名前：１３２人目の素数さん [2011/07/17(日) 14:12:09.83 ]: 国立情報研究所も統計数理研究所も、仕事らしい仕事をしているのはほんの一部なのではないかな？
統計数理研究所では女の子の飲み物調査という論文もあったぞw
119 名前：１３２人目の素数さん [2011/07/17(日) 14:24:35.05 ]: >>117
虚偽院生とは、論文を書かない院生のことですか？
全く論文を書く気のない院生は追放でしかたないと思います。

少なくとも論文を何本か書いていて、研究費も助成金も１円も
受け取っておらず、アルバイトをして授業料を納めている奴は、
他の人の研究の邪魔をしないかぎりは、追放でなくて放置でいいと思います。
つまり、まあおれのことですけどね。

追放すべきは高い給料、研究費や助成金をたんまりもらっているのに
結果を出さない馬鹿な奴です。
これは院生だけではなく、助手も助教、準教授、教授も含まれます。
それらは能力と業績だけで判定されるべきだと思います。
その業績というのをどう判定するのかが難しいわけですけどね。
120 名前：猫の夢と痴漢の埋葬 ◆MuKUnGPXAY mailto:age [2011/07/17(日) 14:29:59.14 ]: >>119
全くその通りだと思います。私が言う虚偽院生とは：
★★★『基礎体力も無ければ動機も無く、唯大学院に入学してしまったゾンビ』★★★
を指し示す言葉です。ですから恐らくは貴方の事ではないでしょう。放置
されていても自分から何かが出来る人は決してゾンビではアリマセンから。

猫
121 名前：１３２人目の素数さん [2011/07/17(日) 14:41:00.64 ]: ＞全くその通りだと思います。

つまり>>119の発言にまったく同意しているという解釈でよいですか？
122 名前：猫の夢と痴漢の埋葬 ◆MuKUnGPXAY mailto:age [2011/07/17(日) 14:42:52.30 ]: >>121
はい。『私は>>119氏の発言に全く同意』です。

猫
123 名前：１３２人目の素数さん [2011/07/17(日) 14:51:47.93 ]: やっぱCOLDPLAYいいよねぇ
眼醒めたらゾンビみたいだったが、観てたら生気がもどってきた
この辺のクオリティの高さは邦楽にはない、流石だとおもう。
124 名前：１３２人目の素数さん mailto:sage [2011/07/17(日) 23:18:34.72 ]: コネっていうと響きは悪いけど、要するにコミュニティーを広げる努力をしてきたってことじゃない？
周囲と意見交換が出来るということは、非常に大きな能力であり財産だと思うよ

そして研究室への貢献度という点で言えば
論文は書かないけどPCで遊べる程度の実力はあって、周囲と意見交換が出来る奴　＞　一人黙々と論文を書く奴
だと自分は思う
125 名前：１３２人目の素数さん mailto:sage [2011/07/17(日) 23:41:22.12 ]: なら年収も１３０万でいいな
月１０万でボーナス（一ヶ月)も出て国家的身分は安泰
やりがいなんかまったくないと思うかもしれないが、言うことなしの職場じゃないか
126 名前：１３２人目の素数さん mailto:sage [2011/07/17(日) 23:45:41.25 ]: >>116
それこそ、そこのなんとか研究所に問い合わせをして詳細資料（統計データ)請求すればいいんじゃないの？
ただ気になったんだけど、rlang使ってるなら「加重平均」ってなんのことかはしってるよね。
127 名前：１３２人目の素数さん [2011/07/18(月) 02:46:14.96 ]: ↑馬鹿だ（笑
128 名前：猫は爺惨状の蚊軍 ◆MuKUnGPXAY mailto:age [2011/07/18(月) 03:33:15.34 ]: >>124
その考え方は決して認められない。大学は馬鹿がママゴトして遊ぶ場所
では断じてない。当然に：
★★★『黙々と論文を書く奴＞論文は書かない奴』★★★
であり、PCで遊ぶかどうかや、周囲と意見交換が出来るかどうかなんて、
そんな事はどうでもヨロシ。

論文を書くかどうかだけが問題である。勘違いも甚だしい。ケシカラン。

猫
129 名前：１３２人目の素数さん [2011/07/18(月) 03:34:40.12 ]: >>128
まずお前が実績を出してから批判しような
130 名前：１３２人目の素数さん mailto:sage [2011/07/18(月) 04:44:10.88 ]: >>126
「左右非対称分布の平均値は分布を的確に示せない」
のは統計の基本常識です。

集計方法と指標の定義: さまざまな平均値/中央値/最頻値
web-tan.forum.impressrd.jp/e/2008/07/11/3428
131 名前：１３２人目の素数さん mailto:sage [2011/07/18(月) 05:55:50.19 ]: R使うくらいならmatlab使った方がいいと思う
132 名前：１３２人目の素数さん mailto:sage [2011/07/18(月) 06:00:29.17 ]: それはない
133 名前：１３２人目の素数さん mailto:sage [2011/07/18(月) 07:56:35.43 ]: 猫さんが正論をいっとる
134 名前：１３２人目の素数さん [2011/07/18(月) 07:59:15.18 ]: 統計なんてやっている奴はバカw
135 名前：１３２人目の素数さん [2011/07/18(月) 10:43:44.13 ]: 統計は低脳のやる学問もどきである
どこの大学でも統計の先生の論文は下らんものばかり
136 名前：１３２人目の素数さん mailto:sage [2011/07/18(月) 10:54:16.08 ]: 量産可能で下らなくない論文とは例えばどういうのですか？
137 名前：１３２人目の素数さん [2011/07/18(月) 11:20:01.81 ]: 統計ですと、同じ様な調査結果を論文として何度も書く事が出来ます。
138 名前：１３２人目の素数さん [2011/07/18(月) 11:22:33.75 ]: 女子大生の飲み物調査

女子高校生の飲み物調査

女子中学生の飲み物調査

女子小学生の飲み物調査

女子幼稚園生の飲み物調査

２０代OLの飲み物調査

３０代のOLの飲み物調査

以下、女と男にかえても論文が書けます　統計数理研究所の教授がこうした論文を書いています
139 名前：１３２人目の素数さん [2011/07/18(月) 11:24:51.54 ]: かけられた電話に出るまでの時間の統計的調査１　一部上場企業の場合
同上　２　２部上場企業の場合
同上　３　ヘラクレス上場企業の場合
同上　４　町役場の場合

以下　延々と書けます。
140 名前：１３２人目の素数さん mailto:sage [2011/07/18(月) 11:30:15.87 ]: 今渦中の経済産業省官僚のやることなんかはもっと姑息ですけどねw
141 名前：１３２人目の素数さん [2011/07/18(月) 15:21:16.30 ]: グランドカノニカルは糞
142 名前：１３２人目の素数さん [2011/07/18(月) 18:25:28.32 ]: 等高線の書き方について質問です。
等高線を書きたいのですが、情報量が少ないため、contour関数では書けません。現在与えられているのは、20個の点に対しての座標(x,y,z)です。2次元上の布置まではできているのですが、等高線を用いてz座標を表現することができません。
どの関数を扱えばいいかなど、わかる方がいらっしゃいましたら教えてください。
143 名前：１３２人目の素数さん mailto:sage [2011/07/18(月) 18:59:47.11 ]: 手で書いたら？天気図も昔はそうしたよ。
144 名前：１３２人目の素数さん [2011/07/18(月) 22:51:46.35 ]: >>142
つか、授業聞いてなかったの？
全部説明したはずだけどね。
geoRで作成しなさいって言ったでしょ？
単位あげないよ！
145 名前：１３２人目の素数さん mailto:sage [2011/07/31(日) 19:04:21.64 ]: データフレームの列名に日本語で文字化けして困ってます。

Rコマンダーでcsv経由。
RGUIはMSGhosicに設定。

コマンドでフォント指定以外に
対策あれば教えてください。
146 名前：１３２人目の素数さん mailto:sage [2011/08/01(月) 00:30:07.52 ]: >>145
Rというよりそのcsvファイルがくせもの
解決策は2つ。
1. csvの文字コードを文字化けしないものに変更してからRに読み込む
2. Rの中でiconv()で文字コードを変換する
好きな方を選べ
147 名前：１３２人目の素数さん mailto:sage [2011/08/01(月) 05:59:12.09 ]: >>146
了解です。

クリップボードを経由してみたら、ますます
酷くなりました。

特に列の変数名がボロボロです。
これはなにゆえでしょうか？
148 名前：１３２人目の素数さん mailto:sage [2011/08/01(月) 11:35:11.11 ]: >>147みたいな学生を指導する教員は大変だな。

全く別のアプローチを提示してみます。

> dat <- read.csv(file.choose())
> dat
bake bakeda
1 32 re
2 242 ga

ここで列名が文字化けしていたとします。
本当に化けている状態を示せないので仮に"bake"とか"bakeda"とかにしています。

> names(dat) <- c("日本語","大丈夫")
> dat
日本語大丈夫
1 32 re
2 242 ga

というようにnames()で、列名を自由に再設定できます。
列名が、文字化けしていて、なおかつ文字コードを変更する能力がないなら、
上記のような方法もあります。
149 名前：１３２人目の素数さん mailto:sage [2011/08/08(月) 14:36:57.39 ]: [S]
東大,
弁護士,
Re,
150 名前：１３２人目の素数さん mailto:sage [2011/08/08(月) 14:38:15.29 ]: [A]
TS10,SBR,VFK10,TKK,VF1,LCCR,SINX,
VF1M4,VF1L2,VF1H2,EMPC,MPE,
4231,4213,3331,3313,145,53A3,6236,
EMPCB,EMJ,LP,CJ,F4,LC,DNA,RNA,
SINT,JEL,23458,2348,DBT,GMO,
AB,APLWJKSJ,PES,WE,CA,RR,ASL,
EPH,ITU,261036,CBS6,1358,G1,AS3,M5,
151 名前：１３２人目の素数さん [2011/08/11(木) 22:25:16.52 ]: 質問です。

20個の変数があり、各変数は0 から 0.2 まで 0.05 ずつの値をとることが可能
また、この変数の総和は 1 となる。
この時の組み合わせをすべて求めたいのですが、
どうすれば良いでしょうか?

よろしくお願いいたします
152 名前：１３２人目の素数さん mailto:sage [2011/08/12(金) 01:53:48.61 ]: >>151
> seq(from=0,to=0.2,by=0.05)
[1] 0.00 0.05 0.10 0.15 0.20
> factorial(5+20-1)/factorial(20)/factorial(5-1)
[1] 10626
この程度の組み合わせなら全て計算して合計が1のものを選んだ方が早いかも。
153 名前：152 mailto:sage [2011/08/12(金) 02:20:56.85 ]: とりあえず、20変数じゃなくて6変数の場合を提示するのであとは自分で考えて
> n <- seq(from=0,to=0.2,by=0.05)
> m <- expand.grid(n,n,n,n,n,n)
> m.s <- apply(m,1,sum)
> a <- m[m.s==1,]
> head(a)
Var1 Var2 Var3 Var4 Var5 Var6
3125 0.20 0.20 0.20 0.20 0.20 0.00
5625 0.20 0.20 0.20 0.20 0.15 0.05
6125 0.20 0.20 0.20 0.15 0.20 0.05
6225 0.20 0.20 0.15 0.20 0.20 0.05
6245 0.20 0.15 0.20 0.20 0.20 0.05
6249 0.15 0.20 0.20 0.20 0.20 0.05
154 名前：１３２人目の素数さん mailto:sage [2011/08/12(金) 03:46:54.73 ]: 変数の値を20倍すると、各変数は０～４までの整数値を取れる、総和は２０となる。
パターンは次の108通り。合計が20未満の場合は、足りない数だけ1を加える。変数が20個未満の場合は、足りない分だけ0を加える。
例：432→合計が9なので、1を11個加え、43211111111111、さらに数字の数が14個なので、0を6つ加え、「43211111111111000000」が真のパターン
44444 , 44443 , 444422 , 44442 , 4444 , 444332 , 44433 , 444322 , 44432 ,
4443 , 4442222 , 444222 , 44422 , 4442 , 444 , 443333 , 443332 , 44333 ,
4433222 , 443322 , 44332 , 4433 , 4432222 , 443222 , 44322 , 4432 , 443 ,
44222222 , 4422222 , 442222 , 44222 , 4422 , 442 , 44 , 433333 , 4333322 ,
433332 , 43333 , 4333222 , 433322 , 43332 , 4333 , 43322222 , 4332222 ,
433222 , 43322 , 4332 , 433 , 43222222 , 4322222 , 432222 , 43222 , 4322 ,
432 , 43 , 422222222 , 42222222 , 4222222 , 422222 , 42222 , 4222 ,
422 , 42 , 4 , 3333332 , 333333 , 3333322 , 333332 , 33333 , 33332222 ,
3333222 , 333322 , 33332 , 3333 , 33322222 , 3332222 , 333222 , 33322 ,
3332 , 333 , 332222222 , 33222222 , 3322222 , 332222 , 33222 , 3322 , 332 , 33 ,
322222222 , 32222222 , 3222222 , 322222 , 32222 , 3222 , 322 , 32 , 3 ,
2222222222 , 222222222 , 22222222 , 2222222 , 222222 , 22222 , 2222 , 222 , 22 , 2 ,1
各パターン毎に、変数の名前の入れ替えを考えると、合計35,561,166,195通りあると思われる。
155 名前：１３２人目の素数さん [2011/08/16(火) 17:26:31.50 ]: Rのように多機能でクールでフリーの幾何学ソフト無いですか？
156 名前：１３２人目の素数さん mailto:sage [2011/08/16(火) 20:01:09.46 ]: 統計と幾何学ではだいぶソフトに求めるものが違うと思うけど、とりあえずこれなんかどう？
sites.google.com/site/geogebrajp/
157 名前：１３２人目の素数さん [2011/08/17(水) 15:07:10.21 ]: 以下のような複数の式に対して、どちらの式がより小さなzを与えるかの境界線をx-y平面上に引くためにはどうしたら良いでしょうか。
式は最大で4つほど、xとyに関しては整数を想定しています。

z=ax+by … (i)
z=cx+dy … (ii)

単純に総当りで(x,y)に対して、zを最小化する式を選ぶだけなら適当に関数を作ればいけそうですが（スマートではないですね…）、その境界をどうやったらグラフに引けるかがわかりません。

どなたか教えてくだされば幸いです。
よろしくお願いします。
158 名前：１３２人目の素数さん mailto:sage [2011/08/17(水) 18:16:26.16 ]: >>157
>z=ax+by … (i)
>z=cx+dy … (ii)
この式でzが等しくなるax+by=cx+dyを引けばよいです。

>式は最大で4つほど
組み合わせが6組あるから6本引いてください。

>xとyに関しては整数を想定しています。
境界線を引くときは整数という条件を無視し、
グラフを見る時に整数が線のどちら側にあるか判断してください。
159 名前：１３２人目の素数さん mailto:sage [2011/09/01(木) 15:41:46.21 ]: R
160 名前：１３２人目の素数さん mailto:sage [2011/09/05(月) 16:54:51.22 ]: 、
161 名前：１３２人目の素数さん mailto:sage [2011/09/05(月) 17:18:37.28 ]: matlab使い慣れてる人向けの
Ｒ入門書ってないでしょうか
162 名前：１３２人目の素数さん mailto:sage [2011/09/05(月) 20:58:24.38 ]: Ramsay, J.O., Hooker, Giles, Graves, Spencer (2010) Functional Data Analysis with R and MATLAB
(Use R) Springer-Verlag
Jan Graffelman (2010) Multivariate Analysis With Matlab And R CRC Press Online
163 名前：１３２人目の素数さん mailto:sage [2011/10/02(日) 01:52:40.21 ]: 基本的なことで申し訳ありません。
ワークスペースを保存しようとすると1kbのファイルしか保存されず、保存に失敗します。
原因がわかればよろしくお願いします。
164 名前：163 mailto:sage [2011/10/02(日) 02:08:38.40 ]: すいません。圧縮されているんですね。
スレ汚しすいません。
165 名前：１３２人目の素数さん mailto:sage [2011/10/04(火) 02:54:00.77 ]: g <- function(x) x^2
plot(g)

こんな感じで半径1の円を描きたいのです。
教えてください。
166 名前：１３２人目の素数さん mailto:sage [2011/10/04(火) 09:53:36.95 ]: >>165
symbols(0,0,circles=1,inches=FALSE)
お望みはこんな感じ？
167 名前：１３２人目の素数さん mailto:sage [2011/10/04(火) 11:45:17.26 ]: >>166 ありがとうございます。

symbols(0,0,circles=1,inches=F, xlim=c(0,2), ylim=c(0,2))

図示されたイメージの縦横比(大きさ)を変えると
円の大きさも変化してしまうのですが…

できれば、sqrt(x^2+y^2)の式を用いて描きたいです
168 名前：152 mailto:sage [2011/10/04(火) 12:39:57.11 ]: >>167
>sqrt(x^2+y^2)の式を用いて描きたい
じゃあそうすればいいじゃん。なぜためらう？
> x <- seq(-1,1,length.out=100)
> y <- sqrt(1^2-x^2)
> plot(x,y,type="l")
これで半円だろ。
> plot(c(x,x),c(y,-y),type="l")
これで円になるだろ。
169 名前：１３２人目の素数さん mailto:sage [2011/10/04(火) 12:40:50.47 ]: 152ってなんだ、166の間違い
170 名前：１３２人目の素数さん mailto:sage [2011/10/04(火) 12:49:40.40 ]: >>168 ありがとうございます。勉強になりました。
171 名前：１３２人目の素数さん mailto:sage [2011/10/04(火) 12:54:05.14 ]: >>170
念のために、ちょっと改良
> plot(c(x,rev(x)),c(y,-y),type="l")

用途によるけど、円を描画したければ、symbolsを使った方が、
アスペクト比に影響されずに正円になるのでよいと思うが。
xy座標で円を描くと、asp=1にでもしない限り、普通は楕円になってしまう。
172 名前：１３２人目の素数さん mailto:sage [2011/10/12(水) 10:45:20.34 ]: パッケージurcaのur.dfでlags=10, selectlags=c("AIC")
のようにAICやBICを使うと、
selectlagsをFixedしてラグを変えて一通り試しても
AICやBICを用いた計算に一致する結果がない、
自分で計算したBICとでは選択されたラグが一致しないなど
どこか間違っている気がします。
ソースを見ても
critRes <-AIC(result, k = switch(selectlags, AIC = 2, BIC = log(length(z.diff))))
lags <- which.min(critRes)
となっていて、当方の利用の仕方に間違いがあるのかどうかも分かりません。
どなたか、この点についてご教示いただければと思います。
173 名前：１３２人目の素数さん mailto:sage [2011/10/23(日) 19:16:11.40 ]: 確率の推定を行いたい
ロジスティック回帰のような、説明変数に対して単調増加する線形じゃなくて
多分ガウス曲線みたいな感じになると思うのだけれども
なんか適当なパッケージないですかね？
174 名前：１３２人目の素数さん mailto:sage [2011/10/24(月) 21:24:37.50 ]: 質問です。

都道府県学年テスト点数
京都 1 85
大阪 2 90
京都 3 70
奈良 2 60
東京 _3 90
・・・

というようなデータフレームDFが存在します。

これを各都道府県別に学年毎のテストの平均点を算出したいのですが、
どうすれば良いのでしょうか?

最初に都道府県別にデータフレームを分割すれば
tapply関数などで集約できるのですが、いかんせんfor loopで回すので
時間がかかります。ループを利用しないような簡単な計算方法はないでしょうか?

府県名 <- sort(unique(DF[,1]))
for ( i in 府県名 ){

}
175 名前：174 [2011/10/24(月) 21:27:18.06 ]: すいません。
途中で送信してしまいました。

現在は

府県名 <- sort(unique(DF[,1]))
for ( i in 府県名 ){
　　　temp <- sub(DF, DF$府県名==i)
　result <- tapply(temp, temp$テスト点数, mean)
}

のようにしてますがいかんせんループで時間がかかります。
よろしくお願いいたします。
176 名前：１３２人目の素数さん mailto:sage [2011/10/24(月) 22:11:15.94 ]: R言語は知らないのですが、考え方だけ。
整数型配列を二つ用意します。大きさは両方とも6*47=282です。
名前はsum、counter。最初は全て0を入れておきます。
配列の１番目は、北海道の１年に対応させ、２番目は青森の１年．．．４７番は沖縄の一年。
４８番は北海道の２年．．．２８２番目は沖縄の６年。
あるいは、１番は北海道の１年、２番は北海道の２年、．．．、６番は北海道の６年、．．．
２７７番が沖縄の１年、．．．２８２番は沖縄の６年。
どちらでもかまいません。
一人目のデータを読み込み、京都１年に対応するデータのsumを点数の分だけ増やし、counterは1増やす。
これを全データで行います。一度スキャンするだけです。
この目的には、ソートは必要ありません。
177 名前：174 mailto:sage [2011/10/24(月) 22:25:22.55 ]: >>176
ありがとうございます。
Cならそれで十分なのですが、Rの場合ベクトルで扱うのでループ処理は遅くなるらしいのです。

もう一点質問です。

CODE　CD　VAL
0001 101 3
0001 201 4
0001 333 5
0002 201 2
0002 333 7
・・・

というデータフレームがある場合に
CODE VAL[101] VAL[102] ........ VAL[201] .............
0001 3 0 ........ 4 ...............

というようなデータフレームに変換するにはどうすればよいでしょうか。
これも現在はループを利用して処理をしております

よろしくお願いいたします。
178 名前：１３２人目の素数さん mailto:sage [2011/10/24(月) 22:51:31.71 ]: データフレーム名をDFとして、中身が
pref grade score
kyoto 1
kyoto 1 85
oosaka 2 90
kyoto 3 70
nara 2 60
tokyo _3 90
・・・
として、
tapply(DF$score, list(grade=DF$grade, pref=DF$pref), mean, na.rm=TRUE)
みたいのではいかんのですか？
いや、私もよくわからんので、Rコマンダーにお伺いをたててみたんですがね。
179 名前：１３２人目の素数さん mailto:sage [2011/10/25(火) 02:06:48.72 ]: >>178
ヘルプを見るとインデックスはlist of factorS とあるから、複数のベクトルをいれれるんだね。勉強になりました。

tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
Arguments

X
an atomic object, typically a vector.

INDEX
list of factors, each of same length as X. The elements are coerced to factors by as.factor.
180 名前：１３２人目の素数さん mailto:sage [2011/10/25(火) 02:12:24.16 ]: >>177
cran.r-project.org/web/packages/HSAUR2/vignettes/Ch_analysing_longitudinal_dataI.pdf
の三ページのreshape()かな
181 名前：１３２人目の素数さん mailto:sage [2011/10/25(火) 02:20:33.81 ]: >>177

＞CODE　CD　VAL
＞0001 101 3
＞0001 201 4
＞0001 333 5
＞0002 201 2
＞0002 333 7
＞・・・
＞
＞というデータフレームがある場合に
＞CODE VAL[101] VAL[102] ........ VAL[201] .............
＞0001 3 0 ........ 4 ...............

reshape(data, idvar="CODE", v.name="VAL", time="CD")

でどうでしょう。
182 名前：１３２人目の素数さん mailto:sage [2011/10/25(火) 02:28:43.43 ]: >>181

reshape(data, idvar="CODE", v.name="VAL", timevar="CD", direction="wide")

でした。
183 名前：１３２人目の素数さん mailto:sage [2011/10/25(火) 09:18:31.89 ]: サポートベクターマシンにて入力変数が多く、
精度を上げるための特徴選択を行おうと思い、
そのためのパッケージとして、"penalizedSVM"が
あると知りました（元々BioInformatics用みたいですが）。

r.789695.n4.nabble.com/Stepwise-SVM-Variable-selection-td3178718.html
cran.r-project.org/web/packages/penalizedSVM/index.html

しかし日本語の解説やリファレンスが皆無で、
英語でも分かりやすい解説がなく、
パッケージの公式リファレンスでは自分にはイミフでした。
cran.r-project.org/web/packages/penalizedSVM/penalizedSVM.pdf

どなたか実際にお使いの方がいれば、具体的に
どのように使用するか教えていただけないでしょうか。
184 名前：17 mailto:sage [2011/10/25(火) 22:44:03.74 ]: 皆様ありがとうございました。
2つとも無事うまく解決できました。
やっぱりよくヘルプを読む必要がありますね。
精進します。
185 名前：１３２人目の素数さん mailto:sage [2011/10/26(水) 00:50:54.90 ]: >>174の例で、各都道府県別+学年毎に分けたグループそれぞれについて
1対1の全組み合わせのt.testを一気に行う方法があるでしょうか?
(loopで回す関数を自作したりしない出来合の方法で)
186 名前：１３２人目の素数さん mailto:sage [2011/10/26(水) 07:28:10.01 ]: >>185
それは、R以前の問題として、不適切だと思うのですが。
あるいは駄目な例としてやるってことかな？
二元配置の分散分析か、何らかの多重比較ではだめなんでしょうか？
187 名前：１３２人目の素数さん [2011/10/31(月) 21:41:20.58 ]: CODE_1 CODE_2 VAL1 VAL2 VAL3 VAL4
＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿
AAAAA 122 NA 2.5 3.8 NA
AAAAA 154 2.4 1 4 5
AAAAA 166 3.4 4.0 4 5
AAAAA 178 NA 33 NA NA
・
・
BBBBB 122 4 3.4 4.3 1
BBBBB 123 NA 2 4 4
BBBBB 154 2 5 5 6
・
・

というようなデータをもつデータフレーム
これをCODE_2毎に相関を算出したいと考えております。

現在は
allcode <- sort(unique(DF$CODE_2))
for ( c_code in 1:length(allcode)) {
TEMPDF <- subset(DF, DF$CODE_2==allcode[c_code])
cor(TEMPDF[, -1][, -1], use = "pairwise.complete.obs")
・・・
}
でおこなっているのですが、いかんせんCODE_2の数が多く、
ループ数が非常におおくなります。

解決策などありますでしょうか？
よろしくお願いします
188 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 08:20:00.30 ]: >>187
code_2を因子化、tapply cor
189 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 10:39:24.41 ]: by(DF[3:5], DF$CODE_2, cor)
でいいんじゃないの？
190 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 11:23:41.66 ]: >>189
>>187じゃないけど、by()ってこんなに便利だったのか。
> V=c(NA,round(runif(10)*10,1))
> dat <- data.frame(C1=sample(LETTERS,50,replace=TRUE),
+ C2=sample(100:105,50,replace=TRUE),
+ V1=sample(V,50,replace=TRUE),
+ V2=sample(V,50,replace=TRUE),
+ V3=sample(V,50,replace=TRUE),
+ V4=sample(V,50,replace=TRUE))
> by(dat[,3:6],dat$C2,cor)
dat$C2: 100
V1 V2 V3 V4
V1 1 NA NA NA
V2 NA 1 NA NA
V3 NA NA 1 NA
V4 NA NA NA 1
------------------------------------------------------------
dat$C2: 101
V1 V2 V3 V4
V1 1 NA NA NA
V2 NA 1 NA NA
V3 NA NA 1.0000000 -0.4458286
V4 NA NA -0.4458286 1.0000000
------------------------------------------------------------
dat$C2: 102
V1 V2 V3 V4
V1 1.0000000 NA 0.1731169 NA
V2 NA 1 NA NA
V3 0.1731169 NA 1.0000000 NA
V4 NA NA NA 1
[以下略]
191 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 11:47:20.47 ]: beebee2see.appspot.com/i/azuYwLSFBQw.jpg
すまんこれ教えてくれ
192 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 12:23:35.93 ]: >>191
見れねーよ
193 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 12:26:19.61 ]: diagを使わずにforで対角行列作れって言われた
九行九列で
194 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 13:07:16.47 ]: >>193
宿題は自分でやれ。
無意味な課題であることには同情するが。
195 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 13:36:14.59 ]: ヒントだけ
> x <- array(0, c(9, 9))
> x[1 + 0:(9 - 1) * (9 + 1)] <- c("九","行","九","列","の","対","角","行","列")
> x
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
[1,] "九" "0" "0" "0" "0" "0" "0" "0" "0"
[2,] "0" "行" "0" "0" "0" "0" "0" "0" "0"
[3,] "0" "0" "九" "0" "0" "0" "0" "0" "0"
[4,] "0" "0" "0" "列" "0" "0" "0" "0" "0"
[5,] "0" "0" "0" "0" "の" "0" "0" "0" "0"
[6,] "0" "0" "0" "0" "0" "対" "0" "0" "0"
[7,] "0" "0" "0" "0" "0" "0" "角" "0" "0"
[8,] "0" "0" "0" "0" "0" "0" "0" "行" "0"
[9,] "0" "0" "0" "0" "0" "0" "0" "0" "列"
２行目をfor文に書き換えればOK
196 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 21:38:31.87 ]: パズルとしてdiag、for以外の方法でやってみた

n=9;matrix(rep(rep(c(1,0),c(1,n)),n),n,n)
197 名前：１３２人目の素数さん mailto:sage [2011/11/01(火) 22:18:26.30 ]: >>196
それは多分、定石に近いやり方だと思う。

APLでは同じロジックで以下のように書く。

n nρ1,(n←9)ρ0
198 名前：１３２人目の素数さん mailto:sage [2011/11/02(水) 01:29:13.55 ]: 一直線に並べた時のパターンを作っているのか
かしこいな
199 名前：１３２人目の素数さん mailto:sage [2011/11/02(水) 10:30:18.51 ]: >>196
rep()の回数にベクトルを指定できるとは知らなかった。
昔からだったっけ？repのexample()を見たら、listのrepとかがある。
もはや何でも有りだなw
200 名前：１３２人目の素数さん mailto:sage [2011/11/02(水) 15:09:25.23 ]: Rでも>197のAPL版みたいにできるんだなあ。warningはでるけど。
> n=3;matrix(c(1,rep(0,n)),n,n)
[,1] [,2] [,3]
[1,] 1 0 0
[2,] 0 1 0
[3,] 0 0 1
Warning message:
In matrix(c(1, rep(0, n)), n, n) :
データ長 [4] が行数 [3] を整数で割った、もしくは掛けた値ではありません
201 名前：１３２人目の素数さん mailto:sage [2011/11/02(水) 18:35:46.71 ]: rep(0,n)じゃなくて rep(0,n-1)ではなくて？
202 名前：１３２人目の素数さん mailto:sage [2011/11/02(水) 20:41:59.14 ]: >>200
そこでWarning出るところにRの設計思想があるのかも。

Rの源流に触れるつもりでAPLの教科書を読んだんだけど、
初っぱなのサンプルでこんな事やっているから

((￣1+ρc),27)ρc←'APL IS HAPPY '

APL IS HAPPY APL IS HAPPY A
PL IS HAPPY APL IS HAPPY AP
L IS HAPPY APL IS HAPPY APL
IS HAPPY APL IS HAPPY APL
IS HAPPY APL IS HAPPY APL I
S HAPPY APL IS HAPPY APL IS
HAPPY APL IS HAPPY APL IS
HAPPY APL IS HAPPY APL IS H
APPY APL IS HAPPY APL IS HA
PPY APL IS HAPPY APL IS HAP
PY APL IS HAPPY APL IS HAPP
Y APL IS HAPPY APL IS HAPPY
203 名前：１３２人目の素数さん mailto:sage [2011/11/02(水) 20:45:02.50 ]: >>202
> ((￣1+ρc),27)ρc←'APL IS HAPPY '

こっちが本来だった。

(12,1+2×ρc)ρc←'APL IS HAPPY '
204 名前：１３２人目の素数さん [2011/11/03(木) 02:20:32.86 ]: Rでガンマ分布の最尤推定量求めたいんだけどどうすればいいんでしょうか
205 名前：187 mailto:sage [2011/11/03(木) 09:38:31.29 ]: >>188,189
遅くなって申し訳ありませんがありがとうございました。
byを使ってかなり高速化することができました。

ところでbyを使って取得すると

$AAAAA
VAL1 VAL2 VAL3 VAL4
VAL1 1.000 xxxx yyyy zzzzz
VAL2 ....

となりますがすべてのCODE2についてVAL1とVAL2~VAL4の相関のみを取り出すには
どうすればよいでしょうか?
byの返り値をresultとすると
for (i in 1:length(names(result))
result[[i]][ , 2:4]
}

とループを回すしかありませんか?
よろしくお願いします
206 名前：１３２人目の素数さん mailto:sage [2011/11/03(木) 10:38:07.92 ]: >>205
どんだけforが好きなんだよw
forの方がむしろ思いつかんわ
207 名前：１３２人目の素数さん [2011/11/03(木) 16:14:38.08 ]: ああいえば　for you
forever are you
208 名前：１３２人目の素数さん mailto:sage [2011/11/04(金) 00:56:32.12 ]: >>205

result[[1:n]][ , 2:4]

ってやったらどうなりますか？
209 名前：187 mailto:sage [2011/11/04(金) 23:43:30.93 ]: >>208
次元が違うと怒られます。。。。
210 名前：１３２人目の素数さん [2011/11/06(日) 16:00:11.33 ]: 基礎的な質問で申し訳ないのですが
膨大なデータから、-1と1を判別して予測する集団学習で
ランダムフォレスト、バギング、ブースティング、SVMの他に有用そうなものってありますか？

ググっても上の4つくらいしか出ないのですが十分ですかね。
211 名前：１３２人目の素数さん mailto:sage [2011/11/06(日) 22:20:02.20 ]: エクセルやNumbersに比べてRって見た目しょぼすぎだなwww味気なさ過ぎ
もうちょっとグラフィックとかマシなのある？Mac使いとしはやっぱ見た目は重要。
212 名前：１３２人目の素数さん mailto:sage [2011/11/07(月) 00:01:59.45 ]: >>211
Rはオブジェクト指向言語、BASIC、C、C++と比べて遥かに使いやすいし現実的な数値計算で使える。

＃Excelと比較してC言語は地味でしょぼい
と嘆かれても困ったもんだ。RはExcelやNumbersとは用途が違う。

但し、重複する所もある。
具体的にはExcelのオプションの分析機能はRの機能と重なる。
使い分けが必要なんだな。
213 名前：１３２人目の素数さん mailto:sage [2011/11/07(月) 00:06:22.28 ]: >>211
え？マジで言ってるとしたら勉強不足としか思えないのだが・・・
フォントを代えるなり、latticeやggplot2等のパッケージを試してみるといいよ
参照：ttp://rgm2.lab.nig.ac.jp/RGM2/

これは蛇足だが、学術ソフトの画像出力として「味気ない」というのは明らかに利点
大事なのは見易さと正確性であって、派手なグラフが良いとか考えていると周りから痛い子扱いされるよ
214 名前：213 mailto:sage [2011/11/07(月) 00:08:09.72 ]: あぁ、アプリ画面等がしょぼいって事でしたら、>>212さんの意見を参考にして下さい
215 名前：１３２人目の素数さん mailto:sage [2011/11/07(月) 00:25:08.30 ]: 俺のお薦めはR Commanderかな。これはRをGUIで使えるようにしたものなの

cwoweb2.bai.ne.jp/~jgb11101/files/R-commander.pdf

優れている点はR Commanderのメニューが
データ、統計量、グラフ、モデル、分布
に分かれているのだけれど、これって数学的な"分析"の手順に沿ったメニュー構成になっている事に気が付く。

ディープな分析をしたい時はRを使うし、事務的な作業をしたい場合はExcelを使う。
世の中の大半はExcelで十分だと思う。Rを使いこなせる人たちは高級な。
216 名前：１３２人目の素数さん mailto:sage [2011/11/07(月) 02:59:23.82 ]: >>213
実にしょぼい

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef