Internet Archive総合 ..
[2ch|▼Menu]
39:名無しさん@お腹いっぱい。
21/08/26 07:53:54.44 .net
今さっき、UTC 22 時台に玉葱経由で保存させようとしたらこれが来たw
おそらく他の制限と同様に 0 時にはリセットされるのかと。
この状態でもアカウントでログインしてあれば保存は可能。
(当然、生で使うものとはアカウントは分けてますよ。)
URLリンク(o.5ch.net)

40:名無しさん@お腹いっぱい。
21/08/26 12:20:31.50 .net
なんかSave Page Nowのページ固まってね?
表示が固まるだけで取得は出来てるけど

41:名無しさん@お腹いっぱい。
21/08/26 15:05:07.94 .net
>>39
アカウント作らなくても、
履歴を消す→クッキーを有効にする→履歴を消す→クッキーを無効にする→履歴を消す...
の作業を2,3回繰り返すと突破できるよ

42:名無しさん@お腹いっぱい。
21/08/26 15:10:10.17 .net
>>41
生挿入と勘違いしたはるで、英文読めへんのかw

43:名無しさん@お腹いっぱい。
21/08/27 16:18:35.90 .net
>>40
普通に取れることもあるけど固まって動かなくなるのがほとんどでしんどい
一日経過しても重いままとかどうしたんだ

44:名無しさん@お腹いっぱい。
21/08/28 05:34:32.31 .net
URLリンク(archive.org)
なんか新しいことを始めてる模様
Save Page Nowでも自動でリンク先を保存してる
これで1ページ保存リクエスト出せばリンク辿って全部保存してくれるかも

45:名無しさん@お腹いっぱい。
21/08/28 05:48:06.55 .net
ちなみに俺がSPNで保存したのを確認してみると、2日後にリンク先をsave-page-now-outlinksで保存してるので時間差がある感じ
将来的にログインしなくてもoutlinksと同じように保存されるならすごく時間の節約になってみんな助かるので期待したい

46:名無しさん@お腹いっぱい。
21/08/28 08:50:45.75 .net
>>37
このサイトからログインすると任意のアカウントの最新3000件ぐらいのツイートURLを取り出せる
ただしリツイートしてるのも含めてだが
URLリンク(www.allmytweets.net)
あとは/save/に投げていけばいい

47:名無しさん@お腹いっぱい。
21/08/28 17:09:28.57 .net
自動でリンク先を撮ってくれるのはいいけど負荷分散も自動化してくれ

48:名無しさん@お腹いっぱい。
21/08/29 13:11:32.00 .net
ArchiveTeamが取ったアーカイブってなぜかCollectionsやAPIに反映されてないことが多いんだよな
何でなんだろ?

49:名無しさん@お腹いっぱい。
21/08/30 19:15:15.06 .net
いつの間にかヤフーニュースを
(トップページに遷移されずに)
スクリーンショットできる機能が復活していた。

50:名無しさん@お腹いっぱい。
21/09/04 00:54:52.92 .net
SPNの送信ヘッダのクッキーにdonation-identifier=英数字; abtest-identifier=英数字とかいうのがあるけど
寄付した金額で扱いを変えていたりするのだろうか?あとABテストの被験者にもされているのか?
Google関連?

51:名無しさん@お腹いっぱい。
21/09/04 03:07:26.10 .net
Hrm.
The Wayback Machine has not archived that URL.
Click here to search for all archived pages under URLリンク(~)

52:名無しさん@お腹いっぱい。
21/09/04 13:59:14.93 .net
hrmの発音がわからん

53:名無しさん@お腹いっぱい。
21/09/04 14:04:48.54 .net
>>52
URLリンク(en.wiktionary.org)
音声付き、本当にこれで良いのかは知らんけど

54:名無しさん@お腹いっぱい。
21/09/04 14:48:54.37 .net
Forvoで調べたらエイチ・アール・エムって読みやがった。
そっちじゃねえ

55:名無しさん@お腹いっぱい。
21/09/04 14:50:36.84 .net
Google翻訳の発音機能だとフーム

56:名無しさん@お腹いっぱい。
21/09/04 16:23:45.81 .net
はらむ?えいちあーるえむ?ふーむ?
割れすぎワラタ

57:名無しさん@お腹いっぱい。
21/09/04 16:33:53.91 .net
Youtube
Sorry
Please try again in ~1 min. Crawling this host is paused
because they notified us that are overloaded right now.

58:名無しさん@お腹いっぱい。
21/09/04 17:57:59.71 .net
( >ω<)/~~ ~1 min

59:名無しさん@お腹いっぱい。
21/09/06 06:21:44.18 .net
>>36
スクロールしての読み下しは出来るが個別ツイートをクリックしても阻まれるな

60:名無しさん@お腹いっぱい。
21/09/06 18:56:51.87 .net
別タブで開いたらまだ大丈夫

61:名無しさん@お腹いっぱい。
21/09/08 19:18:54.65 .net
archive.is が落ちたままだ
URLリンク(web.archive.org)

62:名無しさん@お腹いっぱい。
21/09/08 22:00:50.95 .net
ここの住人になるとそういうのさえアーカイブを通して貼るのかw

63:名無しさん@お腹いっぱい。
21/09/08 22:30:15.17 .net
「落ちてる?」「生きてるだろ」という応酬を何度見てきたことか。

64:名無しさん@お腹いっぱい。
21/09/16 12:24:13.93 .net
ツイッターアーカイブできなくない?

65:名無しさん@お腹いっぱい。
21/09/16 16:29:05.86 .net
668 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2021/09/16(木) 14:26:46.31
Save Page Now
が昨日から全然安定しない・・・
いつ正常になるんだ

66:名無しさん@お腹いっぱい。
21/09/19 10:58:54.62 .net
YouTubeの動画が保存されるのはいいんだけど、さっき見つけた今年の8月に保存されたページでは30秒の広告動画だけしか保存されてない。
parma.ccを見習えよ、てかparma.ccがアップロードしてるのをWaybackに反映させればいいのに

67:名無しさん@お腹いっぱい。
21/09/19 19:26:35.26 .net
/save/がNot Foundedになる

68:名無しさん@お腹いっぱい。
21/09/19 19:58:51.28 .net
Temporarily Offlineが出たり404や503だらけで今日は保存できない

69:名無しさん@お腹いっぱい。
21/09/20 01:48:42.70 .net
サンフランシスコで停電起きてるそうで、IAも巻き込まれてるかもしれない
シスコ近くの複数箇所にデータセンターがあるって昔発表してたけど、
場所を非公開だから停電の地図を見ても確かめられない
まだ完全に復旧するまで時間かかりそう

70:名無しさん@お腹いっぱい。
21/09/20 01:50:37.08 .net
貼り忘れ
IA代表のケールさんのツイート曰く
URLリンク(twitter.com)
(deleted an unsolicited ad)

71:名無しさん@お腹いっぱい。
21/09/20 02:37:27.85 .net
太平洋標準時で午後5時(日本時間で20日午前9時)までに復旧予定
URLリンク(twitter.com)
(deleted an unsolicited ad)

72:名無しさん@お腹いっぱい。
21/09/20 05:15:32.58 .net
外部要因かもしれんのか

73:名無しさん@お腹いっぱい。
21/09/20 22:14:43.29 .net
無知ですみません。質問させてください。
スプレッドシートのリストでアーカイブをかけています。作業の完了メールを受信し、シートには成功したと記述があっても、実際にURLにアクセスしてみると、アーカイブの取得が完了していない旨のメッセージが表示されます。
この場合、内部的にはアーカイブの取得に成功していますか?
それともアーカイブはとれていないのでしょうか。

74:名無しさん@お腹いっぱい。
21/09/20 22:31:00.44 .net
両方よくある

75:名無しさん@お腹いっぱい。
21/09/20 23:31:50.62 .net
>>73
保存したURLが見れるようになるまで時間かかっているか、一部のURLだけ保存に失敗している可能性もある。
/*/でカレンダーに直近の日付で保存されているか確認するのが一番簡単だが、
内部的に保存されているか確認したいなら、ウェブブラウザでも見れるけどcurlのコマンドの場合
curl URLリンク(archive.org)
返答に「"available": true」と直近の日付のtimestampがあるかどうか。あるなら保存できてる。
"available": falseの場合はその次に
curl -I URLリンク(web.archive.org)
ヘッダーに「x-archive-redirect-reason: found capture at 直近の保存時間」があれば保存されている。
この2つのコマンドで見当たらない場合は保存をやり直ししたほうが早い。
ただ、この確認方法でも保存できているのに保存されてないと返ってくることがあるので、俺も困ってる。

76:名無しさん@お腹いっぱい。
21/09/21 01:12:46.90 .net
今日も停電だって
URLリンク(twitter.com)
(deleted an unsolicited ad)

77:名無しさん@お腹いっぱい。
21/09/21 01:15:13.36 .net
スレタイのアーカイブサイトってもしかして停電が相次ぐ州にあるのか?

78:名無しさん@お腹いっぱい。
21/09/21 11:17:06.02 .net
dropboxも除外されてるか
以前は保存できて落とせた気がしたが

79:名無しさん@お腹いっぱい。
21/09/22 19:37:04.10 .net
著作権法厳しくなったら、誰が保存したとか調べよとする輩も出てくるんかね。無理だと信じたいが

80:名無しさん@お腹いっぱい。
21/09/24 03:01:13.72 .net
>>79
IAに限らず誰がアクセスしたのかは第三者には分らんよ
ただアーカイブが少ないサイトだと統計的に同一人物が保存した、とかは分かるかもね
その場合でも個人は特定出来ないけど

81:名無しさん@お腹いっぱい。
21/09/25 06:46:20.97 .net
archive.isで.txtをアーカイブした場合、プレーンテキストを表示させるにはどうしたら良い?

82:名無しさん@お腹いっぱい。
21/09/25 18:39:38.36 .net
im_
fw_

83:名無しさん@お腹いっぱい。
21/09/26 06:37:37.39 .net
それarchive.orgだろ

84:名無しさん@お腹いっぱい。
21/09/29 20:05:16.09 .net
いつの間にかtwitterの動画保存できるようになってるじゃん

85:名無しさん@お腹いっぱい。
21/09/29 20:49:15.44 .net
>>84
(・o ・)ほぉ!

86:名無しさん@お腹いっぱい。
21/09/29 23:07:40.75 .net
消されたtwitterアカウントの過去ツイ遡りたいんだけど、どうやって検索すればいいか分からん

87:名無しさん@お腹いっぱい。
21/10/01 01:01:19.89 .net
わからんならやめたれ

88:名無しさん@お腹いっぱい。
21/10/01 04:25:58.46 .net
中国のweiboってアーカイブ出来ないんでしょうか?

89:名無しさん@お腹いっぱい。
21/10/01 12:24:43.05 .net
新しくURLsタブ出来たけど、バグってるのか表示されないな

90:名無しさん@お腹いっぱい。
21/10/01 14:04:39.61 .net
>>89
バグだね。ホスト名より前の部分 (URL スキーム名 + 斜線) を除くと動く。
URLリンク(i.imgur.com)

91:名無しさん@お腹いっぱい。
21/10/01 20:37:46.76 .net
夏にTwitterアカウントのアーカイブ削除依頼を出したんだけど、
翻訳ソフト使ったけど、
回答が難解すぎてまったく分からない。
アドレスだとかURLか何か要求していることだけは分かったけど、
この場合、何を出せばいいのですか?
今まで使ってたサービスとか昔書いてたブログとか
順次アーカイブから除去していくつもりなんだけど、
最初に手を付けたTwitterですら消し方が分からない……

92:名無しさん@お腹いっぱい。
21/10/01 21:04:21.76 .net
残されて困るようなことを書いたお前が悪い。諦めろ。

93:名無しさん@お腹いっぱい。
21/10/01 22:48:00.80 .net
>>91
本人証明して削除してもらうみたいな話は聞いたことある
Twitterとかブログで削除依頼出してます的な文を投稿をすれば本人だと証明できるのかな
取り敢えず個人情報伏せてメール文貼り付ければ誰か解読してくれるんじゃね?

94:名無しさん@お腹いっぱい。
21/10/02 04:31:41.79 .net
こころんにあるミラーはIAを弾いてるっぽいし、エロゲ系ミラーサイトの大半は閉鎖済みだし どうしようもない

95:名無しさん@お腹いっぱい。
21/10/02 23:58:43.15 .net
URLリンク(wayforward.archive.org)
この未来起こりうる陰謀論みたいなシナリオみたいなのはなんなの
がっかり

96:名無しさん@お腹いっぱい。
21/10/03 00:58:38.21 .net
>>95
確かにビックリな内容だけど俺は安心したわ
検閲が強化され続けてる実情を踏まえると、ここまで最悪のシナリオを想定して運営してくれてるのなら信頼できる

97:名無しさん@お腹いっぱい。
21/10/03 19:43:00.18 .net
コスパ系のサイト保存すると盥回しみたいに転送されまくって元のドメインに戻ってくる仕様クソ過ぎるな。
IAではなくコスパ側の仕様だが。

98:名無しさん@お腹いっぱい。
21/10/03 20:00:54.17 .net
無限盥回しで いつになってもアーカイブが表示されない場合もある。これは酷い

99:名無しさん@お腹いっぱい。
21/10/04 01:43:25.24 .net
コスパ系のサイトとは一体

100:名無しさん@お腹いっぱい。
21/10/05 15:38:13.03 .net
前までURL入れたら見れていたサイトが急に見れなくなる原因ってなんですか?
随分昔の個人サイトで今さら削除申請した訳でも無さそうなのですが何が原因なんでしょう
こういう例がいくつもあります

101:名無しさん@お腹いっぱい。
21/10/05 22:21:22.34 .net
>>100
一時的に見れないって訳じゃないなら削除申請以外考えられないかな
そのサイトのエラーメッセージを貼ってくれないと何とも言えない

102:名無しさん@お腹いっぱい。
21/10/08 09:09:08.20 .net
>>97
TMJ移転のお知らせ

103:名無しさん@お腹いっぱい。
21/10/09 15:57:54.85 .net
ヤフーニュースをアーカイブしてもトップページに遷移されずに
無難にアーカイブできるようになっている。
いつの間にか。

104:名無しさん@お腹いっぱい。
21/10/09 18:48:40.91 .net
楽天は?

105:名無しさん@お腹いっぱい。
21/10/10 06:38:26.34 .net
save-page-now-outlinksが復活してる。
SPN使って手動で保存したページのリンク先がいくつか保存されてるのも確認。

106:名無しさん@お腹いっぱい。
21/10/11 06:09:54.04 .net
インターネットアーカイブ25周年記念ビデオメッセージサイト
URLリンク(internetarchive25.capsule.video)
日系アメリカ人
横浜在住外国人
英語が苦手なチー牛

107:名無しさん@お腹いっぱい。
21/10/13 21:58:44.94 .net
Sorry
This host has been already captured 100,000 times today. Please email us at "info@archive.org" if you would like to discuss this more.

108:名無しさん@お腹いっぱい。
21/10/14 03:19:26.35 .net
応じてくれるの?

109:名無しさん@お腹いっぱい。
21/10/14 05:00:41.52 .net
アーカイブが見れなくなったことを質問したときの回答
>Please note that the Wayback Machine uses multiple layers of indexes to internally access archives of URLs.
>Therefore, from time to time, information is moved from one index before it is available in the “next” index.
>Our engineers are working to address the root cause of this breakdown to reduce the probability it will happen.
>However, with > 1 billion URLs/day flowing into the system, and less hardware than we would like, it is a bit harder to fix once and for all.
>Typically, though, what you see is what the Archive captured when it visited the webpage (and what we have).

110:名無しさん@お腹いっぱい。
21/10/14 18:30:08.24 .net
英語じゃないか

111:名無しさん@お腹いっぱい。
21/10/14 19:17:27.38 .net
>>110
だからどうした低能
英語のサイトの話をしてるくせに

112:名無しさん@お腹いっぱい。
21/10/14 20:54:09.53 .net
口が悪い…

113:名無しさん@お腹いっぱい。
21/10/16 01:27:51.93 .net
>>107
最近これが頻繁に出る
その日初めてのアーカイブでも出る

114:名無しさん@お腹いっぱい。
21/10/16 06:14:39.06 .net
>>113
既に「一日」の3分の2が過ぎてる時間帯にそんなこと書いてる時点でお察し

115:名無しさん@お腹いっぱい。
21/10/17 21:25:56.42 .net
>>114
アメリカ基準だからってこと?

116:名無しさん@お腹いっぱい。
21/10/18 07:27:23.85 .net
>>115
それじゃ計算合わないよね。
所在地は米国だけど、世界標準を意識してか日付の区切りは協定世界時なんだな。
例えば >>39 の「今さっき」は 22 時台。
0 時は日本時間朝 9 時。

117:名無しさん@お腹いっぱい。
21/10/18 08:57:01.05 .net
ああ、UTC基準なのか
所在地の日時かと思ってた

118:名無しさん@お腹いっぱい。
21/10/19 15:38:16.80 .net
ロンドン時間なのか

119:名無しさん@お腹いっぱい。
21/10/19 19:05:40.90 .net
ロンドンタイムズ

120:名無しさん@お腹いっぱい。
21/10/20 22:39:18.13 .net
皆さんはどのようなサイトを保存していますか?

121:名無しさん@お腹いっぱい。
21/10/22 20:16:41.27 .net
URLリンク(web.archive.org)URLリンク(bbs.avi.jp)
URLリンク(web.archive.org)URLリンク(bbs.avi.jp)
このサイトの小説を見たいのだけど復旧方法あるかな

122:名無しさん@お腹いっぱい。
21/10/22 20:26:16.31 .net
>>121
それはちゃんと保存されていないからみられないが
サイト自体が現在も生きている
URLリンク(xiongmaoshudian.web.fc2.com)

123:名無しさん@お腹いっぱい。
21/10/22 21:29:48.28 .net
>>122
うーん、このサイトのが見たいんだよな

124:名無しさん@お腹いっぱい。
21/10/27 13:57:13.16 .net
>>120
・引用したサイト(消えたら意味不明になるので
・企業系など上書き更新されるサイト

125:名無しさん@お腹いっぱい。
21/10/27 13:57:51.32 .net
>10/27(水)の午前8時から午後1時(太平洋夏時間)の間に計画停電が発生したため、一部のサービスが影響を受ける可能性があります。

126:名無しさん@お腹いっぱい。
21/10/27 16:25:16.45 .net
日本時間で28日午前0時から5時だな

127:名無しさん@お腹いっぱい。
21/10/27 16:46:00.02 .net
検索するとサンフランシスコでは先週末の暴風雨の影響で一部の地域で停電とネット停止してまだ復旧終わってないそう
電気自動車やカリフォルニアの窃盗軽犯罪化と盗電どころじゃねーわw
データセンターがある環境悪すぎ

128:名無しさん@お腹いっぱい。
21/10/28 00:06:10.40 .net
>>120
俺は新型コロナ・ワクチン関係の記事とか発言保存してるわ
世界大戦並みの負の遺産として将来語り継がれると個人的に思ってるから

129:名無しさん@お腹いっぱい。
21/10/28 14:30:10.73 .net


130:"noopener noreferrer" target="_blank" class="reply_link">>>122 昨日そのサイト内の保存されてない40ページほどをSPNに投げて保存しといた



131:名無しさん@お腹いっぱい。
21/10/28 15:40:15.32 .net
俺はTwitter保存してる

132:名無しさん@お腹いっぱい。
21/10/29 00:37:39.37 .net
>>109
久しぶりに消えたアーカイブ見たら復活してました
一時的に消えることがあるみたいです

133:名無しさん@お腹いっぱい。
21/10/29 01:28:08.82 .net
最近 Google Chrome で archive.is が archive.md にリダイレクトして
DNS_PROBE_FINISHED_NXDOMAIN エラーになってた。
セキュアDNS設定を Cloudflare から Google に変更して解決。

134:名無しさん@お腹いっぱい。
21/10/29 12:42:57.33 .net
>>128
同じこと考えてた。

135:名無しさん@お腹いっぱい。
21/10/30 00:38:00.23 .net
世界史に残る病気ってもっと「半分の確率で死ぬ恐怖の奇病」みたいなものを想像してたな
「風邪+α」の、+α部分が絶妙に対処しづらくてこんな大事件になるとは

136:名無しさん@お腹いっぱい。
21/10/31 20:50:00.87 .net
とあるサイトをアーカイブしたいのですが
No URL has been captured for this domain.
と出ます
これはもう何をしても無理でしょうか?

137:名無しさん@お腹いっぱい。
21/10/31 21:14:29.11 .net
>>135
これからアーカイブするんだろ?
そのドメインでアーカイブ済みのURLがあろうが無かろうが関係無いだろが

138:名無しさん@お腹いっぱい。
21/10/31 23:18:41.29 .net
>>136
保存できないんです
URLに日本語が含まれているせいでしょうか
勝手に記号化してくれますが無理なようです

139:名無しさん@お腹いっぱい。
21/11/01 01:35:41.17 .net
If something went wrong click here to send us an error report.

140:名無しさん@お腹いっぱい。
21/11/01 10:33:55.59 .net
80%が2回接種済みのシンガポール
陽性者数はまだウナギ登り状態
URLリンク(i.imgur.com)

141:名無しさん@お腹いっぱい。
21/11/01 10:34:20.66 .net
>>139
誤爆すまん

142:名無しさん@お腹いっぱい。
21/11/02 17:31:29.73 .net
>>139
ちゃんとアーカイブされていた

143:名無しさん@お腹いっぱい。
21/11/02 18:50:30.74 .net
インターネットアーカイブがサービス終了する未来はあると思いますか?
サーバーの維持費や違法性などが理由で

144:名無しさん@お腹いっぱい。
21/11/02 18:56:43.14 .net
違法性w

145:名無しさん@お腹いっぱい。
21/11/03 19:05:27.57 .net
internetarchiveに寄付しよう

146:名無しさん@お腹いっぱい。
21/11/04 01:52:35.20 .net
そういえば訴訟の裁判は今月から始まるんだっけか?
今はどうなってるか分からないけど
URLリンク(www.publishersweekly.com)

147:名無しさん@お腹いっぱい。
21/11/04 16:28:58.64 .net
自分のツイートのアーカイブって消そうと思えば消せるの?

148:名無しさん@お腹いっぱい。
21/11/04 17:46:33.64 .net
>>146
消したくなるようなことは書くな
歴史修正主義者は失せろ

149:名無しさん@お腹いっぱい。
21/11/05 01:58:35.57 .net
APIのレスポンス、リダイレクトの場合も空で返ってくるのか・・・

150:名無しさん@お腹いっぱい。
21/11/07 05:47:59.29 .net
何この訳分からんエラー
Unknown error for chrome-error://chromewebdata/ (HTTP status=0).

151:名無しさん@お腹いっぱい。
21/11/13 23:05:28.24 .net
【皆様へ大切なお知らせ】過去動画の公開停止と今後の配信について - YouTube
URLリンク(www.youtube.com)

152:名無しさん@お腹いっぱい。
21/11/14 17:31:28.15 .net
noteとInstagram保存したい

153:名無しさん@お腹いっぱい。
21/11/15 01:03:53.70 .net
ヤフオクのページを取得しようとすると、
Unknown error for chrome-error://chromewebdata/ (HTTP status=0).
と出て取得できない。

154:名無しさん@お腹いっぱい。
21/11/15 03:36:09.51 .net
>>152
試しに force_get=1 のパラメータを追加して保存させてみると
The server didn't respond in time for https:〜 のエラーが返る。
ヤフオクが Internet Archive の接続を拒否しているのは間違いないね。
ただ、どうしてこれが IA から事前に送られているはずの HEAD リクエストで
検出できていないのかが解らん。
HEAD は 200 OK しておきながらいざ GET となると無応答で、
ヘッドレスブラウザの返したエラーページの chrome-error URL を
そのまま表示しちゃったりしているのか?
パラメータについても HEAD やら GET やらについても >>4 のドキュメントを参照。

155:名無しさん@お腹いっぱい。
21/11/16 06:06:12.95 .net
This page is unavailable for archiving right now!
This page is available on the web but its quite busy. Please check again later.

156:名無しさん@お腹いっぱい。
21/11/16 19:54:51.84 .net
それって何がbusyなの?元サイト?アーカイブ?

157:名無しさん@お腹いっぱい。
21/11/16 20:46:36.21 .net
weiboってアーカイブできない?

158:名無しさん@お腹いっぱい。
21/11/17 02:09:52.09 .net
imgurがserver errorやnot foundでとれない

159:名無しさん@お腹いっぱい。
21/11/17 04:30:52.28 .net
たまにsavepagenowで404NotFoundが出るのは鯖が重いんだろうか

160:名無しさん@お腹いっぱい。
21/11/17 04:50:37.25 .net
Not FoundだったりThe same snapshot had been made * minutes and ** seconds ago. だったり

161:名無しさん@お腹いっぱい。
21/11/17 05:16:51.29 .net
Not Foundと出る割には取得できてる場合も

162:名無しさん@お腹いっぱい。
21/11/17 23:42:00.76 .net
中国とロシアからブロックされてるというのは中国ロシアの国からはアクセスできないってこと?
weibo普通に保存できたけど中国のサイトを日本人がアーカイブするのは可能なんだね

163:名無しさん@お腹いっぱい。
21/11/18 00:21:19.12 .net
>>161
お前が無知だからそんなことで感心していられるんだよ

164:名無しさん@お腹いっぱい。
21/11/18 11:09:29.58 .net
無知ですいません
てっきり中華サイトとか無理なのかと思ってた

165:名無しさん@お腹いっぱい。
21/11/20 06:50:42.94 .net
Service Unavailable for None (HTTP status=503).

166:名無しさん@お腹いっぱい。
21/11/21 14:54:01.35 .net
Sorry
Please try again in ~1 min. Crawling this host is paused
because they notified us that are overloaded right now.

167:名無しさん@お腹いっぱい。
21/11/21 20:24:57.76 .net
in ~1 minってどういう意味なん?
日本語で「〜1分」だったら1分以内だけど文脈的に逆っぽい気がする
もし以上だとしたらどういう原理で前に~が付くんだろうか

168:名無しさん@お腹いっぱい。
21/11/21 20:57:53.56 .net
英語では約 1 分 (approximately)
URLリンク(docs.google.com)
2021-05-23
(略)
If a target site returns HTTP status=429 (too many requests), we pause crawling that for a minute.
この仕様をそのように説明してるんじゃないのか

169:名無しさん@お腹いっぱい。
21/11/21 23:34:58.31 .net
なるほど、約なんだ。

170:名無しさん@お腹いっぱい。
21/11/22 00:52:22.11 .net
旧~聖書

171:名無しさん@お腹いっぱい。
21/11/22 23:31:5


172:1.26 .net



173:名無しさん@お腹いっぱい。
21/11/23 00:33:15.25 .net
そもそもどういうときに保存されるのかよくわからんぜ

174:名無しさん@お腹いっぱい。
21/11/23 19:59:31.87 .net
>>170
outlink とは、自ホスト内でなく他ホストへのリンクのことですよ

175:名無しさん@お腹いっぱい。
21/11/23 20:25:03.86 .net
>>172
> outlink とは、自ホスト内でなく他ホストへのリンクのことですよ
おいおいw

176:名無しさん@お腹いっぱい。
21/11/24 20:00:32.10 .net
画像単独でSPNする人いるんだね

177:名無しさん@お腹いっぱい。
21/11/25 10:09:28.50 .net
普通にやるでしょ。
うpろだやImgurの画像を保存したい時とか。期限切れや削除依頼されてすぐ消えるじゃん。

178:名無しさん@お腹いっぱい。
21/11/25 15:47:24.28 .net
単独なのかどこかに埋まってたのかはどう判別したらいいの?

179:名無しさん@お腹いっぱい。
21/11/25 16:32:19.77 .net
画像付きってアーカイブしても何年後とかに消えたりしませんか?
昔のサイトを見ても画像だけ見れないの多くて

180:名無しさん@お腹いっぱい。
21/11/26 02:35:55.32 .net
それは単にアーカーブされてないんだと思う

181:名無しさん@お腹いっぱい。
21/11/26 05:49:26.19 .net
昔のアーカイヴ技術が微妙で上手く保存できてなかったんでしょ、どうせ。

182:名無しさん@お腹いっぱい。
21/11/26 12:17:41.76 .net
今でもJavaScript乱用していてスクロールやクリックしないとサイトの内容が完全に表示されなかったり、
レイジーロードで遅延読み混みしてるサイトは画像が保存されてない可能性がある。
画像のURLを抜き出してSPNで1個ずつ保存するのが一番確実だけど、まあめんどくさい。
Googlebotですら対応できてないものをIAでできないだろうな。

183:名無しさん@お腹いっぱい。
21/11/26 13:56:44.46 .net
そもそもヘッドレスブラウザを実装して、必要な画像も一緒に保存できるようになったのが
Internet Archive の長い歴史の中でごく最近の話なんだけどな。
それまではアーカイブ済み HTML を誰かが表示して初めて画像の URL が IA に送られ
保存を試行するという仕組みが採られていたけど、種々の利用により
上手く動作しないことがあった。

184:名無しさん@お腹いっぱい。
21/11/26 17:30:44.16 .net
昨日辺りからTwitterのツイートのページを取得すると新UIになってしまった・・・
数日前までは取得すると何故か旧UIで取得されるようになってたけど、ついに対策されたか・・・

185:名無しさん@お腹いっぱい。
21/11/26 23:50:05.84 .net
twitterの魚拓の質が上がってきてるな

186:名無しさん@お腹いっぱい。
21/11/27 20:44:50.24 .net
俺が7月にSPNで保存したページに表示されていた、保存失敗した画像を、
11月の今になってsave-page-now-outlinksが保存してるのを発見した。
過去のページをさかのぼって保存できてない画像を自動で保存してくれるのはありがたい。

187:名無しさん@お腹いっぱい。
21/11/28 14:35:12.25 .net
wayforwardって以前waybackmachineから削除されたサイトでもタイムカプセル出来るの?

188:名無しさん@お腹いっぱい。
21/11/28 20:47:12.32 .net
>>181
ページ中の画像が取得されるようになったのってマジで最近(2020年)だしな

189:名無しさん@お腹いっぱい。
21/11/28 23:36:13.01 .net
まあ大変なのは素人目にもわかるわ

190:名無しさん@お腹いっぱい。
21/11/30 01:01:47.65 .net
No URL has been captured for this domain.
日本語がURLに入ると上のように出てダメです
どうやって保存したら良いですか?
初心者なので誰か教えて下さると有難いです

191:名無しさん@お腹いっぱい。
21/11/30 19:41:07.68 .net
>>188
日本語URLでもアラビア語でも普通に取れるよ
ちゃんとsave page nowに入れてる?
そのエラーはspnでは出ないと思うけど

192:名無しさん@お腹いっぱい。
21/11/30 21:27:20.15 .net
>>189
できました!
勘違いしていました本当に有難うございました

193:名無しさん@お腹いっぱい。
21/12/01 15:39:29.57 .net
>>174
NHK系とか素直じゃない構造のやつとか期間が来たら別画像で上書きしたり引っ越したりするサイトで必要

194:名無しさん@お腹いっぱい。
21/12/01 22:24:22.95 .net
>>186
えー、/web/URLリンク(&am)


195:p;#12316;をWebブラウザから見て、そのページの画像が保存されてなかったら自動で元のサイトに取りに行って保存して表示する仕組みは昔からあったよ。 少なくとも10年前にはあったはず。今のSave Page Nowの前身Liveweb Proxyでもやってた。SPN登場前は今みたいな同時保存回数の制限すらなかった。 といっても、サイト消えてる時にWayback Machineの保存ページを見るのがほとんどだから、消えたサイトの保存されてない画像は永遠に表示されないのが現実なわけで。



196:名無しさん@お腹いっぱい。
21/12/01 23:32:05.46 .net
それの話をしてるんじゃないと思うよ…
それはレス元の>>181が言ってるやつの派生かと

197:名無しさん@お腹いっぱい。
21/12/02 20:17:19.41 .net
リダイレクトのとき、if_not_archived_within が効かない

198:名無しさん@お腹いっぱい。
21/12/02 22:42:31.47 .net
えー効いてるように思えるけどな
逆に、直近の 200 応答のアーカイブが無視されてしまい、
アーカイブしない条件のはずなのにアーカイブしてしまったことがある

199:名無しさん@お腹いっぱい。
21/12/03 00:33:15.45 .net
前スレ836で捨てアドでアカウント作れないって書いてる人いたけど、色々試したが今は作れるみたい。
ただし、アップロードするときにお前のメアドはスパム臭えってエラーが出ることがあるので、
適当すぎる文字列じゃなくてフィルタに引っかからない自然なメアドでアカウント作ればOK。

200:名無しさん@お腹いっぱい。
21/12/03 00:36:39.06 .net
あと、
URLリンク(web.archive.org)から始まる保存されてるページを一覧表示してくれる機能がちょっと新しくなったみたいで、表示できない問題が起きてる。
フォームにも書いてる人いる。
URLリンク(archive.org)

201:名無しさん@お腹いっぱい。
21/12/03 16:05:14.95 .net
今のところ197のエラーは直ったかな

202:名無しさん@お腹いっぱい。
21/12/03 20:38:52.18 .net
サイト側から削除依頼以外で消されることってあるの?excludedって出る。復活掲載は絶望的かしら。

203:名無しさん@お腹いっぱい。
21/12/03 23:27:32.07 .net
永久に残るなんて有り得ないからね

204:名無しさん@お腹いっぱい。
21/12/04 10:23:17.08 .net
save out linksにチェックを入れてるのに無視しやがる…
最近は取得エラーも多発してたし、そんなに負荷のかかる代物なのだろうか…

205:名無しさん@お腹いっぱい。
21/12/04 10:35:35.43 .net
IAに削除させたのに自社サイトに他社のIAアーカイブURLのリンク貼ってる企業ってどう思いますか?
A「B社は過去にこんなサイト内容でした、と」
A「おいIA、勝手にうちのサイトをアーカイブしてんじゃねえ!」

206:名無しさん@お腹いっぱい。
21/12/04 12:03:29.09 .net
>>202
中国人・朝鮮人・韓国人や奴らの政府の身になって考えてみなよ。

207:名無しさん@お腹いっぱい。
21/12/04 15:02:23.86 .net
>>203
難しすぎてわかりません。

208:名無しさん@お腹いっぱい。
21/12/04 19:05:52.50 .net
Unknown error多すぎ

209:名無しさん@お腹いっぱい。
21/12/05 16:41:53.58 .net
なんか最近3分の2くらいの確率で保存できない

210:名無しさん@お腹いっぱい。
21/12/05 19:37:59.98 .net
Unknown error for chrome-error://chromewebdata/ (HTTP status=0).
これはもう諦めるしかない?

211:名無しさん@お腹いっぱい。
21/12/06 18:56:36.91 .net
Firefox のプライベートモードで URLリンク(archive.org) を開いて入力欄に文字を入れると
その文字が見えなくなってしまうという問題が起きていたけど、直ったのね

212:名無しさん@お腹いっぱい。
21/12/08 00:32:57.69 .net
URLリンク(web.archive.org)
でドメインとディレクトリ指定して保存されてるページが一覧で見れるのが改悪してる!
今まで10万ページまでだったのに、1万ページに減ってるんだが
More than 10,000 URLs have been captured for this URL prefix.

213:アジア・バンバータ(北海道)
21/12/08 22:28:45.46 .net
ここの老舗魚拓サイトって、BATとかいう仮想通貨をコジってるよな
Braveってブラウザ使って閲覧すると、寄付の案内が出てくるんだが
この話既出だったらゴメン

214:名無しさん@お腹いっぱい。
21/12/09 22:30:51.97 .net
そりゃBraveブラウザで広告費や寄付受け取るサイト運営者の登録やってるから表示はするでしょ。
寄附キャンペーン中だからってのもあるだろうけど、気になるなら広告ブロックか何かで要素ごと消せばいいよ。

215:名無しさん@お腹いっぱい。
21/12/10 05:27:52.68 .net
BATが寄付出来るのはBraveブラウザの基本機能なんだがな・・・
単なるアドブロッカーか何かと勘違いしてないか?

216:名無しさん@お腹いっぱい。
21/12/11 13:17:53.59 .net
URLリンク(web.archive.org)
へぇーこんなページがあるんだ
URLリンク(web.archive.org) からここへリダイレクトされたわw
URLリンク(o.5ch.net)

217:名無しさん@お腹いっぱい。
21/12/11 17:06:24.95 .net
腹立つわ 鍵の開け閉めを繰り返してすぐツイ消しする奴のツイート記録しようと思ったのにここ最近上手く記録してくれないから記録出来てない内にツイート消された
そもそもツイ垢のトークンとか使えるようにしてくれたら鍵垢の鍵が開くまで待って開いた瞬間から開いてる内に飢えたピラニアみたいにアーカイブ録りまくる必要もなくなるのに

218:名無しさん@お腹いっぱい。
21/12/11 21:41:13.96 .net
Twitterは、
URLリンク(web.archive.org) (いつも失敗)と
URLリンク(archive.today)<)

219:名無しさん@お腹いっぱい。
21/12/11 21:57:37.67 .net
>>214
自身はTwitterにログインしてないブラウザで取りに行ってるの?
俺が巡回してた鍵アカのログは直接本人にフォロー承認もらったから残そうと思えば何時でもブラウザのページ保存で残せるけど…
最近のTwitter社はアーカイブするとレイアウトが崩れたり議論ツリー記録しに行っても余計な「固定ツイート」まで混ざったりして改悪し過ぎだけど…

220:名無しさん@お腹いっぱい。
21/12/11 22:36:19.94 .net
>>216
> 残そうと思えば何時でもブラウザのページ保存で残せるけど…
ローカル保存でオナって満足してる奴は巣に帰れ

221:名無しさん@お腹いっぱい。
21/12/11 23:55:31.56 .net
>>214
今仕方なくPCとスマホアプリのTL参照しながらどれが消えててどれが消えてないかを確かめながらスクショをペイントに貼って1日のツイート纏めてるところ
twitterのTLもずっと残らないのが腹立つんだよなぁ
やり方さえ知ってればネット使える誰もが見れるってのがいいんだよ
暇さえあれば消えたツイ垢のツイートひたすら漁ったりするし何年も活動してる垢が将来的に消える可能性に備えてウン万ある過去のツイートを一個一個手作業で保存させたり…
この保存作業もたった一人の人力だと不毛なんだよなぁ Wayback machineが自動でツイート取るようになる以前のツイートも自動で集めとけよって思う

222:名無しさん@お腹いっぱい。
21/12/12 03:19:28.82 .net
2:00くらいからずっと503 Service Unavailable

223:名無しさん@お腹いっぱい。
21/12/12 09:50:54.47 .net
TLS1.2の壁なのかどうしても取れなかったり、表示レイアウトの異なるUserAgent別(PC⇔スマホ⇔ガラケー等)には直接取り分けらなかったりするのは、いったんローカル保存してからどっかのレンタル鯖に上げ直してアーカイブしている。

224:名無しさん@お腹いっぱい。
21/12/13 20:11:59.31 .net
jsonファイルで保存されたツイートのアーカイブって復元出来んのかなぁ
何て描かれてたかすらわからん

225:名無しさん@お腹いっぱい。
21/12/14 00:44:54.05 .net
最終的に残りそうなアーカイブサイトは何処?
やはりウェイバックマシン?

226:名無しさん@お腹いっぱい。
21/12/14 16:23:58.84 .net
ウェイバック

227:名無しさん@お腹いっぱい。
21/12/14 17:05:35.98 .net
営利企業がやってるやつとかtodayみたいに素性が不明のものは消える可能性が高いと思う
残るのはIAかCommon Crawlらへんだと思う

228:名無しさん@お腹いっぱい。
21/12/14 18:47:58.89 .net
Waybackは広く浅くはいけるが深い所まで保存出来んのがな
ツイートの2分までしかアップロード出来ん動画すら保存されないという有様だ
動画みたいな重めのファイルを自分の手許にずっと置きたくはないけどネット上からは消えさせないようにするにはどこにアップロードするのがいいんだろうか?

229:名無しさん@お腹いっぱい。
21/12/14 19:44:04.04 .net
URLリンク(archive.org)

230:名無しさん@お腹いっぱい。
21/12/14 21:56:30.93 .net
twitterのプロフィールを片っ端から手動保存してる人おる?

231:名無しさん@お腹いっぱい。
21/12/14 23:01:17.40 .net
Waybackは保存してるサイト自体は多くて助かるんだが検索機能が糞過ぎるんよな

232:名無しさん@お腹いっぱい。
21/12/14 23:02:57.85 .net
昨日からサイトマップが何も表示されないんだが俺だけか?
URLリンク(web.archive.org)URLリンク(www.2ch.net)

233:名無しさん@お腹いっぱい。
21/12/15 11:31:05.78 .net
高性能なワード検索機能欲しいよな

234:名無しさん@お腹いっぱい。
21/12/16 00:50:27.36 .net
URL部分マッチと<title>検索だけでもあれば全然違う

235:名無しさん@お腹いっぱい。
21/12/16 22:47:16.08 .net
PDF検索は出来るようになったっぽい?

236:名無しさん@お腹いっぱい。
21/12/19 15:01:04.51 .net
Youtubeの規制が緩くなったと思ったら今度はTwitterが厳しくなってる
前から思うけど1分待っても取れないの笑う
Sorry
Please try again in ~1 min. Crawling this host is paused because they notified us that are overloaded right now.

237:名無しさん@お腹いっぱい。
21/12/19 20:12:59.69 .net
CDX APIのURLはweb.archive.org/cdx/以降は適当でも大丈夫なんだな

238:名無しさん@お腹いっぱい。
21/12/19 20:24:57.52 .net
( >ω<)/~~ ~1 min

239:名無しさん@お腹いっぱい。
21/12/21 06:05:09.19 .net
API調子悪い

240:名無しさん@お腹いっぱい。
21/12/22 12:56:49.40 .net
>>233
Google検索結果も取りにくい

241:名無しさん@お腹いっぱい。
21/12/24 21:50:09.68 .net
Sorry
This URL is in our block list and cannot be captured.
これ初めて見た。公式Twitterだし変な内容でもないのに

242:名無しさん@お腹いっぱい。
21/12/25 01:03:49.06 .net
>>238
それ最近増えた印象
まぁ妥当だろうなってサイトもあれば(アーカイブサイトとしてどうかとは思うけど)
何でこのサイトが?っていうのもあってよく分からない

243:名無しさん@お腹いっぱい。
21/12/25 02:45:51.97 .net
インターネットアーカイブが存在する意味が無くなる

244:名無しさん@お腹いっぱい。
21/12/25 11:12:34.49 .net
まあ別にSPNに頼らず、捨て垢作ってarchive.orgの方にwarcかzipでアップロードしとけば保存できるし、
将来非表示ブロックが解除されたときに見れればいいので、ブロックされてようがあんまり気にはしない。

245:名無しさん@お腹いっぱい。
21/12/27 18:52:49.92 .net
twitterの保存制限する理由がよくわからん

246:名無しさん@お腹いっぱい。
21/12/29 20:59:16.27 .net
Twitter公式がムチャクチャ重くなったからツイート本文だけ取りたい場合は
「Twitter検索サービス( URLリンク(t-proj.com) )」
のキャッシュログから取ったりする。

247:名無しさん@お腹いっぱい。
21/12/31 15:53:34.66 .net
>>225
ソースコードから動画のURL(pbs.twimg.comから始まるやつ)を抜き出して、そのURLをそのまま保存すればいいよ、
と思ったが、最近Twitterの動画は仕様が変わって、mp4ファイルとかじゃなくて、m3u8とm4sファイルで小分けになってるのか。
UserAgent変えて昔のWebブラウザのに変えても完全なmp4ファイルのURLが流れてこなかった。
これは保存できないな。

248:名無しさん@お腹いっぱい。
21/12/31 20:49:57.68 .net
そういうやつ困るわね

249:名無しさん@お腹いっぱい。
21/12/31 23:32:11.69 .net
m3u8ったらアニメイトのWebラジオをひさびさ端末に保存試行したさい遭遇して苦闘したことあったな…
あの後すぐ配信変更でもう付き合いきれなくなったわ

250:名無しさん@お腹いっぱい。
22/01/01 01:14:26.06 .net
あけましておめでとうございます

251:名無しさん@お腹いっぱい。
22/01/01 04:26:13.37 .net
明けましておめでとう。
前からあるTwitterの動画URL抽出するサイトにツイートのURLを入れると、mp4とm4sファイルのURL一覧が出てくる。今でも機能するっぽい。(アフィ広告注意)
URLリンク(lab.syncer.jp)
ちょっと検索して出てきたのは、Bearerトークンを使えばAPIからmp4のURLを抜き出せるらしい。こんなツールを公開してる人もいる。
URLリンク(github.com)
動画URL単独の保存もいいけど、保存したツイートのスナップショット自体に動画が表示されて再生できないと、証拠目的なら意味ない気がする・・・

252:名無しさん@お腹いっぱい。
22/01/01 21:39:29.68 .net
動画とか画像のURLから元記事がわからないからな


次ページ
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

28日前に更新/236 KB
担当:undef