【AI】Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用 [すらいむ★]
Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用
英Stability AIは2月22日(現地時間)、画像生成機械学習モデルの新版「Stable Diffusion 3.0」の早期プレビューを発表した。
新しいアーキテクチャを採用し、画質、マルチサブジェクト・プロンプトの処理、テキスト生成の精度が向上している。
22日に早期プレビューのウエイティングリストへの登録受付が始まった。
これは、一般公開に先駆けて性能と安全性を向上させるためのフィードバック収集を目的としている。
(以下略、続きはソースでご確認ください)
マイナビニュース 2024/02/24 12:46
https://news.mynavi.jp/article/20240224-2890986/ transformerと書くとAI関連用語だが
カタカナでトランスフォーマーと書くと何かの映画にしか思えなくなるwww
まああえてそういう受けを狙った用語だから紛らわしいのは仕方ない
単なるテンソルの変換を多層にせずにほぼ一辺にやっちまおう!って話なんだが 面倒で難しい「私はロボットではありません」をワンクリックで突破できるCAPTCHA自動回答ツール「Buster」レビュー
https://gigazine.net/news/20240225-buster-captcha-solver/
上記のソフトを使用すれば
正確に画像の違いを認識しているので正確に描けるのではないかな 風景画ではAIと人間のどちらが描いたかを見抜けないことが明らかに
https://nazology.net/archives/145210
風景画ではAIと人間のどちらが描いたかを見抜けないことが明らかに
背景を先に書いてから人物等を描けばよいとも読み取れます ルネサス、130TOPSを実現したエッジAI向け組み込みプロセッサ技術を開発
https://news.mynavi.jp/techplus/article/20240226-2890024/
これと組み合わしてロボットも絵を描けれるようになるのか 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」
https://ascii.jp/elem/000/004/185/4185940/?topnew=4 >>5
おお
日本も相当な周回遅れながら
14nmでしかも独自手法で
AIプロセッサ作って来てる
だがその1/3くらいが世界の標準で
今から作るなら2nm!って言われてる時代だからなあ
その2nmを記事のルネサスでなくラピダスが作ろうとしているが
果たして可能かなあ MetaのAudioboxを試す、指定の効果音や音声読み上げを文章から作れる生成AI
https://ascii.jp/elem/000/004/185/4185978/?topnew=10
効果音に使用ですね 音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場
http://gigazine.net/news/20240222-anygpt/
BGMも作成可能 【Suno AI】テキストだけで曲、歌詞、歌声を作れる禁断の音楽生成AIの使い方〜実践まで
https://weel.co.jp/media/suno
AIサッキョク-今すぐAIで簡単に作詞-
https://www.aisakkyoku.com/ 正体不明ボイス・トォ・スカルで
コラ画像を生成して被害者をの姿と肉声をネットに流していると急に言われました
公共の場での盗聴盗撮で収集したデータを使用している模様 ディープフェイクとは?AIを使うなら知っておきたい悪用事例
https://weel.co.jp/media/deep-fake
悪用厳禁ソフトウェアの紹介もあり AIの技術を使えば個人でも簡単にオープンワールドのゲームが作れるな アップル、「iMessage」にポスト量子暗号を導入へ--未来の量子攻撃に備える
>> ほとんどのメッセージングアプリの安全性はレベル0か1で、エンドツーエンドの暗号化にポスト量子安全性はない。PQ3を使用したiMessageは、将来行われる可能性がある量子攻撃にも耐えられるように設計されている。ただし、そのような攻撃が実現するのはまだかなり先の話だ。
>> Appleの説明では、メッセージングサービスの中でレベル3のポスト量子安全性を持つものはiMessageだけで、今ある唯一のポスト量子安全なメッセージングサービスであるSignalでは、レベル2のプロトコルである「PQXDH」を使用しているという。
>> レベル2のプロトコルでは、最初の鍵交換にだけポスト量子暗号を使用する。この方法では、何らかの方法で鍵が漏えいしてしまった場合、鍵が変更されるまではスレッド内のメッセージにアクセスできる。
>> iMessageで提供されるレベル3では、会話の冒頭から高度な暗号化方式を使用して終始維持することになっており、暗号化の鍵は自動的に頻繁に変更される。この場合、もし会話が漏えいしても、攻撃者は鍵が変更されるまでのごく一部の内容にしかアクセスできない。
暗号化もすでに盗んでいるので通常回線で
ボイス・トォ・スカルっ同士で攻撃しあっています メタバースでの映画試写会で感じた柔軟性の高さ--映画体験の再定義と未来への可能性
>> このメタバース空間では、映画「つ。」の世界観や佐賀県の文化、風景などをバーチャルで体験することができ、映画のプロモーションと地域の魅力を同時に伝える新しい試みとなっている。訪れる人々は「SAGALAND」を通じて、映画のシーンやキャラクター、佐賀県の名所などを探索し、映画と地域の独特な雰囲気を味わうことが可能だ。このようなメタバースを利用した映画の試写会やプロモーションは、映画業界に新しい風を吹き込むものである。映画ファンにとっては新たな魅力となるだろう。
>> 「SAGALAND」はRoblox内で提供されるゲーム空間で、映画のワンシーンやロケ地をゲーム要素で再現している。インターン中の学生が作成したワールドで、佐賀県の風景を背景に記念撮影ができる写真機能や、気球に乗ってワールドを巡る機能を通じて、佐賀県の魅力をバーチャルで体験できる。また、佐賀県の名産品であるきゅうりがゲーム内通貨として用いられ、集めたきゅうりをアイテムと交換することが可能だ。
>> メタバース空間「SAGALAND」の開設や、メタバースでの試写会の開催は、この映画の独特な世界観やメッセージをより多くの人に伝えるための斬新な試みである。メタバースを通じて映画の世界に触れることで、観客は作品の深い理解を得られるだけでなく、佐賀県の文化や風土にも触れることができる。 テキストからAIでモーションを作成・編集できるUE5用プラグイン『MotionTwin』のベータ版がリリース。AIを使った複数のモーションの滑らかなつなぎ合わせも可能
https://gamemakers.jp/article/2024_01_05_58681/ >>>28
>>Midjourneyの生成画像。12月のアップデートのv6では、写真と変わらないような画像が生成されることが話題となっている。この画像のような世界を動き回れるようになるのだろうか(筆者作成)
>> 画像生成AIサービス「Midjourney」のオフィスアワーがあったのが1月4日。アメリカ時間で1月3日ですかね。オフィスアワーというのは、MidjourneyがDiscord上で月に1回開いて、いろいろユーザー向けに今後どのようにサービスが展開されるのかを説明するミーティングです。その会合に参加していたNick St. Pierreさんの報告によると、Midjourneyのデイヴィッド・ホルツCEOが「2024年末までにホロデッキに到達できる」と話したと言うんですね。「2024 年末までには、リアルタイムのオープンワールドが実現できればと思っています」とも言い、画像生成AIが、単にイラストといった画像を生成するというものの可能性を超える存在を狙うことを予告したと。この目標はすなわち、画像生成AIをゲームエンジン化することを意味しています。 >>28
画像内の物体の重なりを調べてDepthとするのか
重なりに応じて物体はセグメンテーションしてあると
その3次元配置となるとまだまだ大変だが、何とか出来てるっぽいなあ 次世代グラボRTX5000シリーズ
性能2倍のうわさあり
信じすぎてもいけませんが本当ならまたAIの処理が速くなる AI用にGPUのVRAMの枠を取り払って
マシンのメモリも使えるようにする、って
情報もあったかな
NVLink C2Cである程度は速度を確保すると
8GB程度のVRAMのGPUでも大規模言語モデルを
トップスピードでなくても扱えるようになったら確かに嬉しい 高画質画像生成AI「Stable Diffusion 3」発表、画像生成AIが苦手とする「指定した文字の描写」「複数の被写体の描写」などを高精度に実現可能
https://gigazine.net/news/20240226-stable-diffusion-3/
Windows標準「フォト」アプリで画像の一部分をキレイに消せるAI消しゴム「Generative Erase」が利用可能に
https://gigazine.net/news/20240226-windows-photo-generative-erase/ >>33
>指定した文字の描写
昔は画像生成すると
いい加減な文字が入るって話題になってたなあ
これが指定できるようになると生成がずっと楽になる 無料のチャットボットAI「Chat With RTX」をNVIDIAがリリース、GeForce RTX GPU搭載PCでローカル動作が可能
https://gigazine.net/news/20240214-nvidia-chat-with-rtx/
>>NVIDIAがGeForce RTX GPUで動作する技術デモ「Chat with RTX」を無料でリリースしました。ユーザーはChat with RTXを独自のコンテンツでパーソナライズでき、システム要件はVRAMが8GB以上のRTX 30シリーズ以降のGPUを搭載したWindowsマシンとなっています。
>>Chat with RTXに「サラがおすすめしていたレストランの名前は何?」と質問したところ、データセット内にある会議ログなどのテキストファイルを参考にレストランの名前を教えてくれました。
>>また、データセットにYouTubeのURLを指定することもできます。ムービーでは、CES 2024におけるNVIDIAの発表動画のURLが入力されています。
>>「CES 2024でNVIDIAはどんなGPUを発表した?」と質問したところ、Chat with RTXは動画の内容から「NVIDIAはRTX 4080 Super、RTX 4070 Ti Super、RTX 4070 Superを発表しました」と回答しました。
>>Chat with RTXを使うことで、手元にある長い議事録をChat with RTXにまとめさせたり、PDFファイルに書かれている内容から検索したい事項だけを抽出したりすることが可能になります。 ChatGPTの記憶能力が強化されて同じことの繰り返し入力が不要に
https://gigazine.net/news/20240214-chatgpt-memory/
>>開発元のOpenAIによると、ユーザーが明示的に要求しない限り、健康情報のような機密情報を積極的に記憶しないようにChatGPTを設計しているとのこと。またメモリー機能は使用すればするほど向上し、時間の経過とともに改善されていることを体感できるそうです。 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」
https://ascii.jp/elem/000/004/185/4185940/
>>何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。
>> 具体的には、VRAM容量が6GBのグラフィックボードを使うと、60〜70%高速化します。また、使用時のピークメモリも大幅に減少するため、Hires.fixといったアップスケーラーを使った大きな画像生成も可能になります。4090環境だと高速化されるのは5%程度なので体感ではそれほど変わりませんが、ピークメモリが減少するなどのメリットがあります。そのため、Stable Diffusionを利用する多くのユーザーにメリットがある環境になりました。 大規模言語モデル(LLM)を爆速で動作させる「言語処理ユニット(LPU)」を開発する「Groq」が爆速アルファデモを公開
https://gigazine.net/news/20240221-groq-llm-lpu/
>>これに対して、Groqが開発しているLPUは既存のLLMを爆速で動作させるために設計されたチップとなっており、一連のデータ(DNA、音楽、コード、自然言語など)を処理するべく特別設計されているため、GPUよりもはるかに優れたパフォーマンスを発揮可能です。
>>Groqは独自のLLMを開発しているわけではありませんが、既存のLLMを用いてGPUベースの処理よりも最大10倍高速にLLMを実行できるアルファ版のデモンストレーションを公開しています。
>>なお、GroqのデモンストレーションではMetaが開発する「Llama 2 70B」と、Mistral AIが開発する「Mixtral 8x7B」のいずれかを利用できるようになっており、モデルの切り替えは画面左上から可能です。 ルネサス、130TOPSを実現したエッジAI向け組み込みプロセッサ技術を開発
>>ルネサス エレクトロニクスは2月22日、ビジョンAIを高速かつ低消費電力で実現できる組み込みプロセッサ技術を開発したことを発表した。
>>MPUの場合、数十TOPSから100TOPSクラスのピーク性能が求められることとなるが、従来のAIアクセラレータでは発熱量が大きくなってしまい、消費電力10W以下でファンレス化が求められるロボットをはじめとする機器に搭載できないという課題があったとする。さらに、非AI側における協調動作などの処理も求められるため、一般的な組み込みCPUでは十分なリアルタイム性能が発揮できず、これらをリアルタイム性を持たせて処理できるようになるためには少なくとも現状の10倍以上に性能を向上させる必要があるともする。
>>Processor:DRP)ベースのAIアクセラレータ(DRP+MACで構成)を開発したほか、CPUなど各種IPを協調動作させることでリアルタイム処理を実現するヘテロジニアスアーキテクチャの2つの技術を開発することで、14nmプロセスベースの試作チップで従来比で最大16倍となる130TOPSの処理性能、ならびに最大23.9TOPS/W(0.8V動作時)の電力効率を達成したとする。
>>枝刈りで演算量を減らせることは以前から知られていたが、それでも課題があった。それを今回、DRP-AIを活用する形で、枝刈りモデルの高速化を実現した
>>こうした非AIの制御にはDRP-AIではなく、その元となっているDRPの方が得意である。DRPは、必要な演算器やメモリをサイクルごとに切り替えて、最適なデータ処理を可能にする技術であり、無駄な回路を動かさずに済むため、低電力化や高速化が可能になるほか、ストリーミングの処理をパイプライン上に流す形での処理のためミスヒットが起きないというメリットもあり、安定したサイクル数での処理が可能なため、ロボットに求められるようなリアルタイム処理に向いている。
>>また、ロボットの制御には複数のアルゴリズムを組み合わせる必要があるが、そうしたアルゴリズムの切り替えについてもDRPでは1msで切り替えが可能であることから、相性が良いと同社では説明する。
>>例えば画像処理を行う場合、AI部分が高速化しても、その前後段の処理が高速化しなければ、そこがボトルネックとなる。その部分の処理をDRPに行わせれば、全体的な高速化を図ることが可能となるという。同社の試験では、AI以外の処理部分をDRPに置き換えることで、置き換えない場合と比べて6.5倍の高速化を実現できることを確認したという。また、画像認識のライブラリの1桁高速化やSLAMアプリケーションの実行では組み込みCPU単独動作に比べて約17倍の高速化、ならびに消費電力の1/12程度への低減を確認したとする。
>>また、その際の発熱も従来の同程度のAIアクセラレータではヒートシンクとファンでの冷却が必要であったが、ヒートシンクもファンもない状況で同程度(50℃強程度)の温度にでき、動作可能であることも確かめられたとしている。 GoogleのマルチモーダルAI「Gemini」ベースのプログラミングに特化したAI「AlphaCode 2」登場、競技プログラミング上位15%に入る性能
https://gigazine.net/news/20231207-google-gemini-programming-alphacode-2/
>>現地時間の2023年12月6日にGoogleがマルチモーダルAI「Gemini」をリリースしました。Geminiは大規模言語モデル「PaLM 2」と比べてプログラミング能力が向上しているほか、Geminiをベースに競技プログラミングに特化させたAI「AlphaCode 2」も開発されています。 無料で使える高機能動画編集ソフト「DaVinci Resolve」
https://www.sycom.co.jp/media/archives/3132/
ハリウッドでも使用
過去の動画も簡単編集 超解像機能をWindows DirectXそのものに搭載!? その名もMicrosoft「DirectSR」
https://news.mynavi.jp/article/20240226-2892450/ スクリプトのグロ画像をGPTで解析予測して貰ったら視床下部・扁桃体に影響を与え情動・記憶に傷害を与える可能性が有るとの事で
各自で対策?御自愛下さい うろすわーどぱづる
ナンプレ
間違い間違い絵探し
全てのモザイクの復元
なぞなぞを解く
探偵小説の犯人などを当てる
迷路をゴールまでたどり着く
塗り絵を違和感ないようにぬる
これらができるようになればアバウトな質問Dっでも認識する
上記の逆を行えば作成する側なので商品を作成可能 「Windows」のフォトアプリ、余計な物体を消せるAI機能「Generative Erase」を追加へ
https://japan.cnet.com/article/35215686/ 「AIが画像の説明を自動生成」「スマートウォッチにポイントカードや会員証表示」などAndroidの新機能追加をGoogleが発表
https://gigazine.net/news/20240227-new-android-features-february-2024/
Qualcommがスマホでローカル動作する生成AIライブラリ「Qualcomm AI Hub」&AI内蔵5Gモデム「Snapdragon X80 5G Modem-RF System」&Wi-Fi 7対応無線通信チップ「FastConnect 7900」を発表
https://gigazine.net/news/20240227-qualcomm-5g-wi-fi-7-ai/ NVIDIAが外出先でもローカルでAIをフル活用できるノートPC向けGPU「RTX 500/1000 Ada Generation」を発表
https://gigazine.net/news/20240227-nvidia-rtx-ada-generation-ai/
MicrosoftがAI開発企業「Mistral AI」との提携を発表、Mistral AIがAzureの計算資源を利用可能になりAzureユーザーはOpenAIのモデルに加えてMistral AIのモデルも利用可能に
https://gigazine.net/news/20240227-microsoft-azure-mistral-large/ >>51
ミストラルはフランスな
もう去年途中から人気の一つだ
いろんなもの出してる
日本は全くフォローしてない >>50
アップルはもう以前からiPhoneにらAIコア乗せてやってるぞ
写真イメージからのテキスト抜き出してテキスト検索してイメージ出すとかできるのはそのおかげ >>49
Adobeも遅くてやり出したからそのくらいイメージアプリができないでは使ってもらえないからだ >>51
フル活用とはいい加減なメディアだな
おまえのフルチンってのが3センチなんだろな >>43
世界のデフォルトデファクトの当たり前を書く
さすが古代情報局エセ科学板 盗聴盗撮機はオープン回線
周波数がは判明すれば全員見れる
無線機の改造は違法になる?
https://www.rentceiver.jp/column/column36/
>>ちなみに、実際に無線機を利用していなければ、違法行為としてみなされないのではないかと考える人もいるかもしれませんが、それもまた違っています。
>>実は無線機を使って実際に送受信していなかったとしても、それができる環境が無届けで整っている場合は違法とみなされてしまうので注意しなければなりません。 資金集めに盛る傾向があるからなぁ…
マスコミもPV取れるから加担するし Stable Diffusion XLがプロンプト入力に追従して爆速画像生成してくれる「SDXL Lightning」のデモが公開中
https://gigazine.net/news/20240227-sdxl-lightning/ ゲーム どうさは動きを決められているので初めからの動作を描く
アニメ 最初と最後を最初に描いて次に中間そのご 各々の中間を完成か2枚の絵に合うように動作を絵がう >>61
業務を筋道を立てて記述できれば
みんなプログラマーなんだな
そしてその習得こそが難しいというw RTX6000ではVRAMが36GBになるかどうか 転送速度1280GB/sで容量36GBの超高速メモリ「HBM3E 12H」をSamsungが発表、AIの学習の高速化と推論の並列実行数増加が可能
https://gigazine.net/news/20240229-samsung-36gb-hbm3e-12h/
Microsoftが1.58ビットの大規模言語モデルをリリース、行列計算を足し算にできて計算コスト激減へ
https://gigazine.net/news/20240229-microsoft-1bit-llm/ Aiにアセンブラプログラミングを学習させるともっと洗練されたものになる? >>66
業務プログラミングはエンドユーザープログラミング
Webサービスプログラミングはエンドユーザー汎用サービスプログラミングめ業務じゃない
AIプログラミングは業務デザインとは全く違う
プログラミングってのは千差万別 >>74
アセンブラとはCPU別アーキテクチャ別で全く違うが一番簡単だ
洗練とは自己中の表現
最適化という意味もしくは最短インストラクションという意味ならそれは特別仕様という意味で汎用性はなくなる >>74
アセンブラはそのマシンでしか動かなくていいものにだけ使う
汎用のために今はCがある Carbonは、「C++の後継言語」としてGoogleで作成された実験的な汎用プログラミング言語である。 この言語は、2022年7月の CppNorth conference で Chandler Carruth によって一般に初めて公開された。
https://ja.wikipedia.org/wiki/Carbon_(%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E8%A8%80%E8%AA%9E)
C言語の後継? Rustの使い方
https://idealump.com/service/lab/215 2023年05月08日 12時13分
従来のPythonよりも高速化が可能な新たなプログラミング言語「Mojo」が開発される
https://gigazine.net/news/20230508-mojo-programming-language/ 2018/08/17
いずれPythonのライバルに?新言語「Julia」の人気が急上昇
https://japan.zdnet.com/article/35124177/ KotlinはJavaの後継と評され、これまでJavaで開発されてきた分野でKotlinが使われるようになってきました。 Androidのアプリ開発においては、Javaに代わり開発言語の第一候補にあげられるようになり、また、サーバーサイド開発でも使われるようになってきました。2023/11/21
https://tech-stock.com/magazine/what-is-kotlin/
2022/09/28
Scala(スカラ)とは?言語の特徴や開発手法、Javaとの違い
https://hnavi.co.jp/knowledge/blog/scala/ 東北大、メロンやアンチメロンなどトポロジカル磁気構造の作り分けに成功
https://news.mynavi.jp/techplus/article/20240229-2895282/
これまで、どのような材料系で磁気スキルミオン以外の反強磁性トポロジカル磁気構造が安定的に実現できるのか解明されていなかったが、今回の研究によって、人工反強磁性体で反強磁性メロン、アンチメロン、バイメロンが実現され、そのヘリシティ制御が実証された。研究チームは今後について、これらの構造の電気的制御をいかに実現するかが、革新的情報デバイスの実現に向けて重要になると考えられるとしている。 ルネサス、ファンレスで80TOPSのAI推論を実現したDRP-AI搭載MPU「RZ/V2H」を発売
https://news.mynavi.jp/techplus/article/20240229-2895243/
Applications」や、AIを使ったユーザアプリケーションの開発の短期間化を可能とする「AI SDK(Software Development Kit)」を組み合わせることで、AIに関する深い知見がなくても、AIアプリの早期評価が可能になるとしている。このほか、同社のパートナーであるAMATAMAからRaspberry PiフォームファクタのSBC(Single Board Computer)「Kaki Pi(カキパイ)」も2024年4月下旬ころより提供される予定だという(販売はユリ電気商会が担当)。 NEDOなど、シールのように二次元物質を自由に貼れるテープ転写法を開発
https://news.mynavi.jp/techplus/article/20240215-2883791/
>>なお今回の研究では、効率的にUVテープ開発をするためにAIが活用され、最高で99%の転写率が達成されたほか、UVテープによるグラフェンは従来法に比べると破れや残渣が大幅に少なく、かつ表面が平滑であり、転写を短時間で行えるようにもなったとした。
>>さらに、テープ転写法の粘着剤などの最適化が行われ、「遷移金属ダイカルコゲナイド」(TMD)の代表で、半導体二次元物質の「二硫化モリブデン(MoS2)」や、絶縁性の「六方晶窒化ホウ素」(hBN)など、ほかの二次元物質でも利用できるようにしたとする。なお、テープ転写によるMoS2を用いて良好なトランジスタの動作も確認済みとした。さらに、今回のテープ転写法では、hBN→グラフェン→hBNと、異なる二次元物質による3回の転写も実現できており、複数の二次元物質を重ねた積層構造の作製も可能としている。 「Copilot」の新機能「ノートブック」--最大1万8000字のプロンプトに対応
https://japan.cnet.com/article/35215873/ 間違間違い絵探し
Aiに左右の絵を見比べて間違っている個所を見つけて行くと
正しい映像のさ宇正方法を学べる ゆくりと映像が変化するパづるゲームがあるのえ
色合いの変化をで変化した箇所を見つけると
色合いがおかしいや指がおかしいをAIが学区集 「Copilotの機能追加」「スマホをウェブカメラ化」などWindowsに導入される新機能まとめ
https://gigazine.net/news/20240301-windows-11-copilot/
NVIDIAの「DLSS」やAMDの「FidelityFX」など複数のゲーム超解像技術に単一コードで対応可能になるAPI「DirectSR」をMicrosoftが発表
https://gigazine.net/news/20240301-directsr-game-super-resolution-api/ 大規模言語モデルの動作をExcelで完全に再現することでプログラミングをせずにAIの構造を学習できるシートが登場
https://gigazine.net/news/20240302-excel-gpt-2/ アドビ、音楽生成AI「Project Music GenAI Control」を発表--細かい調整も可能
https://japan.cnet.com/article/35215930/