Śledzienie obiektow video w trybie rzeczywistym
Świetnie wygląda, szybkość powoli zbliża się do realtime.
Świetnie wygląda, szybkość powoli zbliża się do realtime.
Porównywarka cen modeli z CLI. Bardzo fajna i wygodna, polecam.
https://github.com/hzqtc/taproom
Świetne narzędzie, żeby odnaleźć się w możliwościach brew.
Rozwój modeli językowych wydaje się ciągłą walką - walką z rzeczami, które zauważamy, że działają źle. Nie ma już bardzo szybkiego postępu, a modele osiągnęły całkiem niezły poziom działania. Wciąż jednak mają błędy, halucynacje i problemy - a my, Ludzkość, krok po kroku je rozwiązujemy.
Jedną z ciekawszych rzeczy, które można było zauważyć wcześniej była chęć modeli na odpowiadanie na każdy nasz problem - bez względu na to, czy realny, czy zmyślony. Z jednej strony to rodzi świetne możliwości - z drugiej modele wymyślały rzeczy, które zupełnie nie miały sensu.
Bullshit benchmark badał działanie modeli w odpowiedzi na pytania, które nie miały sensu, zupełnie. (Właśnie sobie uświadomiłem, że prowadziłem kiedyś podobne badania na ludziach - zadając pseudonaukowe bełkotliwe pytania ludziom, którzy z nauką nie mieli zbyt wiele wspólnego). Modele improwizowały i kombinowały. Ale najnowsze są już blisko poziomu, z którego będziemy zadowoleni... tylko kreatywności żal.
Może całkiem przebudować rynek modeli.
(Jak tylko będzie dostępny po API)

Przyznaję, że postęp od 1.5, który był dobrym modelem, na którym wygenerowałem bardzo dużo muzyki, jest ogromny.
Przede wszystkim jakościowy, ale również podążania za instrukcjami.
Oczywiście nadal jest to raczej generowania ścieżek dźwiękowych w tle - a nie nowa narzędzie dla muzyków.
...i do tego możecie go uruchomić na swoim sprzęcie.
Co najmniej warty zainteresowania.
AI coding assistants are everywhere. 97% of developers now use AI tools, and organizations report 40%+ of their codebase is AI-generated. But there's a critical gap: AI models consistently reproduce the same dangerous security anti-patterns, with studies showing:
86% XSS failure rate in AI-generated code
72% of Java AI code contains vulnerabilities
AI code is 2.74x more likely to have XSS vulnerabilities than human-written code
81% of organizations have shipped vulnerable AI-generated code to production
Co nie znaczy, że kodu nie powinno się generować. Trzeba - ale z głową.
A niedługo i tak pojawią się modele / skills / apki oparty o LLM, które te błędy wynajdą i poprawią.
Tyle sobie po nim obiecywałem, a nigdy nie miałem czasu do niego zajrzeć. W erze agentów piszących kod postanowiłem poświęcić wieczór i przeżyłem duże rozczarowanie.
"Natywności" za wiele nie odczułem na ios, dodatkowo wszystkie wartościowe komponenty są płatne. Nawet artykuły pisane przez głównego ewangelistę są za paywallem.
Wielkie rozczarowanie - wolę jednak swoje komponenty w takim przypadku.
Battled an AI for a great deal. Try topping that🤣
Świetnie przemyślana akcja promocyjna - można przekonywać czat-bota do zniżki na pierwszy miesiąc. Udało mi się zejść do 2.49$, to żadne pieniądze jak za test ;-)

Świetnie się to ogląda, mimo że warsztat słaby i dużo można poprawić. To jedna z tych rzeczy na youtube, która przywraca wiarę w sens ten serwis.
Czy duże modele językowe potrafią rozpoznać błędy ortograficzne? Różnie to bywa... różnie.
Moje podejście do przeglądarek AI można podsumować jednym wyrazem: Sceptyczny.
Jest po prostu zbyt wcześnie, a piszą je ludzie skupieni na hypeowaniu tematu, nie na zdroworozsądkowym podejściu.
Artykuł pokazuje kolejny wektor ataku, tak banalny, że w większości "normalnych" prac zostałby wyłapany.
Już SAM2 był niesamowitym modelem - teraz poszli jeszcze dalej, osiągając jeszcze lepsze wyniki.
Nie mogę się doczekać, co nowego powstanie bazując na tym modelu.
Najważniejsze - wagi są dostępne dla wszystkich.
Jeszcze nie mam swojego podsumowania do tego modelu, ale w sieci jest mnóstwo śmieciowych artykułów i zachwalań. Powinienem był już się do tego przyzwyczaić, ale jakoś nie mogę.
Właśnie skończyła się prezentacja Kilo nt Gemini i głównym elementem była generacja gry wideo... która nie działa.
Teraz tylko czekam na pojawienie się na replicate i rozpoczynam testy!
Tym razem to model text to speech i według zapewnień to najlepszy dostępny model.
https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/Sprawdziłem i działa świetnie w wersji 30b na zwykłym air z m4. Wyniki pozwalają na użycie go nawet w celach produkcyjnych.
Dodatkowo jest to model "myślący" (jak większość teraz wychodzących), więc jego wyniki są niesamowite. Poniżej przykład dla prostego zdjęcia. Sam bym tego tak dokładnie i tak dobrze nie opisał:
So, let's look at the image. There are two people holding a large bouquet of flowers. The man is on the left, wearing a black suit with a white shirt and black shoes. The woman on the right is in purple pants and a dark top, also with black shoes. The bouquet is very colorful—lots of pink, orange, blue, and green flowers with some foliage. The setting is an indoor room with beige walls, a tiled floor, and a framed blue banner on the wall with some text. The room has a door frame visible. So I need to describe what's in the image.
...done thinking.
In the image, there are two people standing in an indoor room, holding a large, vibrant bouquet of flowers.
- **The person on the left** is wearing a black suit (with a white dress shirt underneath) and black dress shoes.
- **The person on the right** is dressed in purple pants and a dark top, paired with black pointed-toe shoes.
- The **bouquet** is exceptionally colorful, featuring a mix of flowers like pink roses, orange blooms, blue hydrangeas, yellow daisies, and various greenery (including eucalyptus and long grassy stems), all arranged in a large, round composition.
The room has **beige walls**, a **tiled floor**, and a framed blue banner with text (partially visible, showing “STIR...” and some decorative elements) mounted on the wall to the left. The space appears to be a simple, indoor setting (possibly a hallway or small room with a door frame visible). The overall atmosphere suggests a celebratory or formal occasion, likely related to an event like a wedding or anniversary.
Można by powiedzieć "w końcu". Większość aplikacji ma obsługę od dawna.
To, co cieszy: ceny generatorów video spadają do poziomu generatorów obrazów sprzed roku. Flux pro kosztował tyle, co teraz 8 sekund video. To jest niesamowite.
Oby tylko ludzkość znalazła dobre zastosowania do tego, zamiast tworzyć kolejne sory (czyt. badziewia).
Po tylu latach pracy we frameworku mam już trochę skrzywione podejście na programowanie. Pewnie dlatego dość alergicznie reaguję na Laravela i dziwne frameworki JSowe.
Olbrzymim gamechangerem dla mnie był pewnego rodzaju mariaż z Rubym i przeniesienie zarówno Turbo jak i Stimulusa w świat Symfony.
Pokazująca jak wrażliwe mogą być systemy oparte na LLM. Jestem przekonany, że to dopiero część góry lodowej, która wyłoni się przed nami - góry problemów.
Modele są świetne i bardzo dobrze sprawdzają się w wielu sytuacjach, ale konstrukcja systemów, które ich używają bardzo często jest błędna. Dzieje się tak dlatego, że na siłę są one wpychane w każde możliwe miejsce - dlatego nawet tak duże organizacje jak openai popełniają błędy (których można uniknąć).
Coraz częściej publikowane wiadomości są proste - nawet ja ograniczam się do mikrobloga. Ale tylko pełne i dokładne artykuły fajnie pokazujące proces pozwalają mi się rozwinąć jako programiście.
Świetnie wyglądający model, który zamienia rastry w svg. Od Recrafta, którego modelami do SVG zachwycam się od dawna. Na pewno trzeba dodać do narzędzi - bo same modele generujące SVG chociaż całkiem niezłe, to mają mnóstwo niedociągnięć (których może pozbędziemy się z czasem).
Sorta to tylko zabawka, która stanowi próbę zarobienia (w końcu) pieniędzy przez OpenAI. Luma pokazała model, przy którym opadła mi szczęka.
Już śpieszę z wiadomością, ale nie miałem jeszcze czasu sprawdzić jego możliwości. Na pewno zachwala go bardzo poważana przeze mnie osoba - Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 @elder_plinius na X.
https://x.com/elder_pliniusOczywiście zabezpieczenia już złamane (ale nie było chyba modelu, którego zabezpieczeń nie udało mu się obejść).
Trzeba przyznać, że wygląda i brzmi całkiem nieźle. Multimodalny a do tego w czasie rzeczywistym. Nic, tylko czekać na możliwość uruchomienia na własnym sprzęcie.
W przypadku uczniów, ponad 90% wybiera nano-banana do edycji zdjęć (do generowania też). Tak wynika ze statystyk. W większości są też zachwyceni - co zniechęca ich do używania innych modeli, a stąd już tylko krok do monopolu.
Coś pomiędzy AI a SEO.
https://www.teruza.com/info-hub/how-to-stop-google-from-ai-summarising-your-websiteZabierałem się za napisanie podobnego artykułu, ponieważ większość przeglądarek AI to śmieciowe rzeczy napisane na kolanie i nie powinny opuszczać środowisk testowych ludzi, którzy je pisali. Nawet połowa rzeczy, które miałem w głowie nie została poruszona - a już osiągnęliśmy taki poziom absurdu, że jedynym rozwiązaniem powinna być likwidacja wszystkich przeglądarek do czasu aż wymyślimy, jak to zrobić lepiej.

Świetna prezentacja Davida Heinemeiera Hanssona - w kwestiach które uważa za bardzo złe. Zgadzam się z nim praktycznie we wszystkich wątkach - zwłaszcza w tych, w których wyśmiewa gigantów / chmurę.
Można się tylko zastanawiać, dlaczego dopiero teraz?
https://www.bowerbyte.com/posts/blocky-planet/https://x.com/levelsio/status/1962616812866027641Z pierwszych testów wynika, że działają bardzo dobrze. A przy tym ich cena jest bardzo, bardzo niska.
Zaskakujące dla wszystkich - model 2.5 opublikowany na Hugging Face, z możliwością uruchomienia lokalnie (8GPU po > 40GB każda). Wymagania są duże, ale są do spełnienia za rozsądne pieniądze.
Jaki modle był, każdy wie (albo niech sprawdzi benchmarki) - wydaje się, że to odpowiedź na modele Open Source od OpenAI - ale dużo lepiej Eleon wyjdzie na tym marketingowo.
Nowy model open source o wydajności przewyższającej modele od OpenAI. Świetnie to wygląda i już wkrótce asystenci będą mogli być prawie darmowi - zejdziemy z ceną do kosztu pracy zwykłego laptopa z armem.