R

Язык и среда R

Статистическое программное обеспечение

Вышла новая версия RStudio - v0.96
Shaldon
[info]violent_patient
Два дня тому назад в официальном блоге RStudio было сообщено о выходе новой версии программы. В данном обновлении разработчики одной из самых популярных IDE для R сосредоточились на опциях, направленных на 1) обеспечение воспроизодимости научных исследований путем "грамотного программирования" (соответственно, расширились возможности по работе с Sweave и появилась интеграция с пакетом knitr); 2) создание динамических веб-отчетов в форматах R Markdown и R HTML.

Читать дальше...
Метки: , ,

Вопросы новичка
[info]derevnya_trade
Загружаю таблицу. Там некоторые колонки являются временем начала и конца наблюдения. А показываются как факторы. Нужно чтобы было временем. Делаю так:
t00 = read.table(file="d:./data.dat" ,sep=';',header=TRUE)
x=t00$EntryDate;
x1=lapply(X=x,FUN="strptime",format='%d.%m.%Y %H:%M:%S');
вот тут уже есть список, но если присвоить в колонку таблицы (туда где тип фактор), то фигня какая получается.

Помогите с ВИКИ
[info]aleksandrk1
Коллеги, помогите написать статью в Вики Бустрепинг_(статистика)!

Если "нам нужно больше скорости" :)
аватар
[info]p2004r
http://www.divms.uiowa.edu/~luke/talks/uiowa11.pdf

Замечательно подробный обзор перспектив поднятия скорости исполнения r-кода от автора XLispStat Luke Tierney.

Манипуляция с атрибутами
Gendo smiles
[info]simmons_fan
Вопрос на базовые манипуляции с данными. Надеюсь, что к тому моменту, как допишу этот пост, я сам пойму, что нужно сделать.

Есть ряд объектов. Каждый объект обладает одним или несколькими признаками. Нужно получить матрицу смежности объектов, где на пересечении i с j будет число общих признаков у i и j.

На данный момент данные в Excel, где для каждого объекта есть таблица в одной из столбцов которой содержатся признаки, по одному на строку.

Ну вот, пост дописан, а как это сделать я по-прежнему не понимаю. 

Выручайте.

Подборка туториалов по R
Gendo smiles
[info]simmons_fan
Добрые люди поделились ссылкой на подборку из 23 туториалов по R:

http://pairach.com/2012/02/26/r-tutorials-from-universities-around-the-world/

Возможно имеет смысл закинуть в список ссылок сообщества (если её там ещё нет).

R и APL
аватар
[info]p2004r
http://flibusta.net/b/156597

Очень хорошая старенькая брошюра о APL. Всем крайне рекомендую прочитать рассказ про вычисление тормозного пути автомобиля. Нашедшего отличия сессии APL от сессии R просьба отозваться :).

Если вас заинтересует темная сторона силы APL возможности R, то следует обратить внимание на J. По крайней мере навыки выработанные после минимального изучения этого языка крайне повышают возможности эффективного использования R.
Метки:

Взгляд конечно варварский...
аватар
[info]p2004r


http://channel9.msdn.com/Events/Lang-NEXT/Lang-NEXT-2012/Why-and-How-People-Use-R
лекция John Cook  на тему "Why and How People Use R".

Достоинства в лекции очевидны, поэтому остановимся на недостатках :)

Никак не могу согласится с оратором на тему, что в случае R, DSL в части D превосходит L. Опыт автора лекции почему то  генезис R выводит от сплава Схемы и Фортрана. Хотя всем известно что второй компонентой R послужили конструкции APL(J,K).

Автор почему то боится сказать REPL, заменяя этот термин и указанием на единое пространство имен (что вообще то выглядит странно, R как Схема ограничена в этой области только фантазией пользователя), и на динамичность с краткостью. Более того все современные аналогичные продукты также вокруг REPL функционируют. Octave (Matlab), maxima (Matematica). Похоже что REPL это часть любой успешной сложной системы.

Про скорость мне понятно, что не зная и не пользуясь APL подобными конструкциями, автору остается только  пользовать унылый for(). Неоднократно проводились показательные оптимизации практического кода показывающие, что в лучшем случае C код может обогнать код на R в пару раз. Но если пользоваться for(), то таки да 100 раз гарантированно :).

Является ли недостатком что R пишут статистики? DSL реализован поверх Лиспа, и заменить самописный лисп на один из написанных профессионалами не так уж и трудно. Например сейчас реализуют R поверх Scala (это такой лисп для ява машины).


PS про неэффективность использования памяти представления автора доклада также мягко говоря устарели. R позволяет работать с большими объемами данных. Для этого есть и специальные типы данных и эффективные операторы.
Метки:

мастер-класс "анализ данных в среде R"
default
[info]konhis
Коллеги, если вдруг вы будете на наших питерских берегах да болотах 26-27 апреля, то буду рад видеть вас на небольшом мастер-классе по анализу данных в среде R. Мастер-класс проходит в рамках конференции "Психология XXI века", которую ежегодно проводит факультет психологии СПбГУ. Ведущие мастер-класса - мои друзья и коллеги: Иван Воронин, Марат [info]tsundokum Зайнутдинов и Андрей [info]ralfer Четвериков.

Подробнее о программе мастер-класса, наших целях и задачах, анкете участника - в информационном письме

Как подключить MSSQL к R
[info]aleksandrk1
Формировать таблицы удобно в SQL сервере, но для их статистического анализа можно подключит пакет R. Чтобы запросить данные MSSQL из пакета R можно использовать код:
library(RODBC)
channel <- odbcConnect(dsn="d2")
# Подключение d2 нужно создавать заранее. Мне для этого пришлось установить Microsoft Visual Web Developer 2010 и воспользоваться: обозревателем баз данных/Источник данных Microsoft ODBC (ODBC)
sh1 <- sqlQuery(channel, "select * from БанкСводДанных")

Вы читаете сообщество [info]r_statistics